본문 바로가기

책/가상면접사례로 배우는 대규모 시스템 설계2

[가상면접사례로 배우는 대규모 시스템 설계] 9장 웹 크롤러 설계 🤖9장 웹 크롤러 설계크롤러는 검색 엔진 인덱싱, 웹 아카이빙, 웹 마이닝, 웹 모니터링 에 사용 한다. 🍀 1단계 : 문제 이해 및 설계 범위 확정감당해야 하는 데이터의 규모와 기능들을 알아내기 개략적 규모 추정매달 10억 개의 웹 페이지를 다운로드초 당 400 페이지 , 최대 800웹 페이지 크기 평균 500K매달 500TB 저장 용량🍀 2단계 : 개략적 설계안 제시 및 동의 구하기설계안 & 작업 흐름시작 URL들을 미수집 URL 저장소 저장미수집 URL 저장소에서 URL 목록을 가져옴도메인 이름 변환기 사용해서 URL로 부터 IP 주소 알아내고 웹 페이지 다운로드HTML 페이지 파싱 ,검증 : 콘텐츠 파서중복 컨텐츠 확인이미 컨텐츠 저장소에 있는지 확인.HTML 페이지에서 링크 고름 : UR.. 2025. 3. 18.
[가상면접사례로 배우는 대규모 시스템 설계] URL 단축키 설계 🔗URL 단축키 설계🔷 1단계 : 문제 이해 및 설계 범위 확정질문을 통해 알아낸 요구사항🔷 2단계 : 개략적 설계안 제시 및 동의 구하기API 엔드포인트URL 리디렉션301 Permanently Moved302 FoundURL 단축🔷 상세 설계데이터 모델해시 함수🔷 마무리🔷 1단계 : 문제 이해 및 설계 범위 확정질문을 통해 알아낸 요구사항쓰기 연산: 매일 1억 개의 단축 URL 생성, 초당 1160읽기 연산 : 초당 11,60010년간 서비스 운영시 1억개의 레코드 보관축약 전 URL 평균길이 : 100⇒ 10년 동안 필요한 저장 용량 36.5TB🔷 2단계 : 개략적 설계안 제시 및 동의 구하기API 엔드포인트[1] RESTful API기본적으로 두 개의 엔드포인트가 필요하다.URL 단축.. 2025. 3. 18.