대규모시스템설계기초

    [대규모 시스템 설계 기초] 9장 웹 크롤러 설계

    [대규모 시스템 설계 기초] 9장 웹 크롤러 설계

    9장은 웹 크롤러(web crawler) 설계에 대해 다룬다. 웹 크롤러는 로봇 또는 스파이더라고도 부른다. 검색 엔진에서 널리 쓰는 기술로, 웹에 새로 올라오거나 갱신된 콘텐츠를 찾아내는 것이 주된 목적이다. 크롤러 이용 검색 엔진 인덱싱(search engine indexing): 웹 페이지를 모아 검색 엔진을 위한 로컬 인덱스(local index)를 만듦 웹 아카이빙(web archiving): 나중에 사용할 목적으로 장기 보관하기 위해 웹에서 정보를 모으는 절차 웹 마이닝(web mining): 인터넷에서 유용한 지식을 도출해 냄 웹 모니터링(web monitoring): 인터넷에서 저작권이나 상표권이 침해되는 사례 모니터링 웹 크롤러의 복잡도는 처리해야 데이터의 규모에 따라 달라지기 때문에 데..