봇이란 무엇일까?
흔히 웹사이트를 보다보면 이런 로봇이 아니라는 것에 체크하라는 창이 뜬다. 대체 왜 이런 창을 띄우는지 궁금했다.
'봇'을 막기 위한 용도로 해당 페이지에서 적용하는 거라고 한다.
대체 봇이 뭐길래. 이렇게 귀찮게 하는지.
'봇' 을 위키백과에서 찾아보니 이렇게 뜬다.
인터넷 봇(Internet bot), 웹 로봇(web robot), WWW 로봇(WWW robot), 단순히 봇(bot)은 인터넷 상에서 자동화된 작업(스크립트)를 실행하는 응용 소프트웨어이다.[1]
봇은 인간이 하는 행동을 흉내내도록 만들어진다. 예를 들어, 검색엔진의 웹 크롤러는 웹 사이트 정보를 자동으로 읽어들여 저장하는 프로그램이며, 이외에도 인터넷 채팅에서 자동 응답을 하도록 만든 채터봇 프로그램 등이 있다. 각 서버는 봇이 따를 서버 규칙이 포함된 robots.txt라는 이름의 파일을 소유하고 있다. 일부 봇들은 악의적인 목적으로도 이용되기 하며, 자기복제 기능을 가지기도 한다.
이라고 나와있다.
우리를 귀찮게 하는 봇은 웹크롤러였다.
'웹 크롤러' 를 위키백과에서 찾아보니 이렇게 뜬다.
웹 크롤러(web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다.
웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.
웹 크롤러는 봇이나 소프트웨어 에이전트의 한 형태이다. 웹 크롤러는 대개 시드(seeds)라고 불리는 URL 리스트에서부터 시작하는데, 페이지의 모든 하이퍼링크를 인식하여 URL 리스트를 갱신한다. 갱신된 URL 리스트는 재귀적으로 다시 방문한다.
웹 크롤러가 하는 일은 사이트를 다 탐색하여 모든 페이지의 복사본을 생성하는 것이다.
웹크롤러의 이름은 여러가지던데 웹 스파이더[1], 앤트, 오토매틱 인덱서[2], 웹 스커터로도 부를 수 있다.[3] 그 외에 봇(bots), 웜(worms), 웹 로봇(web robot) 등으로도 부른다고 한다.
http://www.bloter.net/archives/203798
위 링크에 따르면 네이버는 2개의 크롤링 봇을 전세계 웹에 풀어놓고 문서를 수집한다고 한다. 네이버봇과 예티이다.
http://chongmoa.com/webtool/4028
위 링크에서는 검색엔진에 보이고 싶지 않을 때 쓸 수 있는 방법! robot.txt 사용법 이다.
https://www.google.com/intl/ko/search/howsearchworks/crawling-indexing/
구글의 웹크롤링을 설명해준 문서이다.
댓글