Tag Archives: 다음봇

결국 다음 봇 차단 결정

트래픽을 몰리는 원인 분석 결과.. 가장 큰 원인이 여러개의 다음 봇이 동시에 접근하고 있는 것을 발견했습니다.
제가 알기로 다음봇은 구글봇과 동일해서 robots.txt 규칙을 잘 지키는 것으로 알고 있었는데..

어쩐 일인지, 여러개의 로봇이 돌아가면서 접근해서 엄청나게 트래픽을 잡아먹네요..
robots.txt 규칙을 따른다면 여러 봇이 오더라도 3시간에 한번씩만 가져가야 하니.. 트래픽이 많이 걸리지 않을 듯 한데.. 제가 뭔가 잘못 생각한 것인지도..

여하튼.. 이런 저런 생각하기 싫어서 .htaccess 에서 다음봇에 해당하는 영역을 그냥 deny했습니다.

트래픽이 아마 다시 30%대로 떨어져주지 않을까 기대됩니다.

다음봇.. 너무합니다.

다음봇.. 너무하는 거 아냐..

블로깅 이전에 트래픽은 10%미만이었던 홈페이지가 블로깅이후에 점점 트래픽이 늘어나서 rss는 피드 버너쪽으로 돌리게 만들고, 별의 별것을 다하게 되었고.. 드디어 어제 트래픽 초과라는 어마 어마한 일을 겪었습니다.
부랴 부랴 robots.txt도 만들어 넣었습니다. 20분 이내에 로봇은 오지 말라고..

그리고나서 오늘은 트래픽이 쾌적한 상태로 돌아올 것이라 생각하고 있었습니다..
하지만 착각이었습니다.

오후 1시경에 다시 트래픽이 60%까지 차오르고 있었습니다.
아.. 도대체 어떤넘이 문제인지 호스팅 업체에 문의한 결과.. 다음봇이 문제였습니다.

현재 가장 많이 들어온 아이피를 보면,

2 222.231.50.164 789 4.85% 30,917 5.34% 3 0.16%
3 222.231.50.166 740 4.55% 30,559 5.28% 3 0.16%
4 222.231.42.13 846 5.20% 30,031 5.19% 2 0.11%
5 222.231.42.14 797 4.90% 30,029 5.19% 6 0.32%
6 222.231.50.165 746 4.59% 29,092 5.03% 6 0.32%
7 222.231.42.12 783 4.82% 28,956 5.01% 4 0.21%
8 222.231.50.163 716 4.40% 28,350 4.90% 5 0.27%
9 222.231.50.160 666 4.10% 26,940 4.66% 4 0.21%
10 222.231.50.162 665 4.09% 26,385 4.56% 5 0.27%

이렇게 222.231 에서 들어온 아이피가 압도적으로 트레픽을 사용하고 있습니다.

해당 아이피가 어디에서 접속했는지 알아본 결과

222.231.42.14 – – [19/Oct/2006:02:30:29 +0900] “GET /robots.txt HTTP/1.0” 404 273 “-” “Mozilla/4.0 (compatible; EDI/1.6.6; Edacious & Intelligent Web Robot; Daum Communications Corp., Korea)”

인것을 찾아냈습니다.

이것외에도 야후, MSN 이 들어오기는 하지만, 다음에 비해 적은 수였습니다.

다음쪽 아이피를 차단해 보세요

다음에서 아주 활동성이 강한 봇을 만들었나보네요..

차마 다음쪽 아이피는 차단하지 않고 있습니다만.. 흠.. 계속 이런 트래픽이면 개인적인 용도의 페이지들도 쓸수가 없으니, 차단을 고려중입니다. 우선은 몇일 봐야겠습니다.