2018. 1. 22. 12:09 IT
robots.txt 저장 방법
To exclude all robots from the entire server
(사이트 전체가 모든 검색엔진에 노출되는 것을 원하지 않을 때 )
User-agent: *
Disallow: /
To allow all robots complete access
(사이트 전체가 모든 검색엔진에 노출되기를 원할 때 )
User-agent: *
Disallow:
(or just create an empty "/robots.txt" file, or don't use one at all)
To exclude all robots from part of the server
( 디렉토리의 일부만 검색엔진에 노출하고 싶을 때)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
(로봇은 cgi-bin,tmp,junk라는 폴더에 속한 웹문서에 접근할 수 없습니다.)
To exclude a single robot
(전체가 검색되길 원하지만 특정 검색엔진을 거부하고 싶을 때)
User-agent: BadBot
Disallow: /
(“BadBot”이라는 이름을 가진 로봇만을 배제하게 됩니다.)
To allow a single robot
(전체가 검색되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때)
User-agent: Google
Disallow:
User-agent: *
Disallow: /
(이 경우 GoogleBot만이 웹문서를 수집해갈 수 있습니다.)
“robots.txt”를 작성하는 것과 유사한 방법으로
HTML문서의 (HEAD)와 (/HEAD)태그 사이에(META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW")라는 메타태그를 추가하면 로봇은 웹 문서를 가져갈 수 없습니다.
이 방법은 다소 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에가장 확실하게 로봇의 접근을 막을 수 있는 방법입니다.
'IT' 카테고리의 다른 글
네트워크 패킷 분석 및 모니터링 무료 프로그램 (0) | 2018.04.26 |
---|---|
KCP 응답 코드. 에러 코드. (0) | 2018.01.23 |
개발자 Class 를 만들어봤네요.. (0) | 2017.12.15 |
Specified VM install not found: type Standard VM, name jre8 (0) | 2017.03.07 |
IT업계 수익모델 총정리 (0) | 2017.01.24 |