AWS 리소스가 웹사이트를 크롤링하는 데 사용되는 것을 막고 싶습니다.
간략한 설명
웹사이트를 크롤러로부터 보호하려면 robots.txt 파일을 생성하거나 수정하십시오. robots.txt 파일은 웹 크롤러 활동을 규제하는 승인된 표준입니다.
다음에 영향을 줄 수 있도록 robots.txt 파일을 수정하십시오.
- 웹사이트를 크롤링할 수 있는 크롤러
- 크롤러가 크롤링할 수 있는 페이지
- 페이지를 크롤링할 수 있는 속도
robots.txt 파일 및 시스템에 대한 자세한 내용은 Cloudflare.com 웹사이트에서 robots.txt란 무엇입니까?를 참조하십시오.
해결 방법
웹사이트와 연결된 robots.txt 파일이 없는 경우 텍스트 편집기를 사용하여 새 파일을 만듭니다. 파일 이름을 robots.txt로 지정합니다. 그렇지 않으면 robots.txt 파일을 여십시오.
특정 웹 크롤러 허용 안 함
로그에서 중지하려는 크롤러의 User-agent 이름을 확인합니다. 크롤러가 도메인의 페이지를 크롤링하지 못하도록 차단하려면 robots.txt 파일에 해당 User-agent 이름을 추가합니다.
User-agent: crawler
Disallow: /
참고: crawler를 크롤러의 User-agent 이름으로 바꾸십시오.
여러 크롤러 관리
새 텍스트 블록에서 각 크롤러에 대해 서로 다른 규칙을 정의할 수 있습니다. 다음 예에서는 crawler1이 페이지를 전혀 크롤링하지 못하도록 차단하지만 crawler2는 제한된 속도로 페이지를 크롤링하도록 허용합니다.
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
이 인수를 사용하면 crawler2가 사용자 도메인을 크롤링할 수 있지만 60밀리초마다 한 번만 크롤링할 수 있습니다.
모든 크롤러 차단
웹 콘텐츠에서 모든 크롤러를 차단하려면 와일드카드 문자를 사용하십시오.
User-agent: *
Disallow: /
참고: 검색 엔진은 크롤러를 사용하여 검색 결과에 사용할 페이지를 인덱싱합니다. 웹사이트에서 모든 크롤러를 차단하면 사용자가 페이지를 찾기가 더 어려워집니다.
크롤러가 액세스할 수 있는 디렉터리 제어
규칙을 정의하여 크롤러가 크롤링할 수 있는 디렉터리 또는 페이지를 지정할 수 있습니다. 다음 예에서는 directory2에 있는 example.html 페이지를 제외하고 directory1 및 directory2를 크롤러가 크롤링하지 못하도록 차단합니다.
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
참고: directory1 및 directory2를 사용자 디렉터리 이름으로 바꾸십시오. example.html을 페이지 이름으로 바꾸십시오.
도메인에 robots.txt 파일 추가
루트 도메인에 robots.txt 파일을 추가합니다. 예를 들어 도메인이 example.com인 경우 다음 경로에 파일을 추가하십시오.
www.example.com/robots.txt
AWS 침해 신고 팀에 문의
악성 크롤러는 robots.txt 파일을 무시합니다. AWS 리소스에서 실행되는 크롤러가 robots.txt 파일을 무시한다고 생각되는 경우 전체 로그가 포함된 침해 사례 보고서를 제출하십시오. 이러한 로그에는 날짜, 타임스탬프(표준 시간대 포함) 및 크롤러 활동의 소스 IP 주소가 포함되어야 합니다. AWS 신뢰 및 안전 팀에서 해당 robots.txt 파일을 검토하여 관련 고객의 규정 미준수 여부를 확인해야 합니다.
관련 정보
AWS 리소스의 침해를 보고하려면 어떻게 해야 합니까?