簡短說明
建立或修改 robots.txt 檔案,以保護您的網站免受編目程式的侵害。robots.txt 檔案是規範網頁編目程式活動所接受的標準。
修改 robots.txt 檔案以影響下列:
- 哪些編目程式可以爬取您的網站。
- 編目程式可以爬取哪些頁面。
- 頁面的爬取速率。
如需有關 robots.txt 檔案和系統的詳細資訊,請參閱 CloudFlare.com 網站上的](https://www.cloudflare.com/learning/bots/what-is-robots-txt/)什麼是 robots.txt[。
解決方法
如果您沒有與您的網站關聯的 robots.txt 檔案,請使用文字編輯器來建立新檔案。將檔案命名為 robots.txt。否則,開啟 robots.txt 檔案。
禁止特定的網頁編目程式
檢查您的日誌中是否有您要停止之編目程式的 User-agent 名稱。若要封鎖該編目程式爬取您網域中的任何頁面,請將 User-agent 名稱新增至您的 robots.txt 檔案:
User-agent: crawler
Disallow: /
注意: 使用編目程式的 User-agent 名稱取代編目程式。
管理多個編目程式
您可以在新文字區塊中為每個編目程式定義不同的規則。下列範例會封鎖 crawler1 爬取您的頁面,但允許 crawler2 以較低的速率爬取您的頁面:
User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60
此引數可讓 crawler2 爬取您的網域,但僅以每 60 毫秒一次的速率進行。
封鎖所有編目程式
如果您想要封鎖來自您的網頁內容的所有編目程式,請使用萬用字元:
User-agent: *
Disallow: /
注意: 搜尋引擎會使用編目程式來索引頁面,以便在搜尋結果中使用。如果您在網站中封鎖所有編目程式,則使用者將更難找到您的頁面。
控制編目程式可以存取哪個目錄
您可以定義規則,以指定編目程式可以爬取哪些目錄或頁面。下列範例會封鎖編目程式網路爬取 directory1 和 directory2,directory2 中的 example.html 頁面除外:
User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html
注意: 將 directory1 和 directory2 取代為您的目錄名稱。將 example.html 取代為您的頁面名稱。
將您的 robots.txt 檔案新增到您的網域
將 robots.txt 檔案新增到您的根網域。例如,如果您的網域為 example.com,則請在下列路徑中新增檔案:
www.example.com/robots.txt
聯絡 AWS 濫用團隊
惡意編目程式忽略您的 robots.txt 檔案。如果您認為在 AWS 資源上執行的編目程式忽略您的 robots.txt 檔案,請提交濫用報告並包含完整日誌。這些日誌必須包含編目程式活動的日期、時間戳記 (包括時區) 以及來源 IP 位址。請注意,AWS 信任與安全團隊必須檢閱您的 robots.txt 檔案,以確認涉及的客戶是否不符合規範。
相關資訊
如何舉報濫用 AWS 資源的情況?