如果 AWS 資源用於爬取我的網站,該怎麼辦?

1 分的閱讀內容
0

我想防止 AWS 資源用於爬取我的網站。

簡短說明

建立或修改 robots.txt 檔案,以保護您的網站免受編目程式的侵害。robots.txt 檔案是規範網頁編目程式活動所接受的標準。

修改 robots.txt 檔案以影響下列:

  • 哪些編目程式可以爬取您的網站。
  • 編目程式可以爬取哪些頁面。
  • 頁面的爬取速率。

如需有關 robots.txt 檔案和系統的詳細資訊,請參閱 CloudFlare.com 網站上的](https://www.cloudflare.com/learning/bots/what-is-robots-txt/)什麼是 robots.txt[。

解決方法

如果您沒有與您的網站關聯的 robots.txt 檔案,請使用文字編輯器來建立新檔案。將檔案命名為 robots.txt。否則,開啟 robots.txt 檔案。

禁止特定的網頁編目程式

檢查您的日誌中是否有您要停止之編目程式的 User-agent 名稱。若要封鎖該編目程式爬取您網域中的任何頁面,請將 User-agent 名稱新增至您的 robots.txt 檔案:

User-agent: crawler
Disallow: /

注意: 使用編目程式的 User-agent 名稱取代編目程式

管理多個編目程式

您可以在新文字區塊中為每個編目程式定義不同的規則。下列範例會封鎖 crawler1 爬取您的頁面,但允許 crawler2 以較低的速率爬取您的頁面:

User-agent: crawler1
Disallow: /
User-agent: crawler2
Crawl-delay: 60

此引數可讓 crawler2 爬取您的網域,但僅以每 60 毫秒一次的速率進行。

封鎖所有編目程式

如果您想要封鎖來自您的網頁內容的所有編目程式,請使用萬用字元:

User-agent: *
Disallow: /

注意: 搜尋引擎會使用編目程式來索引頁面,以便在搜尋結果中使用。如果您在網站中封鎖所有編目程式,則使用者將更難找到您的頁面。

控制編目程式可以存取哪個目錄

您可以定義規則,以指定編目程式可以爬取哪些目錄或頁面。下列範例會封鎖編目程式網路爬取 directory1directory2directory2 中的 example.html 頁面除外:

User-agent: crawler
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/example.html

注意:directory1directory2 取代為您的目錄名稱。將 example.html 取代為您的頁面名稱。

將您的 robots.txt 檔案新增到您的網域

robots.txt 檔案新增到您的根網域。例如,如果您的網域為 example.com,則請在下列路徑中新增檔案:

www.example.com/robots.txt

聯絡 AWS 濫用團隊

惡意編目程式忽略您的 robots.txt 檔案。如果您認為在 AWS 資源上執行的編目程式忽略您的 robots.txt 檔案,請提交濫用報告並包含完整日誌。這些日誌必須包含編目程式活動的日期、時間戳記 (包括時區) 以及來源 IP 位址。請注意,AWS 信任與安全團隊必須檢閱您的 robots.txt 檔案,以確認涉及的客戶是否不符合規範。

相關資訊

如何舉報濫用 AWS 資源的情況?

AWS 官方
AWS 官方已更新 4 個月前