如何避免Google索引CloudFront提供的内容

0

【以下的问题经过翻译处理】 大家好,有个客户的CloudFront提供的页面也被Google索引和缓存了。所以在Google搜索中,会出现两个条目:

  1. https://www.domain.com/
  2. https://d12345.cloudfront.net/ 有没有办法阻止第二个CloudFront位置的缓存?我在Stackoverflow上看到了使用bot的方法来避免这个问题:https://stackoverflow.com/questions/60123731/google-indexing-cloudfront-distribution 和使用DNS重定向的方法:https://medium.com/tensult/how-to-do-site-redirection-using-aws-522a4002c645

是否有更简单的方法来解决这个问题?

profile picture
专家
已提问 6 个月前0 查看次数
1 回答
0

【以下的回答经过翻译处理】 是的,做如下几件事情可以避免这种情况发生:

  1. 将源站(Origin)锁定为只允许CloudFront的IP访问,不要对外公开。似乎Google能够直接访问源站。

  2. 验证您发布的代码中是否包含*.cloudfront.net的URL。如果有的话,将它们替换为CloudFront前面的域名。

  3. 在Amazon S3上放置一个robots.txt文件,比如www.domain.com/robots.txt。

我不建议使用源站重定向等操作,因为没有理由让任何人直接访问源站。这也是恶意用户入侵的一个开放后门。

一旦你完成了上述操作,Origin的URL索引会逐渐消失。此外,我相信他们还可以联系Google(在完成1、2、3后)将这些URL从搜索结果中移除。

profile picture
专家
已回答 6 个月前

您未登录。 登录 发布回答。

一个好的回答可以清楚地解答问题和提供建设性反馈,并能促进提问者的职业发展。

回答问题的准则