FeedFetcher-Google是什么？FeedFetcher-Google为什么不遵守robots.txt规则？

2019-08-16

0评论

阅读

爱搜啊

查看服务器日志的时候发现很多FeedFetcher-Google爬虫，原来不知道这个爬虫到底有什么用，还以为是伪装成爬虫的CC攻击，在网上查找资料才发现是谷歌的feed爬虫。

FeedFetcher-Google是什么？

Feedfetcher是什么？

下面是日志记录，代理字符串为

FeedFetcher-Google; (+http://www.google.com/FeedFetcher.html)

72.14.199.89 – – [12/Oct/2005:01:11:13 +0800] “GET /rss.php?v=2 HTTP/1.1” 200 61051 “-” “FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)”

这一看应该就是谷歌的什么蜘蛛了，但是还不知道到底是什么蜘蛛，网上搜索了下，原来是爬取feed订阅的蜘蛛。

这里的Feedfetcher是什么？

那是google的reader和google个性主页订阅器的robot（机器人），或者说Crawler（爬行器）。用户在谷歌阅读器或google主页订阅了你的博客时，google的Feedfetcher就会定时地随着rss地址去找你的站点爬取feed。

Feedfetcher爬取的数据对你站点的google索引更新意义很大。如果你的博客有很多google reader读者，你的权威性会受重视。

在谷歌“Google 抓取工具（用户代理）”中也发下了这个蜘蛛的介绍

FeedFetcher-Google为什么不遵守robots.txt规则？

Feedfetcher

FeedFetcher-Google

不遵循 robots.txt 规则- 查看原因

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

发现FeedFetcher-Google并不遵守robots.txt规则，原因如下

为什么 Feedfetcher 会不遵循我的 robots.txt 文件中的指示？

只有在用户已明确启动从 Feed 请求数据的服务或应用后，Feedfetcher 才会检索这些 Feed。Feedfetcher 相当于用户的直接代理，而不是漫游器，因此它会忽略 robots.txt 中的指示。但 Feedfetcher 确实有一项特殊优势，那就是：由于同时充当了多位用户的代理，它对所有这些用户共有的 Feed 只会提出 1 次请求，从而节省了带宽。

您可以将自己的服务器配置为向用户代理 Feedfetcher-Google 发送 404、410 或其他错误状态消息，从而阻止 Feedfetcher 抓取您的网站。

点击链接加入群聊四群：722808830
点击链接加入群聊三群：751529538（已满）
点击链接加入群聊二群：376877156（已满）
点击链接加入群聊一群：622891808（已满）

饿了么红包