主流网络爬虫机器人/蜘蛛详解

2023-12-01 282 站长技术

所有网站都会有很多网络漫游器来爬取页面，其中越优秀的网站蜘蛛越多，不过我们要区分蜘蛛的真伪，同时了解各种蜘蛛，屏蔽一些对网站无用的蜘蛛，避免养“蛛”为患。

Googlebot

Googlebot 是谷歌的搜索引擎蜘蛛。2021年8月，Google全球市场份额为92.05%，排名第一（即最大）因此不建议屏蔽 Googlebot。

bingbot

bingbot 必应虫是微软的搜索引擎。截至2021年8月Bing 全球占有率为第2名，市场份额为2.45%。

必应集成了多个独特功能，包括每日首页美图，与 Windows 操作系统深度融合的超级搜索功能，以及崭新的搜索结果导航模式等。用户在内置于 Windows 操作系统的搜索栏，或 Edge 默认搜索引擎均可直达必应的网页、图片、视频、词典、翻译、资讯、地图等全球信息搜索服务。

随着 Edge 浏览器的流行、windows 超大的市场占有率，必应搜索引擎在国内份额将进一步提升。

必应 SEO：网站如何在必应中显示更丰富的形式

Baiduspider

Baiduspider 是百度搜索引擎的蜘蛛呦！

识别百度蜘蛛(Baiduspider)的简单步骤

百度应用 UA：

Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

Baiduspider 详细介绍
 
图片搜索：Baiduspider-image
视频搜索：Baiduspider-video
新闻搜索：Baiduspider-news
百度搜藏：Baiduspider-favo
百度联盟：Baiduspider-cpro
商务搜索：Baiduspider-ads
网页以及其他搜索：Baiduspider

Bytespider

Bytespider 这个爬虫是字节跳动旗下头条搜索的爬虫，其爬虫 UA 为：

我的网站遇到 Bytespider 爬虫该怎么办？

#PC端
Mozilla/5.0 (compatible; Bytespider; https://zhanzhang toutiao com/)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
 
#Android端
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko)
Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang toutiao com/)
#
iOS端
Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko)
Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang toutiao com/)

屏蔽头条搜索爬虫

如果不想头条搜索爬取自己的网站，可采用以下两种方法屏蔽头条搜索的爬虫：

#IP屏蔽
头条搜索的ip字段总共涉及10个ip，具体字段如下：
110.249.201.0/24
110.249.202.0/24
111.225.148.0/24
111.225.149.0/24
220.243.135.0/24
220.243.136.0/24
220.243.188.0/24
220.243.189.0/24
60.8.123.0/24
60.8.151.0/24
 
# robots.txt 屏蔽
 
Bytespider 遵守robots规则，可采用以下方法屏蔽：
User-agent: Bytespider
Disallow: /

头条搜索优化

头条搜索的站点配图一般是使用 og:image 标签（Open Graph Protocol Meta）来识别的，因此想要网页旁边出现漂亮合理的配图可在网页中添加 Open Graph Protocol Meta 标签。

Yisouspider

神马搜索是UC和阿里2013年已经成立合资公司推出的移动搜索引擎蜘蛛。

ToutiaoSpider（头条号）

今日头条的头条号蜘蛛，不能带来流量，屏蔽好啦

YandexBot

俄罗斯搜索巨头Yandex的蜘蛛，国外的一个网站分析平台，建议屏蔽。

Amazonbot

这是亚马逊的开发者支持页面，其中提到了一个名为"AmazonBot"的蜘蛛访问网站。AmazonBot是亚马逊搜索引擎的机器人程序，用于收集和索引网页内容，以便在亚马逊搜索中显示相关结果。它帮助亚马逊提供更准确和全面的搜索服务。

Applebot

Applebot是苹果的网络爬虫，比如Siri和Spotlight建议等产品都使用了这种技术。

苹果的网络爬虫首次亮相于2015年，当时有网站管理员看到来自IP地址17的网络爬虫，而这个IP地址块完全属于苹果。

Applebot是一个补充现有第三方搜索引擎的工具，以确保Siri和Spotlight能提供最好的搜索结果。

exabot

Exalead或Dassault Systemes网站的机器人。

ia_archiver（Alexa蜘蛛）

Alexa 的网站和网站审计爬虫。

Rogerbot

Moz 网站的机器人。与 Moz 的官方机器人 DotBot 不同，Rogerbot 似乎不再是一个合法的机器人。

360Spider

一个十分“勤奋抓爬”的蜘蛛。

Teoma

是美国 Ask Jeeves 搜索引擎的蜘蛛，在美国占 5% 的搜索份额。

gigabot

搜索到的是一个 3D 打印公司，没什么乱用，屏蔽即可。

DOCOMO Sprider

日本 NTT DoCoMo 旗下的搜索引擎蜘蛛，是垃圾搜索引擎爬虫，有看到你的日志里面有这只蜘蛛，直接毫不犹豫的禁掉。

PetalBot

PetalBot 是华为自研搜索引擎的爬虫，叫做花瓣蜘蛛，将来或许也会在国内再杀出一个搜索引擎。现华为花瓣搜索引擎仅对欧洲用户开放。

PetalBot 符合 Internet 机器人协议。您可以使用 robots.txt 文件完全阻止 PetalBot 访问您的网站，或阻止 PetalBot 访问您网站上的某些文件。

为了获得对目标资源更好的检索结果，PetalBot 需要保持一定程度的网站爬网。我们力求不给网站带来不合理的负担，我们将根据服务器容量，网站质量和网站更新等综合因素进行调整。如果 PetalBot 的访问有任何不合理的行为，请将您的疑虑发送至 search@aspiegel.com。

Sogou web spider

搜狗公司还有其它几个蜘蛛：Sogou News Spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider，小爱在日志中只发现了常见的Sogou web spider。

Sosospider（SOSO蜘蛛）

腾讯已玩死，交给搜狗公司了

Yahoo! Slurp China（雅虎中国）或 Yahoo! Slurp（雅虎英文）

雅虎蜘蛛爬虫

MSNBot，MSNot-media（MSN蜘蛛）

MSNBOT应该是 bing 搜索的蜘蛛，MSN和bing是一家的，可以只保留 Bingbot。

JikeSpider（即刻蜘蛛）

“即刻搜索”是由人民搜索网络股份公司于2011年6月20日推出的通用搜索引擎平台，建议屏蔽。

YoudaoBot（有道蜘蛛）

网易有道的蜘蛛，并不会带来流量。

AhrefsBot

AhrefsBot 是国外网站的一个蜘蛛程序，那么 Ahrefs 是什么网站呢，这个是国外一个网络营销类的网站，有点类似于国内的5118、站长网之类，在 SEO 界比较有名的。AhrefsBot数据库里面有超过12万亿条链接，每天它就在不断的执行和监控Ahrefs的在线营销活动，每24小时就要访问超过60亿个网页，每15-30分钟就要更新一次索引。

根据一项调查显示，AhrefsBot是仅次于谷歌蜘蛛（Googlebot）的世界第二大活跃蜘蛛爬虫程序。

AhrefsBot 会增加你服务器的负担外，并不会对你的网站造成什么影响，它既不会触发网站上的广告，也不会在统计中增加流量。建议屏蔽 AhrefsBot

SemrushBot

SemrushBot 是 SEMrush 的蜘蛛爬虫。

SEMrush是一家老牌的提供搜索引擎优化数据的公司，是一个强大的、全面的在线营销竞争情报平台,其中包括 SEO、PPC、社交媒体和视频广告研究。

建议网站屏蔽掉它的爬行，首先因为这个蜘蛛爬行并不会给网站带来流量，只会占用服务器资源，其次是这是已经数据分析公司的爬虫，它爬的数据会成为你竞争对手的分析利器。

如何屏蔽SemrushBot呢？

robots.txt 文件中添加以下代码即可：
User-agent: SemrushBot
Disallow: /
User-agent: SemrushBot-SA
Disallow: /

Barkrowler

Exensa是一家非常小的法国公司，专门从事大规模的文本数据分析。我们致力于社交网络，法律文档，电子商务。

他们在网上抓取广告，所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。

Indy Library

本来是个开源的程序库，但后来被spam bots冒用

CrawlDaddy

SQL注入

ApacheBench

CC攻击

ZmEu

漏洞扫描

jaunty

wordpress爆破扫描器

HttpClient

TCP攻击

Feedly

内容采集

UniversalFeedParser

内容采集

Python-urllib

内容采集

FeedDemon

内容采集

Microsoft URL Control

扫描

Swiftbot

无用爬虫

lightDeckReports Bot

无用爬虫

AskTbFXTV

未知

CoolpadWebkit

未知

Java

未知

oBot

未知

python-requests

未知

Ezooms

未知

BLEXBot

Blexbot是WebMeUp的蜘蛛爬虫，Blexbot每天可以抓取上百亿个页面来收集反向链接数据，并将该数据提供给其链接索引（在SEO SpyGlass中使用的链接索引）。

WebMeUp是美国的一家外链反向链接查询工具网站，他一般的形式是

Mozilla / 5.0（兼容; BLEXBot / 1.0; + http：//webmeup-crawler.com/）

YYSpider

据说是个人写的蜘蛛程序，指向的是 http://www.yunyun.com/spider.html，yunyun.com 目前不能访问，建议屏蔽之。

DigExt

并非一个独立的爬虫程序，而是IE5的“允许脱机阅读”模式标记

EasouSpider（宜搜蜘蛛）

宜搜是主要针对手机端的搜索引擎，非常傻帽的一个爬虫，建议屏蔽之。

heritrix

开源的网络爬虫，一个数字图书馆项目

AdsBot

Adsbot是谷歌 Google AdWords 的蜘蛛，也就是广告联盟的。

MJ12bot

MJ12bot 是英国的一家老牌的搜索引擎营销网站 Majestic 的爬虫，他有专门的中文站，对外链查询等很多 SEO 数据查询提供数据支撑，做过外链的都知道，获取外链资源是一项基本能力，这个网站可以查询网站的外链资源数，不过很多公司看到日志里有这个 MJ12bot 蜘蛛，一般是选择直接屏蔽掉（MJ12bot 是 Majestic-12 分布式搜索引擎的爬虫）

官方给了一个修改 robots 的方法，就是在 robots.txt 文件中加入：

User-agent:MJ12bot
Disallow:/

DotBot

DotBot是Moz的网络爬虫程序，Moz旗下链接分析网站opensiteexplorer专门用来分析网站SEO外链数据，BotBot蜘蛛爬虫就是为Moz服务，在互联网上抓取大量的网页进行各种数据分析。

如果我们不希望Dotbot抓取自己的网站，可以使用robots.txt进行屏蔽。DotBot遵robots.txt协议。

DotBot蜘蛛爬虫原型

Moz蜘蛛爬虫UA：”Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)”

网站如何禁止DotBot抓取

在我们的网站根目录中的robots.txt文件中写上如下代码：

User-Agent: DotBot
Disallow: /

Applebot

Applebot 是 Apple 推出的网络爬虫工具。“Siri 建议”和“聚焦建议”等产品均使用 Applebot。这个工具遵循惯用的 robots.txt 规则和 robots 元标签，并且源自 17.0.0.0 网络块。

用户代理字符串包含“Applebot”和其他代理信息。示例如下：

Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1)

CCbot

CCbot，全称为Common Crawl Bot，是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。

你如何处理CCbot蜘蛛?

方法1. 使用robots.txt

使用robots.txt文件来允许或禁止蜘蛛访问页面的权限。robots.txt是放在网站根目录中，蜘蛛来访问时会先查找并查看robots.txt文件，并遵守robots协议来访问网站上的内容，允许访问则访问，不允许访问蜘蛛则离开。

DuckDuckGoBot

DuckDuckGoBot 是著名元搜索引擎 DuckDuckGo 的爬虫，另外还有 DuckDuckGo Favicons Bot 是用来获取网站 Favicon.ico 图标的蜘蛛。

DuckDuckGo 是美国的一个互联网搜寻引擎，其总部位于美国宾州Valley Forge市。DuckDuckGo强调在传统搜寻引擎的基础上引入各大Web 2.0站点的内容。其办站哲学主张维护使用者的隐私权，并承诺不监控、不记录使用者的搜寻内容。

DuckDuckGo-Favicons-Bot一般默认的形式是

Mozilla/5.0 (compatible; DuckDuckGo-Favicons-Bot/1.0; +http://duckduckgo.com)” – 0.047 0.047

yacybot

yacy 搜索引擎蜘蛛。

DataForSeoBot

DataForSEO 网站的蜘蛛。由于访问速率太大，建议小型网站进行屏蔽。

自从我们推出 DataForSEO 以来，我们的使命就是通过向世界各地的 SEO 爱好者和专业人士提供高质量的数据来公平竞争。

DataForSEO 机器人是确保 SEO 社区的每个成员 – 无论口袋大小都可以访问 Google 排名算法的核心元素。我们正在开发网络上最大的可用反向链接数据库，包括您在内的社区每个成员都可以使用该数据库并从中受益。

Backlinks API 是我们正在开发的新产品的名称，其目的只有一个：为网站所有者、网站站长和 SEO 专业人员提供分析网站优化和反向链接的关键组件的机会。

为了实现这个雄心勃勃的目标，我们需要建立一个类似于谷歌 PageRank 算法的系统，并确保它的工作原理。在过去的一年里，我们的团队一直在研究、规划、构建和重述这个系统。

robots.txt 怎么写

#我们建议这样写：
User-agent: *
Allow: /
 
User-agent: AhrefsBot
Disallow: /
 
User-agent: SemrushBot
Disallow: /
 
User-agent: MJ12bot
Disallow: /
 
User-agent: DataForSeoBot
Disallow: /

标签：网站蜘蛛爬虫搜索

#免责声明#

爱尔美收录网提供的一切软件、教程和内容信息仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络收集整理，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容，请支持正版，购买注册，得到更好的正版服务。我们非常重视版权问题，如有侵权请邮件vip@iermei.com与我们联系处理。敬请谅解！
本文地址：https://www.iermei.com/xq/2052.html

165

FusionApp小技巧-收集整合-含远程更新

175

主流网络爬虫机器人/蜘蛛详解

Googlebot

bingbot

Baiduspider

Bytespider

Yisouspider

YandexBot

360Spider

PetalBot

Sogou web spider

Sosospider（SOSO蜘蛛）

Yahoo! Slurp China（雅虎中国）或 Yahoo! Slurp（雅虎英文）

MSNBot，MSNot-media（MSN蜘蛛）

AhrefsBot

SemrushBot

AdsBot

MJ12bot

DotBot

Applebot

`Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Applebot/0.1)`

CCbot

CCbot，全称为Common Crawl Bot，是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。

DuckDuckGoBot

DataForSeoBot

robots.txt 怎么写

FusionApp小技巧-收集整合-含远程更新

宝塔限制部分不知名蜘蛛爬取

切换地区