所有网站都会有很多网络漫游器来爬取页面,其中越优秀的网站蜘蛛越多,不过我们要区分蜘蛛的真伪,同时了解各种蜘蛛,屏蔽一些对网站无用的蜘蛛,避免养“蛛”为患。
Googlebot是谷歌的搜索引擎蜘蛛。2021年8月,Google全球市场份额为92.05%,排名第一(即最大)因此不建议屏蔽Googlebot。
bingbot必应虫是微软的搜索引擎。截至2021年8月Bing全球占有率为第2名,市场份额为2.45%。
必应集成了多个独特功能,包括每日首页美图,与Windows操作系统深度融合的超级搜索功能,以及崭新的搜索结果导航模式等。用户在内置于Windows操作系统的搜索栏,或Edge默认搜索引擎均可直达必应的网页、图片、视频、词典、翻译、资讯、地图等全球信息搜索服务。
随着Edge浏览器的流行、windows超大的市场占有率,必应搜索引擎在国内份额将进一步提升。
Baiduspider是百度搜索引擎的蜘蛛呦!
百度应用UA:
Yisouspider是神马搜索的蜘蛛。
俄罗斯搜索巨头Yandex的蜘蛛,
360搜索蜘蛛
PetalBot是华为自研搜索引擎的爬虫,叫做花瓣蜘蛛,将来或许也会在国内再杀出一个搜索引擎。现华为花瓣搜索引擎仅对欧洲用户开放。
PetalBot符合Internet机器人协议。您可以使用robots.txt文件完全阻止PetalBot访问您的网站,或阻止PetalBot访问您网站上的某些文件。
为了获得对目标资源更好的检索结果,PetalBot需要保持一定程度的网站爬网。我们力求不给网站带来不合理的负担,我们将根据服务器容量,网站质量和网站更新等综合因素进行调整。如果PetalBot的访问有任何不合理的行为,请将您的疑虑发送至search@aspiegel.com。
搜狗搜索引擎的蜘蛛。
SemrushBot是SEMrush的蜘蛛爬虫。
建议网站屏蔽掉它的爬行,首先因为这个蜘蛛爬行并不会给网站带来流量,只会占用服务器资源,其次是这是已经数据分析公司的爬虫,它爬的数据会成为你竞争对手的分析利器。
如何屏蔽SemrushBot呢?
robots.txt文件中添加以下代码即可:User-agent:SemrushBotDisallow:/User-agent:SemrushBot-SADisallow:/BLEXBotBlexbot是WebMeUp的蜘蛛爬虫,Blexbot每天可以抓取上百亿个页面来收集反向链接数据,并将该数据提供给其链接索引(在SEOSpyGlass中使用的链接索引)。
WebMeUp是美国的一家外链反向链接查询工具网站,他一般的形式是
MJ12bot是英国的一家老牌的搜索引擎营销网站Majestic的爬虫,他有专门的中文站,对外链查询等很多SEO数据查询提供数据支撑,做过外链的都知道,获取外链资源是一项基本能力,这个网站可以查询网站的外链资源数,不过很多公司看到日志里有这个MJ12bot蜘蛛,一般是选择直接屏蔽掉(MJ12bot是Majestic-12分布式搜索引擎的爬虫)
官方给了一个修改robots的方法,就是在robots.txt文件中加入:
User-agent:MJ12botDisallow:/DotBotDotBot是Moz的网络爬虫程序,Moz旗下链接分析网站opensiteexplorer专门用来分析网站SEO外链数据,BotBot蜘蛛爬虫就是为Moz服务,在互联网上抓取大量的网页进行各种数据分析。
如果我们不希望Dotbot抓取自己的网站,可以使用robots.txt进行屏蔽。DotBot遵robots.txt协议。
DotBot蜘蛛爬虫原型
网站如何禁止DotBot抓取
在我们的网站根目录中的robots.txt文件中写上如下代码:
User-Agent:DotBotDisallow:/ApplebotApplebot是Apple推出的网络爬虫工具。“Siri建议”和“聚焦建议”等产品均使用Applebot。这个工具遵循惯用的robots.txt规则和robots元标签,并且源自17.0.0.0网络块。
用户代理字符串包含“Applebot”和其他代理信息。示例如下:
Mozilla/5.0(Macintosh;IntelMacOSX10_10_1)AppleWebKit/600.2.5(KHTML,likeGecko)Version/8.0.2Safari/600.2.5(Applebot/0.1)CCbotCCbot,全称为CommonCrawlBot,是一个非营利性基金会致力于提供可以被所有人访问和分析的Web爬网数据的开放存储库。
二.你如何处理CCbot蜘蛛
方法1.使用robots.txt
使用robots.txt文件来允许或禁止蜘蛛访问页面的权限。robots.txt是放在网站根目录中,蜘蛛来访问时会先查找并查看robots.txt文件,并遵守robots协议来访问网站上的内容,允许访问则访问,不允许访问蜘蛛则离开。
DuckDuckGoBot是著名元搜索引擎DuckDuckGo的爬虫,另外还有DuckDuckGoFaviconsBot是用来获取网站Favicon.ico图标的蜘蛛。
DuckDuckGo是美国的一个互联网搜寻引擎,其总部位于美国宾州ValleyForge市。DuckDuckGo强调在传统搜寻引擎的基础上引入各大Web2.0站点的内容。其办站哲学主张维护使用者的隐私权,并承诺不监控、不记录使用者的搜寻内容。DuckDuckGo-Favicons-Bot
一般默认的形式是
DataForSEO网站的蜘蛛。由于访问速率太大,建议小型网站进行屏蔽。
自从我们推出DataForSEO以来,我们的使命就是通过向世界各地的SEO爱好者和专业人士提供高质量的数据来公平竞争。
DataForSEO机器人是确保SEO社区的每个成员–无论口袋大小都可以访问Google排名算法的核心元素。我们正在开发网络上最大的可用反向链接数据库,包括您在内的社区每个成员都可以使用该数据库并从中受益。
BacklinksAPI是我们正在开发的新产品的名称,其目的只有一个:为网站所有者、网站站长和SEO专业人员提供分析网站优化和反向链接的关键组件的机会。
为了实现这个雄心勃勃的目标,我们需要建立一个类似于谷歌PageRank算法的系统,并确保它的工作原理。在过去的一年里,我们的团队一直在研究、规划、构建和重述这个系统。
但更进一步,我们需要你的帮助。不,这次我们不想卖给你任何东西。事实上,你能做的最好的事情就是…好吧,什么也不做
如果您正在阅读本文,请不要直接冲向你的robots.txt阻止我们的用户代理。这样,您将帮助成千上万的网站所有者(像你一样)提高网站的知名度。
我们每月订阅访问此特定API(直到今年12月8日,价格为30美元,在此日期之后将没有折扣,您必须支付访问费的全部费用,每月100美元)