登入

會員權益

獲取需求

查看名片

專屬客服

尊貴標識

VIP低至1.5U/天

谷歌SEO:什么是Googlebot?

分享

2023-04-17

Googlebot是谷歌用来收集所需信息并建立网络可搜索索引的网络爬虫。Googlebot拥有移动和桌面抓取工具,以及专门的新闻、图片和视频抓取工具。谷歌有更多的爬虫用于特定任务,每个爬虫都会用一个称为“用户代理”的不同文本字符串来标识自己。


Googlebot是谷歌用来收集所需信息并建立网络可搜索索引的网络爬虫。Googlebot拥有移动和桌面抓取工具,以及专门的新闻、图片和视频抓取工具。谷歌有更多的爬虫用于特定任务,每个爬虫都会用一个称为“用户代理”的不同文本字符串来标识自己。


Googlebot是常青树,这意味着它可以像用户在最新的Chrome浏览器中一样看待网站。Googlebot在数千台机器上运行。他们决定在网站上抓取的速度和内容。但它们会减慢爬行速度,以免网站不堪重负。让我们看看他们构建网络索引的过程。


Googlebot如何抓取网络并将其编入索引?


谷歌过去曾分享过其管道的几个版本。以下是最新的。Google从其从各种来源收集的URL列表开始,例如页面、站点地图、RSS提要以及在Google Search Console或索引API中提交的URL。它优先考虑要抓取的内容,获取页面并存储页面的副本。


处理这些页面以查找更多链接,包括指向Google呈现页面所需的API请求、JavaScript和CSS等内容的链接。所有这些额外的请求都会被抓取和缓存(存储)。谷歌利用渲染服务使用这些缓存的资源来查看类似于用户的页面。


它再次处理这个并寻找对页面或新链接的任何更改。呈现页面的内容是存储在Google索引中并可搜索的内容。找到的任何新链接都会返回到URL存储桶以供其抓取。


如何控制Googlebot?


Google为您提供了几种方法来控制抓取和编入索引的内容。


1.控制爬行的方法


·Robots.txt–您网站上的此文件允许您控制抓取的内容。


·Nofollow–Nofollow是一个链接属性或元机器人标签,它建议不应遵循链接。它只被认为是一个提示,所以它可以被忽略。


·改变你的抓取速度——谷歌搜索控制台中的这个工具可以让你减慢谷歌的抓取速度。


2.控制索引的方法


·删除你的内容——如果你删除了一个页面,那么就没有什么可以索引的了。这样做的缺点是没有其他人可以访问它。


·限制对内容的访问——Google不会登录网站,因此任何类型的密码保护或身份验证都会阻止它查看内容。


·Noindex——元机器人标签中的noindex告诉搜索引擎不要索引您的页面。


·URL删除工具——谷歌的这个工具的名称有点误导,因为它的工作方式是暂时隐藏内容。Google仍会查看和抓取这些内容,但这些页面不会出现在搜索结果中。


·Robots.txt(仅限图片)——阻止Googlebot图片抓取意味着您的图片不会被编入索引。


如何验证Googlebot的真实性?


许多SEO工具和一些恶意机器人会伪装成Googlebot。这可能允许他们访问试图阻止他们的网站。过去,您需要运行DNS查找来验证Googlebot。但最近,谷歌让它变得更加容易,并提供了一个公共IP列表,您可以使用它来验证请求是否来自谷歌。您可以将其与服务器日志中的数据进行比较。


您还可以访问Google Search Console中的“抓取统计信息”报告。如果您转到“设置”>“抓取统计信息”,该报告包含大量有关Google如何抓取您的网站的信息。您可以查看哪个Googlebot正在抓取哪些文件以及它何时访问这些文件。


写在最后


网络是一个大而杂乱的地方。Googlebot必须浏览所有不同的设置以及停机时间和限制,以收集Google需要其搜索引擎工作的数据。一个有趣的事实是,Googlebot通常被描述为机器人,并且被恰当地称为“Googlebot”。还有一个蜘蛛吉祥物,名叫“克劳利(Crawley)”。


免責聲明:
詳情
HUIDU.io

GROWTH DRIVEN GLOBAL PTE. LTD. 202618650K

101 THOMSON ROAD, #28-03A, UNITED SQUARE, SINGAPORE 307591

Copyright 2026 HuiDu