登录

会员权益

获取需求

查看名片

专属客服

尊贵标识

VIP低至1.5U/天

谷歌SEO:什么是抓取错误?

分享

2023-12-01

网络爬虫(也称为蜘蛛或机器人)是访问(或“爬行”)网络页面的程序。搜索引擎使用爬虫来发现内容,然后将其编入索引,即存储在其庞大的数据库中。

640


网络爬虫(也称为蜘蛛或机器人)是访问(或“爬行”)网络页面的程序。搜索引擎使用爬虫来发现内容,然后将其编入索引,即存储在其庞大的数据库中。这些程序通过跟踪您网站上的链接来发现您的内容。但由于抓取错误,这个过程并不总是顺利。在我们深入研究这些错误以及如何解决它们之前,让我们先从基础知识开始。


什么是抓取错误?


搜索引擎抓取工具无法按照正常方式浏览您的网页时,就会出现抓取错误。发生这种情况时,Google搜索引擎无法充分探索和理解您网站的内容或结构。这是一个问题,因为抓取错误可能会阻止您的页面被发现。这意味着它们无法被编入索引、出现在搜索结果中或为您的网站带来自然(免费)流量Google将抓取错误分为两类:网站错误和URL错误。让我们来探讨一下。


1.站点错误


网站错误是可能影响整个网站的抓取错误。服务器DNS和robots.txt错误是最常见的。


2.服务器错误


服务器阻止页面加载时,会发生服务器错误(返回5xx HTTP状态代码)。以下是最常见的服务器错误:


·内部服务器错误(500):服务器无法完成请求。但当无法获得更具体的错误时,也可以触发它。


·错误网关错误(502):一台服务器充当网关并从另一台服务器接收到无效响应


·服务不可用错误(503):服务器当前不可用,通常是在服务器正在修复或更新时


·网关超时错误(504):一台服务器充当网关,没有及时收到另一台服务器的响应。就像网站流量过多时一样。


当搜索引擎不断遇到5xx错误时,它们会降低网站的抓取速度。这意味着像Google这样的搜索引擎可能无法发现并索引您的所有内容。Google可能会从其索引中删除经常出现5xx问题的网址。因此,请务必使用站点审核来跟踪任何5xx错误


3.DNS错误


域名系统(DNS)错误是指搜索引擎无法连接到您的域。所有网站和设备都至少有一个互联网协议(IP)地址,用于在网络上唯一标识它们。DNS通过将域名与IP地址进行匹配,使人和计算机能够更轻松地相互通信。如果没有DNS,我们将手动输入网站的IP地址,而不是键入其URL。DNS错误比服务器错误少见,但您可能会遇到以下情况:


·DNS超时:您的DNS服务器没有及时回复搜索引擎的请求


·DNS查找:搜索引擎无法访问您的网站,因为您的DNS服务器无法找到您的域名


4.Robots.txt错误


当搜索引擎无法检索您的robots.txt文件时,就会出现Robots.txt错误。您的robots.txt文件告诉搜索引擎可以抓取哪些页面以及不能抓取哪些页面。以下是该文件的三个主要部分以及每个部分的作用:


·用户代理:这一行标识爬虫。“ ”表示该规则适用于所有搜索引擎机器人。


·禁止/允许:此行告诉搜索引擎机器人是否应该抓取您的网站或网站的某些部分


·站点地图:此行指示您的站点地图位置


将站点地图索引URL(包含所有站点地图的主站点地图)添加到robots.txt文件中。帮助爬虫更快地发现和理解您网站的结构。


5.网址错误


与网站错误不同,URL错误仅影响网站上特定页面的可抓取性。


6.404错误


404错误意味着搜索引擎机器人无法找到该URL,这是最常见的URL错误之一。它发生在以下情况:


·您更改了页面的URL,但未更新指向该页面的旧链接


·您已从网站中删除了页面或文章,但未添加重定向


·您的链接已损坏——例如,URL中有错误


如今大多数公司都使用自定义404页面。这些自定义页面改善了用户体验。并让您与网站的设计和品牌保持一致。


7.403禁止错误


403禁止错误意味着服务器拒绝了爬虫的请求。这意味着服务器理解该请求,但爬虫无法访问该URL。服务器权限问题是403错误背后的主要原因。服务器权限定义用户和管理员对文件夹或文件的权限。我们可以将权限分为三类:读、写、执行。例如,如果您没有读取权限,您将无法访问URL。


有故障的.htaccess文件是403错误的另一个经常出现的原因。.htaccess文件是Apache服务器上使用的配置文件。它对于配置设置和实施重定向很有帮助。但是.htaccess文件中的任何错误都可能导致403错误等问题。


8.重定向循环


当页面A重定向到页面B,页面B重定向到页面A时,就会发生重定向循环。结果就是无限循环的重定向会阻止访问者和爬虫访问您的内容。这可能会阻碍你的排名。


如何查找抓取错误?


Google Search Console是一款出色的工具,可为识别抓取错误提供宝贵的帮助。


·前往您的GSC帐户,然后单击左侧边栏上的“设置”。


·然后,单击“抓取统计”选项卡旁边的“打开报告”。


·向下滚动查看Google是否注意到您网站上的抓取问题。


·单击任何问题,例如5xx服务器错误。


·您将看到与您选择的错误匹配的URL的完整列表。


现在,您可以一一解决它们。


如何修复抓取错误?


我们现在知道如何识别抓取错误,下一步是更好地了解如何修复它们。您可能会经常遇到404错误,好消息是它们很容易修复。您可以使用重定向来修复404错误。使用301重定向进行永久重定向,因为它们允许您保留一些原始页面的权限。并使用302重定向进行临时重定向。


如何选择重定向的目标URL?


以下是一些最佳实践:


·如果内容仍然存在,则添加到新URL的重定向


·如果内容不再存在,则添加重定向到处理相同或高度相似主题的页面


部署重定向有三种主要方法。


第一种方法是使用插件。


以下是一些最流行的WordPress重定向插件:


·重定向


·Yoast SEO(仅适用于高级计划)


·301重定向


第二种方法是直接在服务器配置文件中添加重定向。


以下是Apache服务器上.htaccess文件上的301重定向的样子。


重定向301 https://www.yoursite.com/old-page/https://www.yoursite.com/new-page/


您可以将此行分为四个部分:


·重定向:指定我们要重定向流量


·301:表示重定向代码,说明这是一个永久重定向


·https://www.yoursite.com/old-page/:标识要重定向的URL


·https://www.yoursite.com/new-page/:标识要重定向到的URL


如果您是初学者,我们不推荐此选项。因为如果您不确定自己在做什么,可能会对您的网站产生负面影响。因此,如果您选择走这条路,请务必与开发人员合作。最后,如果您使用Wix或Shopify,则可以直接从后端添加重定向。如果您使用的是Wix,请滚动到网站控制面板的底部--然后点击“营销搜索引擎优化”下的“搜索引擎优化”--单击“工具和设置”部分下的“转到URL重定向管理器”--然后,单击右上角的“+新重定向”按钮将显示一个弹出窗口。在这里,您可以选择重定向类型,输入要重定向的旧URL以及要定向到的新URL。


如果您使用Shopify,请遵循以下步骤:


·登录您的帐户,然后点击“销售渠道”下的“在线商店”。


·然后,选择“导航”。


·从这里,转到“查看URL重定向”。


·单击“创建URL重定向”按钮。


·输入您希望将访问者重定向至的旧URL以及要将访问者重定向至的新URL。“输入“/”以定位您商店的主页。)


·最后,保存重定向。


损坏的链接(指向无法找到的页面的链接)也可能是404错误背后的原因。那么,让我们看看如何使用站点审核工具快速识别损坏的链接并修复它们。


损坏的链接指向不存在的页面或资源。假设您正在撰写一篇新文章,并且想要添加一个指向“yoursite.com/about”的“关于”页面的内部链接。链接上的任何拼写错误都会创建损坏的链接。因此,如果您忘记了字母“b”并输入“yoursite.com/aout”而不是“yoursite.com/about”,您将收到断开链接错误。损坏的链接可能是内部(指向您网站上的另一个页面)或外部(指向另一个网站)。


要查找损坏的链接,请配置站点审核(如果尚未配置)。然后,转到“问题”选项卡。现在,在表格顶部的搜索栏中输入“内部链接”,以查找与损坏链接相关的问题。单击问题中的蓝色可点击文本即可查看受影响URL的完整列表。要修复这些问题,请更改链接、恢复丢失的页面或将301重定向添加到网站上的另一个相关页面。


写在最后


为了确保您的网站可以被抓取(并建立索引和排名),您应该首先使其对搜索引擎友好。如果不是,您的页面可能不会显示在搜索结果中。因此,您不会带来任何自然流量。使用站点审核工具可以轻松查找和修复可爬行性和可索引性问题。您甚至可以将其设置为定期自动抓取您的网站。确保您随时了解需要解决的任何爬网错误。


免责声明:
详情

Please Play Responsibly:

Casino Games Disclosure: Select casinos are licensed by the Malta Gaming Authority. 18+