seo蜘蛛工具教你如何检查网站重复的内容
在整个网站上,应尽量减少重复内容,因为这会使搜索引擎难以确定要对查询进行排名的版本。
尽管“重复内容惩罚”是SEO中的一个神话,但是非常相似的内容可能会导致抓取效率低下,稀释PageRank,并且是可以合并,删除或改进的内容的标志。
值得记住的是,重复和相似的内容是网络的自然组成部分,对于搜索引擎而言,这通常不是问题,因为搜索引擎会设计规范化URL并在适当的地方对其进行过滤。但是,从规模上讲,这可能会带来更多问题。
防止重复的内容使您可以控制索引和排名的内容-而不是将其留给搜索引擎。您可以限制抓取预算的浪费,并合并索引和链接信号以帮助进行排名。
本教程将引导您逐步了解如何使用Screaming Frog SEO Spider查找确切重复的内容以及几乎重复的内容,其中某些文本在网站上的页面之间匹配。
任何工具(包括SEO Spider)标识的重复内容都需要进行上下文审查。观看我们的视频,或继续阅读下面的指南。
要开始使用,请下载免费的SEO Spider,最多可检索500个URL。前2个步骤仅在具有许可证的情况下可用。如果您是免费用户,请跳至指南中的第3位。
1)通过“配置”>“内容”>“重复项”启用“附近重复项”
默认情况下,SEO Spider将自动识别确切的重复页面。但是,要识别“附近重复”,必须启用该配置,以允许其存储每个页面的内容。
SEO Spider将识别相似度匹配度为90%的近似重复项,可以对其进行调整以查找相似性阈值较低的内容。
SEO Spider还将仅检查“可索引”页面中是否存在重复项(对于完全重复和几乎重复项)。
这意味着,如果您有两个相同的URL,但是一个被规范化为另一个(因此是“不可索引的”)URL,则将不会报告该URL –除非禁用此选项。
如果您有兴趣查找爬网预算问题,请取消选中“仅检查可索引的页面是否重复”选项,因为这可以帮助查找潜在的爬网浪费区域。
2)调整“内容区域”以通过“配置>内容>区域”进行分析
您可以配置用于近重复分析的内容。对于新的爬网,我们建议使用默认设置,并在以后可以看到并考虑分析中使用的内容时对其进行优化。
SEO Spider将自动排除导航元素和页脚元素,以专注于主体内容。但是,并非每个网站都是使用这些HTML5元素构建的,因此您可以根据需要优化用于分析的内容区域。您可以选择在分析中“包含”或“排除” HTML标签,类和ID。
例如,Screaming Frog网站的nav元素外部有一个移动菜单,默认情况下,该菜单包含在内容分析中。尽管这不是什么大问题,但是在这种情况下,为了帮助重点关注页面的主体文本,可以将其类名称“ mobile-menu__dropdown”输入“排除类”框中。
这会将菜单排除在重复内容分析算法之外。稍后对此进行更多讨论。
3)搜寻网站
打开SEO Spider,在“要爬网的URL”框中输入您要爬网的网站或在其中进行复制,然后点击“开始”。
等待爬网完成并达到100%,但您也可以实时查看一些详细信息。
4)在“内容”标签中查看重复项
“内容”选项卡具有2个与重复内容相关的过滤器,“完全重复”和“几乎重复”。
在抓取过程中只能实时查看“完全重复”。“接近重复”要求在爬网结束时通过“爬网分析”后的计算,以便将其填充数据。
右侧“概述”窗格针对需要使用数据填充后爬网分析的过滤器显示“(需要进行爬网分析)”消息。
5)单击“爬网分析>开始”以填充“附近重复项”过滤器
要填充“附近重复项”过滤器,“最近相似匹配项”和“否”。在“重复项”列附近,您只需要单击爬网末尾的按钮即可。
但是,如果您之前已经配置了“爬网分析”,则可能需要仔细检查“爬网分析>配置”下的“近重复项”是否已勾选。
您也可以取消选中还需要后期爬网分析的其他项目,以使此步骤更快。
抓取分析完成后,“分析”进度条将变为100%,并且过滤器将不再显示“(需要抓取分析)”消息。
现在,您可以查看已填充的几乎重复的过滤器和列。
6)查看“内容”标签和“精确”和“附近”重复过滤器
进行爬网分析后,使用“近重复项”过滤器,“最近相似匹配项”和“否”。Near Duplicates的列将被填充。只有内容超过所选相似性阈值的URL才会包含数据,其他URL将保持空白。在这种情况下,Screaming Frog网站只有两个。
搜寻更大的网站(例如BBC)会发现更多内容。
您可以按以下条件进行过滤
- 精确重复-此过滤器将显示使用MD5算法彼此相同的页面,该算法为每个页面计算一个“哈希”值,并可以在“哈希”列中看到。此检查是针对页面的完整HTML执行的。它将显示具有完全相同的匹配哈希值的所有页面。精确的重复页面可能导致PageRank信号分裂,并且排名无法预测。仅应存在一个URL并在内部链接到其的规范版本。其他版本不应该链接到301,它们应该重定向到规范版本。
- 几乎重复–该过滤器将使用minhash算法基于配置的相似度阈值显示相似页面。该阈值可以在“配置>蜘蛛>内容”下进行调整,默认设置为90%。“最接近的相似度匹配”列显示与另一个页面的相似度最高的百分比。'没有 “附近重复项”列根据相似度阈值显示与页面相似的页面数。该算法针对页面上的文本而不是像完全重复的HTML一样运行。可以在“配置>内容>区域”下配置用于此分析的内容。页面可以具有100%的相似性,但是只能是“几乎重复”,而不是完全重复。这是因为精确的重复项被排除为近似重复项,以避免将它们标记两次。
几乎有重复的页面应进行人工检查,因为有许多合理的理由使某些页面的内容非常相似,例如产品的搜索量围绕其特定属性而变化。
但是,应检查标记为几乎重复的URL,以考虑由于其对用户的独特价值而应将其作为单独的页面存在,还是应将其删除,合并或改进以使内容更深入唯一。
7)通过“重复详细信息”选项卡查看重复的URL
对于“精确重复”,使用过滤器在顶部窗口中查看它们会更容易-因为它们被分组在一起并共享相同的“哈希”值。
在上面的屏幕截图中,由于后跟斜杠和非尾随斜杠版本,每个URL都有对应的精确重复项。
对于“几乎重复”,请单击底部的“重复详细信息”选项卡,该选项卡将使用下面的“几乎重复的地址”和发现的每个几乎重复的URL的相似性填充下部窗格。
例如,如果在顶部窗口中发现4个URL的重复项,则可以全部查看。
“重复详细信息”选项卡的右侧将显示从页面发现的几乎重复的内容,并在您单击每个“附近重复的地址”时突出显示页面之间的差异。
如果您不希望重复详细信息标签中包含重复的内容,请排除或包括任何HTML元素,类或ID(如第2点中突出显示),然后重新运行爬网分析。
8)批量导出重复项
可以通过“批量导出>内容>精确重复”和“几乎重复”导出批量导出精确和几乎重复项。
最后提示!优化相似性阈值和内容区域,并重新进行爬网分析
抓取后,您可以调整近似重复的相似性阈值和用于近似重复分析的内容区域。
然后,您可以再次重新运行爬网分析以查找或多或少的相似内容,而无需重新爬网该网站。
如前所述,Screaming Frog网站的nav元素外部有一个移动菜单,默认情况下,该菜单包含在内容分析中。可以在“重复详细信息”标签的内容预览中看到移动菜单。
通过在“配置>内容>区域”下的“排除类别”框中排除“移动菜单下拉菜单”,可从内容预览和近乎重复的分析中删除移动菜单。
当将几乎重复的内容的标识微调到主要内容区域时,这确实有帮助,而无需重新爬网。