首发于 seo建站工具

seo蜘蛛工具教你如何检查网站重复的内容

seo蜘蛛工具教你如何检查网站重复的内容

搜索引擎优化

在整个网站上，应尽量减少重复内容，因为这会使搜索引擎难以确定要对查询进行排名的版本。

尽管“重复内容惩罚”是SEO中的一个神话，但是非常相似的内容可能会导致抓取效率低下，稀释PageRank，并且是可以合并，删除或改进的内容的标志。

值得记住的是，重复和相似的内容是网络的自然组成部分，对于搜索引擎而言，这通常不是问题，因为搜索引擎会设计规范化URL并在适当的地方对其进行过滤。但是，从规模上讲，这可能会带来更多问题。

防止重复的内容使您可以控制索引和排名的内容-而不是将其留给搜索引擎。您可以限制抓取预算的浪费，并合并索引和链接信号以帮助进行排名。

本教程将引导您逐步了解如何使用Screaming Frog SEO Spider查找确切重复的内容以及几乎重复的内容，其中某些文本在网站上的页面之间匹配。

任何工具（包括SEO Spider）标识的重复内容都需要进行上下文审查。观看我们的视频，或继续阅读下面的指南。

要开始使用，请下载免费的SEO Spider，最多可检索500个URL。前2个步骤仅在具有许可证的情况下可用。如果您是免费用户，请跳至指南中的第3位。

1）通过“配置”>“内容”>“重复项”启用“附近重复项”

默认情况下，SEO Spider将自动识别确切的重复页面。但是，要识别“附近重复”，必须启用该配置，以允许其存储每个页面的内容。

SEO Spider将识别相似度匹配度为90％的近似重复项，可以对其进行调整以查找相似性阈值较低的内容。

SEO Spider还将仅检查“可索引”页面中是否存在重复项（对于完全重复和几乎重复项）。

这意味着，如果您有两个相同的URL，但是一个被规范化为另一个（因此是“不可索引的”）URL，则将不会报告该URL –除非禁用此选项。

如果您有兴趣查找爬网预算问题，请取消选中“仅检查可索引的页面是否重复”选项，因为这可以帮助查找潜在的爬网浪费区域。

2）调整“内容区域”以通过“配置>内容>区域”进行分析

您可以配置用于近重复分析的内容。对于新的爬网，我们建议使用默认设置，并在以后可以看到并考虑分析中使用的内容时对其进行优化。

SEO Spider将自动排除导航元素和页脚元素，以专注于主体内容。但是，并非每个网站都是使用这些HTML5元素构建的，因此您可以根据需要优化用于分析的内容区域。您可以选择在分析中“包含”或“排除” HTML标签，类和ID。

例如，Screaming Frog网站的nav元素外部有一个移动菜单，默认情况下，该菜单包含在内容分析中。尽管这不是什么大问题，但是在这种情况下，为了帮助重点关注页面的主体文本，可以将其类名称“ mobile-menu__dropdown”输入“排除类”框中。

这会将菜单排除在重复内容分析算法之外。稍后对此进行更多讨论。

3）搜寻网站

打开SEO Spider，在“要爬网的URL”框中输入您要爬网的网站或在其中进行复制，然后点击“开始”。

等待爬网完成并达到100％，但您也可以实时查看一些详细信息。

4）在“内容”标签中查看重复项

“内容”选项卡具有2个与重复内容相关的过滤器，“完全重复”和“几乎重复”。

在抓取过程中只能实时查看“完全重复”。“接近重复”要求在爬网结束时通过“爬网分析”后的计算，以便将其填充数据。

右侧“概述”窗格针对需要使用数据填充后爬网分析的过滤器显示“（需要进行爬网分析）”消息。

5）单击“爬网分析>开始”以填充“附近重复项”过滤器

要填充“附近重复项”过滤器，“最近相似匹配项”和“否”。在“重复项”列附近，您只需要单击爬网末尾的按钮即可。

但是，如果您之前已经配置了“爬网分析”，则可能需要仔细检查“爬网分析>配置”下的“近重复项”是否已勾选。

您也可以取消选中还需要后期爬网分析的其他项目，以使此步骤更快。

抓取分析完成后，“分析”进度条将变为100％，并且过滤器将不再显示“（需要抓取分析）”消息。

现在，您可以查看已填充的几乎重复的过滤器和列。

6）查看“内容”标签和“精确”和“附近”重复过滤器

进行爬网分析后，使用“近重复项”过滤器，“最近相似匹配项”和“否”。Near Duplicates的列将被填充。只有内容超过所选相似性阈值的URL才会包含数据，其他URL将保持空白。在这种情况下，Screaming Frog网站只有两个。

搜寻更大的网站（例如BBC）会发现更多内容。

您可以按以下条件进行过滤

几乎有重复的页面应进行人工检查，因为有许多合理的理由使某些页面的内容非常相似，例如产品的搜索量围绕其特定属性而变化。

但是，应检查标记为几乎重复的URL，以考虑由于其对用户的独特价值而应将其作为单独的页面存在，还是应将其删除，合并或改进以使内容更深入唯一。

7）通过“重复详细信息”选项卡查看重复的URL

对于“精确重复”，使用过滤器在顶部窗口中查看它们会更容易-因为它们被分组在一起并共享相同的“哈希”值。

在上面的屏幕截图中，由于后跟斜杠和非尾随斜杠版本，每个URL都有对应的精确重复项。

对于“几乎重复”，请单击底部的“重复详细信息”选项卡，该选项卡将使用下面的“几乎重复的地址”和发现的每个几乎重复的URL的相似性填充下部窗格。

例如，如果在顶部窗口中发现4个URL的重复项，则可以全部查看。

“重复详细信息”选项卡的右侧将显示从页面发现的几乎重复的内容，并在您单击每个“附近重复的地址”时突出显示页面之间的差异。

如果您不希望重复详细信息标签中包含重复的内容，请排除或包括任何HTML元素，类或ID（如第2点中突出显示），然后重新运行爬网分析。

8）批量导出重复项

可以通过“批量导出>内容>精确重复”和“几乎重复”导出批量导出精确和几乎重复项。

最后提示！优化相似性阈值和内容区域，并重新进行爬网分析

抓取后，您可以调整近似重复的相似性阈值和用于近似重复分析的内容区域。

然后，您可以再次重新运行爬网分析以查找或多或少的相似内容，而无需重新爬网该网站。

如前所述，Screaming Frog网站的nav元素外部有一个移动菜单，默认情况下，该菜单包含在内容分析中。可以在“重复详细信息”标签的内容预览中看到移动菜单。

通过在“配置>内容>区域”下的“排除类别”框中排除“移动菜单下拉菜单”，可从内容预览和近乎重复的分析中删除移动菜单。

当将几乎重复的内容的标识微调到主要内容区域时，这确实有帮助，而无需重新爬网。

发布于 2020-11-16 18:42

搜索引擎优化（SEO）

文章被以下专栏收录

seo建站工具

新手建站需要的工具，包涵关键词、排名、权重。

深圳SEO优化公司龙岗关键词按天扣费报价新乡百度seo报价淮南模板制作价格怀化模板制作价格金昌网站排名优化多少钱湘潭模板网站建设报价衢州营销型网站建设价格恩施建网站推荐太原网站关键词优化哪家好铜陵网站优化软件临猗seo网站推广报价鹰潭网站优化推广多少钱甘孜网站seo优化推荐赣州关键词排名多少钱酒泉网站推广系统推荐阳泉关键词按天扣费报价巴中百度标王价格观澜设计公司网站汉中英文网站建设报价韶关营销网站报价黄南优秀网站设计价格坪地网站优化软件公司无锡百搜标王迁安网站推广工具多少钱厦门推广网站多少钱鄂州高端网站设计推荐湛江网站搜索优化公司上饶网站推广工具公司飞来峡SEO按天收费哪家好揭阳建站价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化