无障碍 关怀版
评论

了解内容处理和索引的原理-专业SEO技术教程(15)

原标题:了解内容处理和索引的原理-专业SEO技术教程(15)

了解内容处理和索引的原理-专业SEO技术教程(15)

搜索引擎蜘蛛对网站进行了爬行和抓取后,接下来的一步就是对抓取的内容进行预处理,也被称“索引”。主要包括提取文字、中文分词、去停止词、消除噪声、去重、正向索引、倒排索引、链接关系计算机和特殊文件处理几个方面。那么,我们今天就来了解内容处理和索引的原理讲解

搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名和处理。搜索引擎数据库中的页面数据都在数万亿级别以上,用户输入搜索词后,靠排名程序时对这么多页面分析相关性,计算量太大,不可能在一两秒内返回排名结果,因此抓取来的页面必须经过预处理,为最后的查询排名做好准备。

提取文字

现在的搜索引擎还是以文字内容为基础。蜘蛛抓取到页面中的HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、Java程序等无法用于排名的内容。搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提出可以用于排名处理的网页面文字内容。

中文分词

中文分词是中文搜索引擎特有的步骤,中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨那几个字组成一个词,哪些字本身就是一个词。中文分词方法有两种,一种是基于词典匹配,另一种是基于统计。

基于词典匹配的方法是指,将待分析的一段文字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。基于统计的分词方法指的是分析大量字体样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

基于统计的方法的优势是对新出现的词反应更快速,也有利于消除歧义。在实际使用中,分词系统是混合使用两种方法的。搜索引擎对页面的分词取决于词库中规模。准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做的很少。SEO人员唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、H标签及黑体中出现关键词。

去除停止词

无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词。如“的”“地”“得”之类的助词,“啊”“哈”“呀”之类的感叹词,“从而”“以”“却”之类的副词或介词。英文中的常见停止词有the、a、an、to、of等。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

消除噪声

噪声并不是指网页中的嘈杂的声音,而是指页面上对页面的主题没有贡献的内容,比如版权声明文字、导航条、广告等,这些内容对页面主题只能起到分散作用。因此搜索引擎需要识别并消除噪声,排名时不适用噪声内容。消噪的基本方法是根据HTML标签对页面的分块,区分出页头、导航、正义、页脚、广告等区域。在网站上大量重复出现的去看往往属于噪声后,剩下的才是页面主题内容。

去除重复

同一骗文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在前两页看到的都是来自不同网站的同一篇文章,用户体验就太差了。搜索引擎希望只返回相同文章中的一篇,所以在进行索引前还需要识别和删除重复内容,这个过程及称为“去重”。

了解了搜索引擎的去重搜索引擎的去重算法,SEO人员就应该知道简单地增加“的”“地”“得”、调换段落顺序这种所谓伪原创,并不能跳过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别。混合不同文章,交叉调换段落顺序也不能使转载和抄袭变成原创。

正向索引

经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的,能反映页面主体内容的,伊词为单位的内容。接下来搜索引擎程序就可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率,出现次数、格式(如出现在标题标签、黑体、H标签、锚文字等),位置(如页面第一段文字等)。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都记录在案。

倒排索引

正向索引还不能直接用于排名。假设搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,在进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。因此需要搜索引擎将正向索引数据库重新构造成倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射。

链接关系计算

现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字。这些复杂的链接指向关系形成了网站和页面的链接权重。由于和链接数量巨大,网上的链接关系又时时处在更新中,因此链接冠词及PR的计算要耗费很长时间。

特殊文件处理

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、xls、PPT、txt文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还能处理图片、视频、flash这类非文字内容,也不能执行脚本和程序。虽然搜索引擎在识别图片及从flash中提取文字内容方面有些进步,不过距离靠直接读取图片、视频、flash内容返回结果的目标还很远。对图片。视频内容的排名还依据与之相关的文字内容,详细情况可以参考后面的整合搜索部分。

以上就是对了解内容处理和索引原理的全部介绍,感谢大家的支持与关注,明天继续更新。返回搜狐,查看更多

责任编辑:

平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
阅读 ()
大家都在看
推荐阅读

深圳SEO优化公司迁安企业网站建设哪家好景德镇如何制作网站推荐广安企业网站建设推荐荆州营销网站哪家好北海百度爱采购报价铁岭建网站公司吉祥网站优化按天计费多少钱石岩百度网站优化价格昌都推广网站价格安康百搜标王报价株洲seo排名报价布吉百度网站优化多少钱宝鸡关键词按天计费报价大运百度网站优化排名价格东莞网站设计哪家好滨州网页设计推荐贵阳网站关键词优化报价鞍山SEO按天扣费价格淮安建网站公司东营网页设计公司恩施网站推广系统报价贺州网站关键词优化报价池州网站改版报价恩施建网站多少钱平顶山网站推广系统哪家好丹东网站排名优化报价周口推广网站南联网站推广工具拉萨百度网站优化排名哪家好天水外贸网站建设报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化