搜索引擎技术之整体架构设计

9 篇文章 0 订阅
订阅专栏

我们先看一下一个搜索引擎的大体设计图 :

 

2 这里面我们看到了输入部分 , 索引部分 , 存储部分 , 还有搜索部分 , 简单的说拥有这些部件你的产品就可以叫做一个索引引擎了 ,MS 使用的桌面搜索服务 (Index service) 也是这几部分组成的 , 那么我们接下来一步一步分析这几部分 :

1.      Source 作为输入部分 , 为一个指定的文件目录 , 先要具备全目录扫描 , 这时要看我们是否设定了文件 Filter, 很多时候我们只需要把 PDF,HTML 等有用的文件去做索引 , 索引设定 Filter 还是可以提供更好的性能和准确度 , 这里我们创建一个 Document 模块负责文件目录的管理 , 该模块要具备文件系统扫描 , 文件类型过虑 , 还要能将扫描得到的有用文件路径存储到内存中为以后打开这些文件做索引做准备 , 这里我使用了一个 vector 做的文件路径存储 .

2.      Analysis 模块负责对文件内容进行解析 , 不同的文件调用不同的解析器 , 这里的文件就是由上面的 vector 提供的 , 这里设计一定要为将来其他用户使用拓展文件类型提供接口 , 否则你的设计就太不 Flexible, 可以考虑诸如 Façade 的设计模式开发 . 我在这里抽象了一个虚基类 :

class CFileParserBase

{

public:

      CFileParserBase(void);

      ~CFileParserBase(void);

      virtual int parseWord(IN char * read_buf, CString FileName) = 0;

      virtual char * getContent(CString FileName) = 0;

};

其它类需要去重载文件解析和文件内容获取两个基本函数 .

3.      将解析的关键字建立反向索引 , 这里我使用的是数据库 , 因为好的 Database 会在你查询时提供优化 , 速度也就会更快一些 , 性能对于搜索引擎来说是最重要的 . 这一部分的实现我下篇文章详细说 :

1

GoogleAppEngine技术架构资料大盘点
03-02
本篇将主要介绍Google的十个核心技术,而且可以分为四大类:由于搜索引擎需要处理海量的数据,所以Google的两位创始人LarryPage和SergeyBrin在创业初期设计一套名为"BigFiles"的文件系统,而GFS
搜索引擎架构设计
HK学习
06-05 305
HK 学习笔记 好久都没有写过博客了,自从换了公司后,一直在忙...时间就更少了,但是学到的东西却是非常多!今天我把学到的东西记下来,当做自己的一个笔记吧,也算是一个学习的心得   搜索引擎架构设计   介绍下我这次说的搜索引擎的主要技术   node.js  Sphinx  oracle  mongodb   下面简单介绍下   node.js   它是一个号称无阻塞的轻量...
架构思维成长系列教程(十)- 电商搜索引擎架构设计
Think Different
03-20 1124
背景 电商搜索引擎,是帮助顾客快速找到需要购买的商品的工具。 内容 衡量一个电商搜索引擎是否成功的标准是:顾客在一连串的搜索行为当中,是否越来越接近自己的真实需求。顾客越快进入商品页面去浏览商品,越表明搜索引擎推荐的搜索结果越精确。 电商搜索引擎,是传统搜索引擎的一个垂直领域,为了更好地学习搜索引擎的相关知识,首先看一个完整的搜索引擎技术架构搜索引擎技术架构 一个完整的搜索引擎技术框架,如图所示,搜索引擎技术架构,分成 3 个部分:信息采集、建立索引库、提供检索服务。 搜索引擎
1.这就是搜索引擎:核心技术详解 --- 搜索引擎及其技术架构
enlyhua的专栏
02-26 4231
1. 2.
个性化搜索引擎系统架构设计
weixin_52610848的博客
11-25 504
文章目录前言一、搜索数据仓库搭建、数据抽取部分二、大数据平台、搜索数据集市分层设计、处理三、离线算法部分四、在线Web搜索接口服务总结 前言 个性化搜索目前发展阶段不是要替换掉传统搜索,而是对传统搜索的一个补充。我们先看下它的架构如图2.2所示: 图2.2 个性化搜索架构图 个性化搜索和个性化推荐是比较类似的,这个架构图包含了各个子系统或模块的协调配合、相互调用关系,从部门的组织架构上来看,目前搜索一般独立成组,有的是在搜索推荐部门里面,实际上比较合理的应该是分配在大数据部门更好一些,因为依托于大数据部
搜索整体架构
WitsMakeMen的专栏
06-08 456
搜索按照模块划分,整体分为三个主要部分,分别是离线数据挖掘、召回系统、排序系统。离线数据挖掘负责离线商品等成分提取等功能,包括商品的实体词挖掘,类目预测,属性挖掘,以及商品title seo优化和网格拓品等。
一个基础教育网站搜索引擎设计与实现
09-11
在研究网站元数据的基础上,介绍一个以基础教育网站为检索对象的搜索引擎系统。...教育网站的特点,分析该系统的关键技术,如主题蜘蛛搜索、网站分类、网站信息提取等,并对系统的整体架构、 功能模块进行详细描述。
威客网上招标系统.rar
最新发布
04-25
从本世纪初,互联网开始加速发展,各种创新型应用和互联网新概念不断出现,例如搜索引擎、电子商务、博客、维基百科、RSS、3G、web2.0、长尾理论等。这些应用和概念与知识管理都有着或多或少的关系。如何利用互联网...
毕业设计:基于Vue+SpringCloud博客的设计与实现-微服务-分布式,包含源码、毕业论文、运行流程图,非常详细
01-17
所有互联网常用的代表中间件均涉及使用,基本是一个完整的全栈项目,整个博客用的是微服务架构设计与分布式部署方式,整体代码均有注释,并且扩展方便,最终部署的方式需要采用Docker方式。 项目涉及到的技术 前端...
亿级数据的高并发通用搜索引擎架构设计[转载]
03-21
NULL 博文链接:https://xiangxingchina.iteye.com/blog/932216
搜索引擎高级体系结构设计文档
06-08
目录 一.综述 4 二.关注点 5 2.1 功能需求 5 2.2 质量需求 6 2.3 约束 8 三.体系结构需求定义 8 3.1 体系结构需求描述及体系结构约束 8 3.2 用例视图 20 3.3非功能需求的可验证性场景描述 21 四.初始体系结构 29 4.2 初始体系结构 30 4.3 初始体系结构——逻辑视图 32 4.4 初始体系结构——开发视图 32 4.5 初始体系结构——进程视图 37 4.6 初始体系结构——部署视图 38 五.设计决策 40 5.1 决策列表 40 六.最终的高层结构 45 6.1 逻辑视图 45 6.2 开发视图 58 6.3 进程视图 108 6.4 部署视图 110 七.风格 112 7.1 层次式风格 112 7.1.1 相关功能 112 7.1.2 所考虑的质量要求和决策依据 112 7.1.3 所影响的模型视图部分 112 7. 2管道/过滤器风格 112 7.2.1 相关功能 112 7.2.2 所考虑的质量要求和决策依据 113 7.2.3 所影响的模型视图部分 113 7.3 存储库风格 113 7.3.1 相关功能 113 7.3.2 所考虑的质量要求和决策依据 113 7.3.3 所影响的模型视图部分 113 7.4 隐式调用风格 114 7.4.1 相关功能 114 7.4.2 所考虑的质量要求和决策依据 114 7.4.3 所影响的模型视图部分 115 7.5面向对象风格 115 7.5.1 相关功能 115 7.5.2 所考虑的质量要求和决策依据 115 7.5.3 所影响的模型视图部分 116
亿级数据的高并发通用搜索引擎架构设计 国内高手设计
08-14
前公司的分类信息搜索基于此架构,效果明显,甚至将很大一部分带Where条件的MySQL SQL查询,都改用了Sphinx+MySQL搜索。但是,这套架构仍存在局限:一是MySQL本身的并发能力有限,在200~300个并发连接下,查询和更新就比较慢了;二是由于MySQL表的主键与Sphinx索引的ID一一对应,从而无法跨多表建立整站查询,而且新增加类别还得修改配置文件,比较麻烦;三是因为和MySQL集成,无法发挥出Sphinx的优势。
腾讯搜索的系统架构是如何达到99.994%高可用的?
架构师小秘圈
06-09 139
????导读本文主要是搜索在稳定性治理实践的经验总结,讲述了搜狗搜索技术债治理基础上如何将可用性提升一个量级,事故级 MTTD(平均故障检测时间)、MTTR(平均响应时间)优化一个量级,尤其在重大事故层次形成一个较强控制力。内容全面且实践性较强,团队的每项能力定位也比较清晰,除了核心的容灾、发现、应急建设,还在前置拦截、自动防御,风险扫盲等维度进行全方位治理。欢迎阅读~????目录1 可用性架构体系2 容灾...
搜索技术架构
补补7的博客
02-15 662
这幅图是某大厂前几年的搜索架构搜索支撑的业务线包括商品、店铺、订单、用户等大大小小20多个,双11期间搜索量在2亿/天,实体服务器超过100台。按功能分为分布式实时引擎、dump中心、数据分析和运维平台几大块 dump中心 实质是根据实例搜索与展现的需求将数据库中相关字段组装成document,并生成索引替换上线的过程。我们的dump分为全量和增量模式。 全量模
京东到家搜索系统架构演进
架构师日记
09-01 1175
随着到家业务发展,到家的用户量级也在持续增加,为了满足用户购物需求,给用户一个便捷的购物体验,搜索系统一直在持续地进行架构迭代和策略升级。本文将对到家搜索系统架构演进历程进行详细介绍。...
架构设计|检索系统设计方案(重构)
Fong灵
11-25 1215
检索系统设计方案(重构)
【原创】使用Golang的电商搜索技术架构实现
heiyeluren的blog(黑夜路人的开源世界)
11-18 3577
学习完本文,能够在现有 ES 等良好索引存储开源软件基础上,如何在类似于电商这样的业务场景下面,去通过Golang+工程化方式,设计架构开发一个可靠解决各种业务场景问题的电商搜索引擎
系统架构设计:程序员向架构师转型之路
07-11
本课程首先围绕普通开发人员如何向架构师转型这一课题,从架构师的角色以及转型过程中会遇到的困难及其解决方法切入展开讨论,总领整个课程。课程主体部分从软件架构体系结构、架构设计技术体系等角度出发,详细介绍了架构师区别于一般开发人员所需要掌握的架构设计方法论与相关实践,包括架构风格与模式、领域驱动设计、类与框架设计、分布式系统架构设计、微服务架构设计、各种主流的技术体系与实践等内容。
设计一个工业品网站规划文档
03-31
3. 系统架构设计:采用分布式架构,将系统拆分成多个子系统,分别负责不同的业务模块,实现系统的高可用性和可扩展性。 4. 接口设计:采用RESTful API设计风格,实现前后端分离,提高系统的灵活性和扩展性。 5. 系统...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 使用Zlib实现压缩和解压缩 13384
  • 实现Radius+LDAP认证测试平台 6831
  • 解决缺少xorg.conf的问题 5560
  • linux下实现虚拟网卡 4956
  • IE 使用VLC ActiveX全屏播放技术 4412

分类专栏

  • 其它技术 19篇
  • 搜索引擎 9篇
  • 鸡汤 23篇
  • 大数据分析与机器学习 35篇

最新评论

  • 奥林匹克历史数据分析与金牌预测(下)

    白月光ly: 能再讲解一下吗

  • 奥林匹克历史数据分析与金牌预测(下)

    白月光ly: 想法相同

  • 奥林匹克历史数据分析与金牌预测(下)

    碧水微澜� ⃢�.�⃢ �: 话说最后出的准确率和中国获奖情况有关码

  • 奥林匹克历史数据分析与金牌预测(上)

    木也NTIw: 你好,请问能分享一下数据集吗?邮箱:51355427@qq.com

  • 机器学习从入门到创业手记-数据分析实战

    Seki_shyo: 写的挺好的,比较期待后续。我有点好奇这段培训经历是什么时候的事?

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 机器学习从入门到创业手记-数据分析实战
  • 机器学习从入门到创业手记-数据特征工程
  • 机器学习从入门到创业手记-数据可视化
2019年31篇
2018年6篇
2014年3篇
2013年18篇
2012年1篇
2011年4篇
2010年3篇
2009年22篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司哈尔滨建网站报价宿州SEO按天计费哪家好武威网站关键词优化哪家好商洛网站优化公司嘉兴网站优化排名推荐徐州网站优化按天收费公司长春至尊标王报价临沧网站设计模板哪家好连云港网站优化多少钱昆明百搜标王价格衡水建站推荐来宾百度关键词包年推广公司成都关键词按天计费公司大庆seo网站优化报价张家界百姓网标王推广多少钱张家口网站搜索优化价格北海设计网站公司龙岩高端网站设计报价阜新企业网站建设报价玉树优化多少钱济南网页设计价格兰州网站优化推广塘坑百搜标王哪家好泸州网站推广方案哪家好临猗百度竞价推荐晋中营销网站多少钱咸宁网站优化按天收费多少钱深圳百搜标王推荐木棉湾百度网站优化公司包头网站开发推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化