Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(3)- 分词器介绍

21 篇文章 8 订阅
订阅专栏

分词器介绍

ES作为全文检索服务,势必要对原始的文本进行内容的拆分,才能进行有效的索引。而拆分原始内容到一个一个小的词,或语义单元,这部分的功能由ES的分词器去完成的。

常见分词器

standard:ES默认的分词器,会将词汇单元进行小写形式,并且去除一些停用词和标点符号等等。支持中文,采用的方法为单字切分。
在这里插入图片描述
在这里插入图片描述

simple:该分词器首先通过非字母字符来分割文本信息,然后将词汇单元统一为小写形式。该分词器会去除掉数字类型的一些字符。

whitespace:仅仅是去除空格,然后对字符没有任何的小写化,并且该分词器不支持中文,而且它对生成的词汇单元没有作其他的一些标准化的处理。

language:特定语言的分词器,目前该分词器也是不支持中文的。

IK分词器的安装和使用

IK分词器是目前ES开源社区对于中文分词支持最好的第三方的插件。

首先,我们下载IK分词器插件。
IK分词器github地址为:
https://github.com/medcl/elasticsearch-analysis-ik
点击右下角releases
在这里插入图片描述
然后找到ES对应的版本,点击Assets,然后点击下载zip包。
在这里插入图片描述
下载完之后解压到elasticsearch-6.8.23\plugins\目录下
在这里插入图片描述
在这里插入图片描述
然后重启ES,IK分词器才会生效。
IK分词器插件默认提供了两种分词器:
ik_smart
在这里插入图片描述
ik_max_word
在这里插入图片描述
那么,为什么IK分词器对于中文有如此本地化的理解呢,原因是IK分词器内置了很多字典。
在这里插入图片描述
在这里插入图片描述
如果某个词没被分词成功,则在字典里添加重启即可。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

SpringBoot3.0集成Elasticsearch,@Field没有为字段创建分词器的解决方法
weixin_44248744的博客
02-21 358
SpringBoot3.0集成Elasticsearch,@Field没有为字段创建分词器的解决方法
JAVA篇》-- IK分词器
CSDN_zcy_my的博客
12-02 5524
Java分词器 -- IKAnalyzer分词器简介Ikanalyzer在Maven项目中的应用进阶补充,自定义字典参考文献 简介 java大概有11个大的开源分词器,分别是: 1.word分词器 2.Ansj分词器 3.Stanford分词器 4.FudanNLP分词器 5.Jieba分词器 6.Jcseg分词器 7.MMSeg4j分词器 8.IKAnalyzer分词器(本文要说的) 9.Paoding分词器 10.smartcn分词器 11.HanLP分词器 这里只简单说一下IKAnalyzer的使
IK分词器安装、配置、分词自定义、Rest使用、SpringBoot使用
最新发布
weixin_45266856的博客
04-16 1126
IK分词器是的一个最最最有名插件,能够把一段中文或者别的语句划分成一个个的关键字,进而在搜索的时候对数据库中或者索引库数据进一个匹配操作。举个小例子,可以将计算机科学与技术学院更细致的拆分为:计算机、计算、算机、科学、与、技术、学院、技术学院… 等等。有的时候,ik分词器拆分出来的词语并不是我们想要的,或者说拆分出来的词语不够我使用,此时便可以自定义拆分文本。第一步,首先在目录下新建一个文本文件,命名为.dic后缀的文件
springboot整合elasticsearch5.x以及IK分词器做全文检索
天大会下雨的博客
07-03 8886
文章我会分三部分来讲解: 第一部分,window下搭建elasticsearch的环境,以及其他插件 第部分,springboot整合elasticsearch(有一定的分词能力) 第三部分,springboot整合elasticsearch以及ik分词器,做全字段检索(完全分词) (我的第篇,《springboot2.x 整合 elasticsearch 创建索引的方式》有更实用的意...
11大Java开源中文分词器的使用方法和分词效果对比
weixin_35843253的博客
11-24 551
https://www.cnblogs.com/lishanyang/p/6017155.html
springboot-blog-es:Springboot + ElasticSearch构建博客检索系统
03-11
简易博客检索系统使用前阶段分离,前端使用Vue,可以使用SpringBoot数据库MySQL检索使用ElasticSearch同步数据使用logstash 笔记地址: : 视频地址: : 参考代码: : 运行效果图
人工智能-项目实践-检索系统-Springboot + ElasticSearch 构建博客检索系统
02-28
Springboot + ElasticSearch 构建博客检索系统
人工智能-项目实践-信息检索-Springboot + ElasticSearch 构建博客检索系统
02-29
Springboot + ElasticSearch 构建博客检索系统 简易博客检索系统使用前后端分离,前端使用 Vue ,后端使用 SpringBoot 数据库 MySQL 检索使用 ElasticSearch 同步数据使用 logstash
人工智能-项目实践-信息检索-SpringBoot+es+vue搭建博客检索系统
02-29
SpringBoot+es+vue搭建博客检索系统 需要提前安装好 ElasticSearch 。logstash 安装下文有具体说明。 新建表 blog 必须有字段 id update_time,可参考项目中 entity 包下字段建表。 项目地址 SpringBoot 搭建博客...
人工智能-项目实践-信息检索-Springboot+ElasticSearch构建博客检索系统
02-29
Springboot+ElasticSearch构建博客检索系统
Java中文分词组件 - word分词
weixin_33878457的博客
04-29 565
2019独角兽企业重金招聘Python工程师标准>>> ...
JAVA开源中文分词器Ansj(依赖注入+调用方式+停词器)
JAVA小白的博客
01-14 3901
Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词器,Paoding分词器,smartcn分词器,HanLP分词器。 不同的分词器有不同的用法,定义的接口也不一样,至于效果哪个好,那要结合自己的应用场景自己来判断。 这里我就主要介绍Ansj中文分词器...
ES入门学习:ElasticSearch、Kibana、ik分词器的安装、简单使用及SpringBoot集成
雅俗共赏的博客
10-24 5706
ES入门学习:ElasticSearch、Kibana、ik分词器的安装、简单使用及SpringBoot集成
03-ES核心概念理解&IK分词器详解
2401_83411843的博客
04-14 1024
这份清华大牛整理的进大厂必备的redis视频、面试题和技术文档祝大家早日进入大厂,拿到满意的薪资和职级~~~加油!!!《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!和技术文档**祝大家早日进入大厂,拿到满意的薪资和职级~~~加油!!![外链图片转存中…(img-pnoNj4qb-1713031596369)]《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
java Ansj中文分词器
zy_javaAndweb的博客
12-20 1985
java Ansj中文分词器
SpringBoot 整合 Elasticsearch (超详细)
个人学习使用
11-09 3411
😊SpringBoot 整合 Elasticsearch (超详细)
java手写简易中文分词器简易实现(算法)
qq_43833453的博客
01-05 504
java手写简易中文分词器简易实现
Springboot+ElasticSearch构建博客检索系统-学习笔记02
upward
02-17 350
Springboot+ElasticSearch构建博客检索系统-学习笔记02
免费课springboot + elasticsearch 构建博客检索系统
07-13
总之,利用Spring Boot和Elasticsearch,我们可以构建一个免费的博客检索系统,提供强大的全文搜索和聚合功能,帮助用户快速找到他们感兴趣的博客内容。这个系统不仅易于开发和维护,还能够处理大量的博客数据,提供...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Java项目(一)--MyBatis实现OA系统项目实战(7)--开发多级审批流程 4778
  • 服务器技术(三)--Nginx 3531
  • Java项目(二)--Springboot + ElasticSearch 构建博客检索系统(4)- SpringBoot集成ES 2126
  • Java框架(八)--SpringMVC拦截器 1536
  • 消息队列(一)-- RabbitMQ入门(1) 1423

分类专栏

  • Java框架 20篇
  • Java工程师 10篇
  • MySQL数据库 3篇
  • Redis 3篇
  • Java进阶 1篇
  • 服务器技术 8篇
  • 消息队列 4篇
  • Java项目 21篇
  • Elastic Stack 3篇

最新评论

  • 多线程与高并发(1)- 线程基础、并发特性、锁、JUC工具

    CSDN-Ada助手: 推荐 Java 技能树:https://edu.csdn.net/skill/java?utm_source=AI_act_java

  • Java项目(一)--MyBatis实现OA系统项目实战(7)--开发多级审批流程

    其乐无涯: 就是个小Demo,当初没上传到git

  • Java项目(三)-- SSM开发社交网站(5)--多条件查询及实现图书详情页

    小俊会编码: 你是不是谈老师带的学生

  • Java框架(六)-- SpringMVC(1)--SpringMVC入门级数据绑定

    sinat_41806126: 大佬您好,请问有完整的代码github链接嘛

  • Java项目(三)-- SSM开发社交网站(9)--后台图书管理功能

    Zht_bs: 这个不错

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • SpringBoot应用
  • SpringSecurity应用
  • Java基础(三)--常用工具类
2024年6篇
2023年8篇
2022年56篇
2021年4篇
2020年2篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司诸城英文网站建设威海百度关键词包年推广哪家好延安至尊标王哪家好昆明网站优化按天收费报价甘孜网站推广系统价格平湖百度竞价包年推广推荐玉溪关键词排名包年推广哪家好周口网页设计价格营口网站搭建坪山seo网站推广报价拉萨网站建设推荐伊春网站制作设计锦州百姓网标王推广哪家好信阳网站设计报价珠海企业网站设计报价抚州网站建设设计哪家好深圳至尊标王报价张家界网站建设公司张家口网站优化价格梧州百度网站优化排名娄底SEO按天扣费公司菏泽seo优化哪家好湛江seo网站优化推荐陇南百度网站优化公司大鹏网站设计推荐南阳英文网站建设哪家好酒泉seo排名报价福州高端网站设计价格咸阳网络营销公司滨州百度标王哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化