ElasticSearch之分词及原理

12 篇文章 6 订阅
订阅专栏

1. 无分词情况

1.1 查看ES所有索引

http://127.0.0.1:9200/_cat/indices?v

在这里插入图片描述

1.2 默认创建ES索引

http://localhost:9200/medcl

在这里插入图片描述

1.3 向ES添加数据

http://localhost:9200/medcl/_doc

{
    "name": "刘德华"
}

在这里插入图片描述

1.4 查询数据

# 方式一
http://localhost:9200/medcl/_search?q=刘德华

# 方式二
http://localhost:9200/medcl/_search
{
	"query":{
		"match":{
			"name":"刘德华"
		}
	}
}

在这里插入图片描述

1.5 拼音查询无效果

在这里插入图片描述

2. ES分词

ES中分词器(analyzer)的组成包含三部分:

  • character filters :在 tokenizer 之前对文本进行处理。例如删除字符、替换字符
  • tokenizer :将文本按照一定的规则切割成词条( term ),例如:ik_smartik_max_word
  • tokenizer filter :将 tokenizer 输出的词条做进一步处理,例如大小写转换、同义词处理、拼音处理等

注:ES中的关键字keyword属性,不会参与分词。

在这里插入图片描述

对于上面的三个部分解释,上面流程图,一目了然。

2.1 ES分词器安装

ES中所有分词器的安装都是三步:

  • 下载分词器压缩包,然后解压

  • 放到ES安装目录的plugin目录下

  • 重启ES

拼音分词器:

https://github.com/medcl/elasticsearch-analysis-pinyin

ik分词器:

https://github.com/medcl/elasticsearch-analysis-ik

2.2 创建分词索引

http://localhost:9200/medcl

{
    "settings": {
        "analysis": {
            "analyzer": {
                "pinyin_analyzer": {
                    "tokenizer": "my_pinyin"
                }
            },
            "tokenizer": {
                "my_pinyin": {
                    "type": "pinyin",
                    "keep_separate_first_letter": false,
                    "keep_full_pinyin": true,
                    "keep_original": true,
                    "limit_first_letter_length": 16,
                    "lowercase": true,
                    "remove_duplicated_term": true
                }
            }
        }
    },
    "mappings": {
        "properties": {
        	# 对name字段采用拼音分词
            "name": {
                "type": "text",
                "analyzer": "pinyin_analyzer"
            }
        }
    }
}

在这里插入图片描述

2.3 插入数据

http://localhost:9200/medcl/_doc

{
    "name": "刘德华"
}
{
    "name": "张学友"
}
{
    "name": "郭富城"
}
{
    "name": "黎明"
}

在这里插入图片描述

2.4 查询所有数据

http://localhost:9200/medcl/_search
{
	"query":{
		"match_all":{}
	}
}

在这里插入图片描述

2.4.1 中文查询

在这里插入图片描述

2.4.2 拼音查询

在这里插入图片描述

2.5 插入同义词

在这里插入图片描述

2.5.1 同义词拼音查询

在这里插入图片描述

ElasticSearch(7.2.2)-浅谈es分词原理
逍遥云恋
11-01 3830
简介:谈谈elasticsearch分词原理 前⾔⼀ 我们创建⼀个⽂档 PUT test/_doc/1 { "msg":"乔丹是篮球之神" } 我们通过’乔丹’这个关键词来搜索这个⽂档 POST /test/_search { "query": { "match": { "msg": "乔丹" } } } 我们发现能匹配⽂档出来,那整⼀个过程的原理是怎样的...
ik分词器 分词原理_《ElasticSearch深度剖析》SpringBoot集成ES中文分词
weixin_42332123的博客
12-27 379
前言: 实战操作SpringBoot集成ElasticSearch实现中文分词关注: 私信关键字: ES源码 获取本教程源码准备工作《ElasticSearch深度剖析》想轻松学会ES这篇文章必看《ElasticSearch深度剖析》SpringBoot集成ES实现存储、检索ik分词器IKAnalyzer是开源的,使用Java语言开发的超轻量级中文分词包。这里也可以使用其中中文分词器,本文主要介绍...
浅谈elasticsearch分词原理
chenweicheng1994的博客
10-13 2445
这篇文章主要是来浅谈一下elasticsearch分词原理,让各位同学对分词不再陌生~ 废话不多说,我们直接上干货 前言一 我们创建一个文档 PUT test/_doc/1 { "msg":"乔丹是篮球之神" } 我们通过'乔丹'这个关键词来搜索这个文档 POST /test/_search { "query": { "match": { ...
Elasticsearch分词技术全面解析
最新发布
专注于数据库技术分享,包含但不限于Oracle,MySQL,PostgreSQL,ElasticSearch及国产数据库等
04-20 740
是将文本字符串拆分成独立的词汇或术语的过程。在 Elasticsearch 中,分词通常发生在索引文档时,确保搜索时能够匹配到正确的词汇片段。分词的目标是生成有意义的、可比较的 tokens,同时兼顾搜索效率和查询语义理解。Elasticsearch 允许为索引中每个字段指定不同的分析器,以适应各种文本类型和搜索需求。这可以通过在索引映射(mapping)中设置。是分词工作的核心,它包含了一个完整的文本分析流程。响应将包含分词后的 tokens 列表,帮助验证分析器配置是否符合预期。
ES 问题 拼音 en ou等词被拆分,导致搜不到
chbxw
08-25 764
es 拼音
Elasticsearch06:Elasticsearch分词详解:ES分词介绍、倒排索引介绍、分词器的作用、停用词
weixin_40612128的博客
03-16 5395
一、ES分词介绍 ES中在添加数据,也就是创建索引的时候,会先对数据进行分词。 在查询索引数据的时候,也会先根据查询的关键字进行分词。 所以在ES分词这个过程是非常重要的,涉及到查询的效率和准确度。 假设有一条数据,数据中有一个字段是titile,这个字段的值为LexCorp BFG-9000。 我们想要把这条数据在ES中创建索引,方便后期检索。 创建索引和查询索引的大致流程是这样的: 图中左侧是创建索引的过程: 首先对数据进行空白字符分割,将LexCorp BFG-9000切分为LexCorp和BFG
elasticsearch
09-14
Elasticsearch实现原理主要分为以下几个步骤,首先用户将数据提交到Elasticsearch 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,...
ElasticSearch如何使用ik进行中文分词
09-22
本篇文章则着重分析 ElasticSearch 在全文搜索前如何使用 ik 进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。 全文搜索和精确匹配
PHPAnalysis中文分词类详解
10-25
PHPAnalysis是目前广泛使用的中文分词类,使用反向匹配模式分词,因此兼容编码更广泛,现将其变量与常用函数详解如下,需要的朋友可以参考下
ElasticSearch5.2全网最全技术视频
05-26
(2)包含市面上几乎没有的所有Elasticsearch高级知识点:包含地理位置搜索与聚合分析,term vector,suggester search,搜索模板定制,query执行剖析,数十种最全面的聚合分析,span query,shard分配定制,es插件...
IK中文分词器原理
05-12
详细讲解IK分词器原理
spring boot + es结合Jest实现全站搜索,分页,分词搜索,搜索结果高亮,功能很全,博文里面有详细的介绍.zip
01-10
Spring Boot结合Jest实现对ElasticSearch的全文检索,分词检索,分页,搜索结果高亮关键词,多字段检索 PageController中的搜索方法里面是全套的,分词,分页,高亮等都包含,数据格式个es-head中创建索引的索引在压缩包里面都有 还是不懂的可以看我的博文里面有详细的介绍
Elasticsearch 技术解析与实战.zip
07-25
第1章 Elasticsearch入门 1 1.1 Elasticsearch是什么 1 1.1.1 Elasticsearch的历史 2 1.1.2 相关产品 3 1.2 全文搜索 3 1.2.1 Lucene介绍 4 1.2.2 Lucene倒排索引 4 1.3 基础知识 6 1.3.1 Elasticsearch术语及概念 ...
Lucene全文检索框架+Solr+ElasticSearch搜索引擎(Java高级必备.ES)
09-30
课程提供所有代码笔记素材以及答疑 1、Lucene框架的熟练应用实现类似百度、京东商城等应用的全文检索效果; 1、Solr简介 2、Solr下载安装以及目录结构介绍 3、Solr应用部署至Tomcat服务器 4、Solr后台管理界面介绍 5、通过managed-schema配置Field以及中文分词器 6、将数据库中的数据导入至Solr索引库 7、通过Solr后台管理界面对索引进行CRUD高亮过滤排序分页 8、通过Solrj实现索引的添加更新 9、通过Solrj实现索引的删除 10、索引的检索_过滤_高亮等操作 11、项目实战应用 12、Solr知识点总结 1、熟练掌握Lucene框架的使用,实现类似百度、京东商城等应用的全文检索效果; 2、ElasticSearch下载安装(window以及linux下安装) 3、集群环境搭建 4、客户端Kibana安装与使用 5、集群管理插件head安装使用 6、java api 操作 ES 7、电商项目实战应用等等 .....
windows下ls命令无效解决方法
柒然的博客
09-19 7363
欢迎关注我的微信公众号,会同步更新python、java、算法等相关内容!!!
自然语言处理入门(4)——中文分词原理分词工具介绍
热门推荐
FlySky1991的专栏
06-30 9万+
本文首先介绍下中文分词的基本原理,然后介绍下国内比较流行的中文分词工具,如jieba、SnowNLP、THULAC、NLPIR,上述分词工具都已经在github上开源,后续也会附上github链接,以供参考。 1.中文分词原理介绍 1.1 中文分词概述 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的
java 利用IKAnalyzer中文分词
caideb的博客
08-15 6107
1.pom文件 <dependency> <groupId>com.janeluo</groupId> <artifactId>ikanalyzer</artifactId> <version>2012_u6</version> </dependency> 2.不配置暂
对EalsticSearch底层分词原理分词流程
04-25
ElasticSearch底层分词原理可以通过以下方式进行简要概括: 1. 将待处理的文本内容按照一定规则进行切割,形成一个个词条(Term)。 2. 通过分词器(Tokenizer)处理每个词条,去除无用的字符、符号等等,形成...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • Nginx配置——反向代理 293759
  • 拦截器(Interceptor)和过滤器(Filter)的执行顺序和区别 229401
  • 持续集成工具Jenkins结合SVN的安装和使用 51830
  • Vue框架vue-admin-template登陆问题解决 27859
  • Maven 之 settings.xml 文件详解 27198

分类专栏

  • python 8篇
  • 人工智能 1篇
  • 工具 2篇
  • ElasticSearch 12篇
  • Minio 1篇
  • 前端 15篇
  • Nginx 6篇
  • 环境搭建 9篇
  • SpringSecurity 2篇
  • Node 1篇
  • Redis 3篇
  • RabbitMQ 7篇
  • ShardingSphere 7篇
  • seata 3篇
  • code 9篇
  • 源码分析 22篇
  • Spring 38篇
  • 框架搭建 12篇
  • 设计模式 29篇
  • Android 10篇
  • 随笔 10篇
  • SpringBoot 27篇
  • MySQL 10篇
  • Mybatis 15篇
  • Maven 8篇
  • 并发编程 12篇
  • 杂谈 4篇
  • Java基础 6篇
  • JVM 6篇
  • Docker 6篇

最新评论

  • SpringBoot集成百度AI实现人脸识别

    weixin_67737190: 为什么显示JS代码报错,我Javascript都不起效果表情包

  • ChatGLM-6B的P-Tuning微调详细步骤及结果验证

    qq_50641831: 请问解决了吗,我生成的也没有pytorch_model.bin

  • Nginx配置——搭建 Nginx 高可用集群(双机热备)

    Hello2032World: vrrp_instance VI_1 { state MASTER interface ens33 virtual_router_id 51 priority 100 advert_int 1 track_script { chk_http_port } authentication { auth_type PASS auth_pass 1111 } virtual_ipaddress { 192.168.220.110 } }

  • Nginx配置——搭建 Nginx 高可用集群(双机热备)

    Hello2032World: vrrp_instance VI_1 { state MASTER interface ens33 virtual_router_id 51 priority 100 advert_int 1 track_script { chk_http_port } authentication { auth_type PASS auth_pass 1111 } virtual_ipaddress { 192.168.220.110 } }

  • Nginx配置——搭建 Nginx 高可用集群(双机热备)

    Hello2032World: vrrp_instance VI_1 { state MASTER interface ens33 virtual_router_id 51 priority 100 advert_int 1 track_script { chk_http_port } authentication { auth_type PASS auth_pass 1111 } virtual_ipaddress { 192.168.220.110 } }

最新文章

  • 工作进入第八年,还在成长的一年
  • ChatGLM-6B的P-Tuning微调详细步骤及结果验证
  • VSCode连接远程服务器调试代码详细流程
2024年1篇
2023年3篇
2022年45篇
2021年55篇
2020年23篇
2019年49篇
2018年64篇
2017年13篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

止步前行

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司眉山企业网站设计多少钱合肥SEO按天收费黔东南网站搜索优化哪家好仙桃百度关键词包年推广多少钱兰州百度竞价包年推广报价邵阳外贸网站制作大浪至尊标王报价曲靖百姓网标王公司自贡网络广告推广报价舟山网站改版大庆网络营销公司木棉湾企业网站设计推荐黄冈关键词排名报价龙华企业网站设计推荐徐州网站搜索优化哪家好大运模板网站建设哪家好安阳外贸网站设计价格芜湖优秀网站设计喀什阿里店铺运营多少钱湖州模板制作推荐巢湖seo网站推广哪家好泉州网站设计模板贵阳高端网站设计哪家好信阳阿里店铺托管多少钱杭州如何制作网站坪山网站推广哪家好汕尾百搜标王报价南昌至尊标王价格蚌埠优秀网站设计九江设计公司网站价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化