用逆向最大匹配法实现分词处理(python)

3 篇文章 1 订阅
订阅专栏

流程图:

# 逆向最大匹配
class IMM(object):
    def __init__(self, dic_path):
        self.dictionary = set()  #定义集合
        self.maximum = 0 #定义最大匹配长度
        with open(dic_path, 'r', encoding='utf-8') as f:   #将存储路径中的语料库打开
            for line in f:
                line = line.strip()  #去除首尾的空白字符
                if not line:
                    continue
                self.dictionary.add(line)  #将遍历的语料库中的元素添加到集合中
                if len(line) > self.maximum:
                    self.maximum = len(line)  #元素长度与最大长度的比较

    def cut(self, text):
        result = []
        index = len(text)
        while index > 0:
            word = None
            for size in range(self.maximum, 0, -1):    由最大长度,逆向遍历
                if index - size < 0:
                    continue
                piece = text[(index - size):index]  #逆向切分
                if piece in self.dictionary:
                    word = piece
                    result.append(word)
                    index -= size
                    break
            if word is None:
                index -= 1
        return result[::-1]

if __name__ == '__main__':
    data_path = ""

    text=‘待切分文本’
    tokenizer = IMM('data_path')
    print(tokenizer.cut(text))

注:这里的语料库需自行查找

python停用词_python利用jieba分词进行分词,去停止词(停用词)。
weixin_39857480的博客
11-20 1622
上一篇文章介绍了利用python进行SEO词库去重,去重后需要对现有的词库进行去停止词操作,这里我们主要利用到了jieba分词的搜索引擎模式cut_for_search() .去停止词主要利用了停止词词库进行去重set(jiebas)-set(stopkey)Python |copy code |?01#coding:utf-802import jieba,csv03fenci=open(r'fe...
分词逆向最大匹配
zlhcsm的博客
01-21 1637
完整的代码和资料见 github:zlhcsm 知识普及:反向最大匹配的基本原理与正向最大匹配类似,只是分词顺序变为从右至左。 步骤 1,一般从一个字符串的结束位置,选择一个最大长度的词长的片段,如果序列不足最大词长,则选择全部序列。 2,首先看该片段是否在词典中,如果是,则算为一个分出来的词,如果不是,则从左边开始,减少一个字符,然后看短一点的这个片段是否在词典中,一次循环,直到只剩下...
python实现机械分词逆向最大匹配代码示例
09-21
主要介绍了python实现机械分词逆向最大匹配代码示例,具有一定借鉴价值,需要的朋友可以参考下。
逆向最大匹配分词
计算机编程开发学习交流的专栏
04-05 1968
逆向最大匹配分词 ByJorbe2014/03/13计算机科学No Comments 中文分词是所有中文信息处理的基础。在数据挖掘、搜索引擎、自然语言处理等领域都起着至关重要的作用。中文分词大概可以分为三类:正向最大匹配逆向最大匹配以及基于统计概率模型的算。这篇博文讲的就是逆向最大匹配分词。其实正向最大匹配逆向最大匹配类似。逆向最大匹配虽然简单,但在处理一些语句上面还是不能准确地分词,后面会具体讲到。 逆向最大匹配分词: 事先设置一个k值,下面的程序k值设为5,然...
逆向最大匹配分词
chouhong9972的博客
05-23 396
最近学习Python 有学习任务 写一个逆向最大分词 import xlrd import codecs import os #读取所有需要分词的文件路径 def eachFile(filepath): pathDir = os.listdir(filepath) path...
中文分词--逆向最大匹配
笑也有泪的专栏
05-07 5666
上一篇文章中介绍了正向最大匹配,可以看到有时候效果不是很好,这里在介绍一种逆向最大匹配的算。词典和匹配的字符串都和上一篇文章相同 只是本算是从后到前搜索字符串,然后找到最长的匹配结果输出。上代码
python正向最大匹配分词逆向最大匹配分词的实例
09-19
今天小编就为大家分享一篇python正向最大匹配分词逆向最大匹配分词的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
python正向最大匹配分词逆向最大匹配分词
10-12
python正向最大匹配分词逆向最大匹配分词完整的源代码分享,运行使用后对相关技术人员很有分享价值,为开发人员节省开发时间和提高开发思路是很不错的选择
Python实现——实现逆向最大匹配分词,即从右向左扫描,找到最长的词并切分。
Gravitas的博客
07-23 1453
题目内容: 实现逆向最大匹配分词,即从右向左扫描,找到最长的词并切分。如句子“研究生命的起源”,逆向最大匹配分词的输出结果为“研究 生命 的 起源”。 输入格式: 第一行是以utf-8格式输入的词表,每个词之间以空格分隔。 接下来是若干行以utf-8格式输入的中文句子。 输出格式: 以utf-8格式输出的逆向最大匹配分词结果,每个词之间使用空格分隔。每个输入对应一行输出。 输入样例: 你 我 他 爱 北京 天安门 研究 研究生 命 生命 的 起源 研究生命的起源 我爱北京天安门 输出样例: 研究
Java实现分词(正向最大匹配逆向最大匹配)两种方实现
04-17
Java实现分词(正向最大匹配逆向最大匹配)两种方实现
一个简单的分词系统(可以选择正向最大匹配分词逆向最大匹配
03-03
使用正向最大匹配FMM分词 以及逆向最大匹配BMM分词 但不是同时使用
中文分词逆向最大匹配
程裕强的专栏
10-24 2083
1、词典 ./data/rmm_dic.utf8 南京市 南京市长 长江大桥 人民解放军 大桥 2、RMM算 #逆向最大匹配 class RMM(object): def __init__(self, dic_path): self.dictionary = set() self.maximum = 0 #读取词典 wit...
Python实现中文最大逆向匹配分词
Dity_Lee的博客
05-12 3414
学习流程记录20170502​经过查阅资料对最大逆向匹配上有了概念性的理解, 但是要具体用某一种编程工具来实现​还是需要好好思考一下, 需要用什么方实现,以及各种语规则手中材料有一些文章的已经​切好的词, 放在表格的某一列,一词一格. 停用词表一个, 一词一格N篇待切文章(均在切词表有)​由于数据较大可以自己制作小型测试数据,以方便调试​.5.7–5.10import xlrddef r
Python实现中文分词--正向最大匹配逆向最大匹配
starlet_kiss的博客
02-21 4742
编译原理实验二:Python实现中文分词最大正向匹配最大逆向匹配 最大匹配最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。 文档整理如下: 最大正向匹配代码如下: # -*- coding: utf-8 -*- """ Created on Fri Feb 2...
试着写 搜索算-- 最大逆向匹配分词
荒野哞的专栏
11-09 1123
最近想试着自己实现一些搜索算,受到http://www.52nlp.cn/maximum-matching-method-of-chinese-word-segmentation这位大湿的一点启发,准备用JAVA把算实现了一遍,代码写的有些简单,请各位大神指正,       正向最大匹配思想如下所示: (注:以上最大匹配图来自于詹老师讲义)   逆向匹配思想与正向一样,只是
python双向最大匹配_中文分词 之 基于词典的逆向最大匹配
weixin_36344862的博客
01-29 818
在之前的博文中介绍了基于词典的正向最大匹配,用了不到50行代码就实现了,然后分析了词典查找算的时空复杂性,最后使用前缀树来实现词典查找算,并做了3次优化。下面我们看看基于词典的逆向最大匹配实现,实验表明,对于汉语来说,逆向最大匹配比(正向)最大匹配更有效,如下代码所示:publicstaticListsegReverse(Stringtext){Stackresul...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 安卓开发实战——题库 9313
  • 整理五种相似性和相异性的度量方法 8447
  • 时间序列预测股票数据—以LSTM模型为例 7200
  • python图像处理实战(三)—图像几何变换 6429
  • 0-1背包问题的多种办法求解 5065

分类专栏

  • 数据可视化 3篇
  • 安卓 2篇
  • 数据采集与预处理 5篇
  • python图像处理 3篇
  • 操作系统 2篇
  • 学习通 1篇
  • 应用统计 4篇
  • 自然语言处理 3篇
  • 数据挖掘 2篇
  • Linux 1篇
  • 解题思路01背包 1篇

最新评论

  • 数据挖掘期中作业(用朴素贝叶斯和决策树挖掘恒星特征)

    m0_63719212: 求数据集

  • 时间序列预测股票数据—以LSTM模型为例

    2201_75959571: 大佬,发下数据集可以嘛

  • 网页提交文件无法打开问题解决办法(以学习通为例)

    2401_83331179: 服了,学习通

  • 时间序列预测股票数据—以LSTM模型为例

    2201_75370801: 大佬求数据

  • 时间序列预测股票数据—以LSTM模型为例

    m0_62633511: 请问为什么预测的数据都比原数据大啊?(最后那张预测图)

最新文章

  • python基础练习之—Series
  • 数据分析之词云图绘制
  • 数据预处理之异常值检测
2024年1篇
2023年21篇
2022年9篇
2021年8篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

那个叫马尔的大夫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司思茅如何制作网站哪家好宜春建网站公司重庆如何制作网站多少钱保定高端网站设计报价娄底SEO按效果付费报价衡水网站推广系统价格海南seo网站优化多少钱唐山seo排名哪家好赣州百度网站优化排名多少钱鸡西网站优化推广推荐楚雄企业网站制作公司廊坊企业网站设计报价海南建网站多少钱长葛高端网站设计报价阜新网站设计推荐马鞍山建网站推荐朔州网站制作报价赣州网站建设设计推荐临猗网站推广工具公司张掖网站改版苏州网站优化推广公司临汾网站建设报价通辽网页制作亳州模板推广报价垦利关键词按天扣费多少钱抚顺关键词排名包年推广推荐肇庆模板网站建设泰州SEO按天收费报价阜新百度网站优化排名公司绵阳如何制作网站公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化