轻识Logo
目录

    三种模式、两个函数掌握Python结巴分词重点功能

    一、三种模式、两个函数

    jieba是一款优秀的Python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式,涉及两个函数(jieba.cutjieba.cut_for_search),下面是三种模式的特点。

    精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析

    全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据

    搜索引擎模式:在精确模式的基础上,对长词再次进行切分

    示例如下,假设要分割的句子为:seg = '我来到北京清华大学'


    精确模式

    jieba.cut(seg ,cut_all=False)

    list(jieba.cut(seg ,cut_all=False))

    ['我', '来到', '北京', '清华大学']

    全模式模式

    jieba.cut(seg ,cut_all=True)

    list(jieba.cut(seg ,cut_all=True))

    ['我', '来到', '北京', '清华', '清华大学', '华大', '大学']

    搜索引擎模式

    jieba.cut_for_search(seg )

    list(jieba.cut_for_search(seg))

    ['我', '来到', '北京', '清华', '华大', '大学', '清华大学']


    list(jieba.cut('我来到北京清华大学',cut_all=False))['我', '来到', '北京', '清华大学']
    list(jieba.cut('我来到北京清华大学',cut_all=True))['我', '来到', '北京', '清华', '清华大学', '华大', '大学']
    list(jieba.cut_for_search('我来到北京清华大学'))['我''来到''北京''清华''华大''大学''清华大学']


    二、两个函数的列表模式

    jieba.cut 以及 jieba.cut_for_search 返回的是一个可迭代对象,可以使用 for 循环来获得分词结果

    jieba.lcut 以及 ieba.lcut_for_search 直接返回 list

    1、直接使用jieba.cut 和 jieba.cut_for_search

    jieba.cut('我来到北京清华大学',cut_all=False)<generator object Tokenizer.cut at 0x00000134D8B6EAC0>

    jieba.cut_for_search('我来到北京清华大学')<generator object Tokenizer.cut_for_search at 0x00000134D8B6EF90>

    要获取其中的分词结果,有多种方法可以获取

    for循环获取

    result = jieba.cut('我来到北京清华大学',cut_all=False)for i in result:    print(i)来到北京清华大学


    用join函数获取

    ';'.join(jieba.cut('我来到北京清华大学',cut_all=False))'我;来到;北京;清华大学'
    ' '.join(jieba.cut('我来到北京清华大学',cut_all=False))'我 来到 北京 清华大学'


    直接使用list

    list(jieba.cut('我来到北京清华大学',cut_all=False))['我', '来到', '北京', '清华大学']


    当然,结巴里面直接也有类似的函数,不需要自己去处理了,看下面两个


    2、使用jieba.lcut 和 jieba.lcut_for_search 

    jieba.lcut('我来到北京清华大学',cut_all=False)['我', '来到', '北京', '清华大学']
    jieba.lcut('我来到北京清华大学',cut_all=True)['我', '来到', '北京', '清华', '清华大学', '华大', '大学']
    jieba.lcut_for_search('我来到北京清华大学') ['我', '来到', '北京', '清华', '华大', '大学', '清华大学']


    先写这么多,其他的下次在写

    ···  END  ···


    推荐阅读:
    一、Number(数字)
    全面掌握Python基础,这一篇就够了,建议收藏
    Python基础之数字(Number)超级详解
    Python随机模块22个函数详解
    Python数学math模块55个函数详解
    二、String(字符串)
    Python字符串的45个方法详解
    Pandas向量化字符串操作
    三、List(列表)
    超级详解系列-Python列表全面解析
    Python轻量级循环-列表推导式
    四、Tuple(元组)
    Python的元组,没想象的那么简单
    五、Set(集合)
    全面理解Python集合,17个方法全解,看完就够了
    六、Dictionary(字典)
    Python字典详解-超级完整版
    七、内置函数
    Python初学者必须吃透这69个内置函数!
    八、正则模块
    Python正则表达式入门到入魔
    笔记 | 史上最全的正则表达式
    八、系统操作
    Python之shutil模块11个常用函数详解
    Python之OS模块39个常用函数详解
    九、进阶模块
    【万字长文详解】Python库collections,让你击败99%的Pythoner
    高手如何在Python中使用collections模块

    扫描关注本号↓

    浏览 65
    点赞
    评论
    收藏
    分享

    手机扫一扫分享

    举报
    SqlJiebaMySQL 结巴中文分词插件
    MySQL 结巴中文分词插件 SqlJieba 『关键词』MySQL, 插件(Plugin), 中文
    SqlJiebaMySQL 结巴中文分词插件
    0
    jieba.NET结巴分词 .NET 版
    jieba.NET 是 jieba 中文分词的 .NET 版本(C#实现)。当前版本为 0.37.1
    jieba.NET结巴分词 .NET 版
    0
    jieba-analysis结巴分词(java版)
    首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴分词,更不会有现在的java版本。结巴分词的原始版本为python编写,目前该项目在github上的关注量为170,打星7
    jieba-analysis结巴分词(java版)
    0
    iosjieba结巴分词 iOS 版
    简介结巴中文分词的 iOS 版本。底层使用的依然是 CppJieba 。用法启动后在框里面输入待分词
    iosjieba结巴分词 iOS 版
    0
    jieba-analysis结巴分词(java版)
    首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的
    jieba-analysis结巴分词(java版)
    0
    SqlJiebaMySQL 结巴中文分词插件
    MySQL结巴中文分词插件SqlJieba 『关键词』MySQL,插件(Plugin),中文分词,结巴分词(Jieba),全文检索(Full-Text),SqlJieba使用方法:mysql> 
    SqlJiebaMySQL 结巴中文分词插件
    0
    iosjieba结巴分词 iOS 版
    简介结巴中文分词的iOS版本。底层使用的依然是 CppJieba 。用法启动后在框里面输入待分词的句子,然后按回车键即可。 致谢感谢[fxjsy]的结巴中文分词 jieba 。
    iosjieba结巴分词 iOS 版
    0
    nodejieba"结巴"分词的Node.js版本
    NodeJieba "结巴"分词的Node.js版本IntroductionNodeJieba只是C
    nodejieba"结巴"分词的Node.js版本
    0
    nodejieba"结巴"分词的Node.js版本
    NodeJieba"结巴"分词的Node.js版本IntroductionNodeJieba只是CppJieba简单包装而成的node扩展,用来进行中文分词。详见NodeJiebaBlogInstal
    nodejieba"结巴"分词的Node.js版本
    0
    点赞
    评论
    收藏
    分享

    手机扫一扫分享

    举报

    深圳SEO优化公司保山seo网站推广多少钱珠海模板推广价格伊犁关键词排名包年推广价格玉溪关键词排名多少钱怀化seo哪家好宝安企业网站制作多少钱大理百度网站优化排名价格曲靖优秀网站设计哪家好甘南网站关键词优化厦门SEO按天收费公司思茅网站seo优化价格南昌网站改版哪家好天水网站定制多少钱荆门网站定制松岗网站优化推广公司酒泉网络营销公司衢州网站推广系统滁州设计公司网站推荐迁安阿里店铺运营公司郴州网站搭建推荐宝安seo公司海南阿里店铺托管哪家好福田设计网站公司盐城网络推广价格长春SEO按天计费报价三亚百度seo哪家好哈尔滨关键词排名哪家好商丘网站定制淮南seo网站推广公司呼和浩特关键词按天收费公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

    深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化