运用python实现了关键词提取,基于词向量的抽取式摘要,文本分类和语料集命名

3 篇文章 1 订阅
订阅专栏

1、文本关键信息提取

为了训练自身对于自然语言识别的理解我计算获得了文本各个段落与全文的相似度,各段落和全文的关键词。段落关键词,全文关键词和摘要,多重信息有效得帮助读者了解文本内容和主题。以下是效果图。

首先是段落关键词和全文关键词,获取全文和段落关键词的步骤为读入文本,切词和去除停用词。

LingYu=[]#领域词表
for i in range(2100,12000):
    try:
        openfile1=r"C:\Users\tony5\Desktop\nlp\{}.txt".format(i)#教育类文本1
        writingfile1=r"C:\Users\tony5\Desktop\nlp\pythonjson{}.json".format(i)
        a=GetArticle_and_Paragraph_KeyWord(openfile1,writingfile1,LingYu)
    except:
        continue

由于我的训练文本集当中的序号并不连续所以我采用try,except语法跳过不存在的序号将所有文本读入。同时由于我采用的训练文本兼有GBK形式的编码和utf-8编码的文档所以我均采用utf-8的形式打开。

def GetArticle_and_Paragraph_KeyWord(openfile,writingfile,LingYu):#主调函数
# 读取文本数据 
    file = open(openfile,'r',encoding = 'utf-8')
    outfile = open(writingfile,'w',encoding = 'utf-8')
    whole=""#去除了停用词之后的以词形式保存的文章
    wordbank=[]#以词语形式保存的每一段段落的词
    linebank=[]#以句子形式保存的文章
#获得段落关键词
    stopwords,whole,linebank = ReadArticle_SeperateWords_And_Usejieba(file, outfile, whole, wordbank,linebank)
#获得全文关键词
    LingYu.extend(WholeArticleKeyWord(outfile, whole,stopwords))
#算出每一段与全文的相似度
    Similiarity_And_ParagrathRank(wordbank,whole,outfile)
#获得摘要
    Get_ZhaiYao(linebank, whole,outfile)
    return whole#主调函数

文本分割函数ReadArticle_SeperateWords_And_Usejieba()为文本预处理的主要函数,其主要目的就是得到各个段落的关键词,将文本分割成句子,分割成段落,和分割成词语的形式保存,建立总词库的目的在于为计算全文关键词和抽取式摘要作准备。首先我通过句号分割将文本按照句子保存在了lineBank中。文本分割我使用了极为流行的自然语言处理包jieba分词。经过这一步骤我将文本以一个一个词的形式保存在wordbank列表中。但是我发现结巴自身确实是带有停用词的词库的,但是jieba.lcut并不会调用,其只会在jieba.analyse函数计算关键词的时候使用。因而我自己建立了停用词在阅读的结巴分词的出的词表的时候将停用词去除。然后调用Use_Jieba()函数计算的到各段落的关键词。同时为了将结果清晰得保存在json文件中,我将其将jieba分词返回的元组列表转换成字典。

def ReadArticle_SeperateWords_And_Usejieba(file, outfile, whole, wordbank,linebank):
    seperated_words=['my seperated words',]
    str=""
    for line in file.readlines():
      if line == '\n':
          continue
      line=line.strip()
      if len(line)!=0:
        for word in line:
            str=str+word
            if(word=="。"):
                linebank.append(str)
                str=""
        fenci_text = jieba.lcut(line)
        stopwords = {}.fromkeys([ line.rstrip() for line in open(r'C:\Users\tony5\Desktop\nlp\stop_words_zh.txt') ])
        final = ""
        for word in fenci_text:
               if word not in stopwords:
                 if (word != "。" and word != ",") :
                   final = final + " " + word
                   seperated_words.append(word)
                   whole = whole+word
        wordbank.append(final)
        Use_Jieba(final,outfile)
    return stopwords,whole,linebank
#切词去停用词,调用Use—Jieba函数返回各个段落的关键词写入json里,切句子将文章按照句子保存在linebank里,获得总词表存在whole里用来为计算全文关键词作准备
def Use_Jieba(final,outfile):
   
     a=jieba.analyse.extract_tags(final, topK = 10, withWeight = True, allowPOS = ())
     mydict=Translate_Into_dict(a)
     outfile.write("\n该段落的关键词\n")
     b=jieba.analyse.extract_tags(final, topK = 10,allowPOS = ())
     json.dump(b,outfile,ensure_ascii=False)
     json.dump(mydict,outfile,ensure_ascii=False,  indent=4) #将去除停用词的文本取关键词并写入json

经过上述步骤通过循环已经获得了whole变量里面已经存储了全文所有词,对其进行关键词提取即可获得全文关键词。

def WholeArticleKeyWord(outfile,whole,stopwords):
    #计算全文关键词并写入json
    fenci_text = jieba.lcut(whole)
    final = ""
    for word in fenci_text:
        if word not in stopwords:
               if (word != "。" and word != ","and word !="-") :
                    final = final + " " + word
    article=jieba.analyse.extract_tags(final, topK = 50, withWeight = True, allowPOS = ())
    WArticle=jieba.analyse.extract_tags(final, topK = 50, withWeight = False, allowPOS = ())
    mydict=Translate_Into_dict(article)
    outfile.write("\n全文的关键词\n")
    json.dump(mydict,outfile,ensure_ascii=False, indent=4)#计算全文关键词并写入json
    return fenci_text

接下来我便计算了段落和文章的关系。我采用的方法是利用sklearn计算各个段落与全文相似性,得到各个段落词库与全文词库之间的相似度,并根据与全文的相关性进行排序。这里提取段落TF-IDF和TF特征值两种方法进行段落与文本的相似性计算。

def tf_similarity(s1, s2):
    def add_space(s):
        return ' '.join(list(s))
    
    # 将字中间加入空格
    s1, s2 = add_space(s1), add_space(s2)
    # 转化为TF矩阵
    cv = CountVectorizer(tokenizer=lambda s: s.split())
    corpus = [s1, s2]
    vectors = cv.fit_transform(corpus).toarray()
    # 计算TF系数
    return np.dot(vectors[0], vectors[1]) / (norm(vectors[0]) * norm(vectors[1]))    # 计算并返回两个字符串的TF系数

def tfidf_similarity(s1, s2):
    def add_space(s):
        return ' '.join(list(s))
    
    # 将字中间加入空格
    s1, s2 = add_space(s1), add_space(s2)
    # 转化为TF矩阵
    cv = TfidfVectorizer(tokenizer=lambda s: s.split())
    corpus = [s1, s2]
    vectors = cv.fit_transform(corpus).toarray()
    # 计算TF系数
    return np.dot(vectors[0], vectors[1]) / (norm(vectors[0]) * norm(vectors[1])) # 计算并返回两个字符串的TF-IDF系数

TfidfVectorizer 和CountVectorizer类会将文本中的词语转换为词频逆偏频矩阵或词频矩阵,矩阵元素a[i][j] 表示j词在i类文本下的逆偏频或词频

Corpus是预料库,每一行一个文档,由于我是将两串字符串进行比较所以第一行就是第一个字符串第二行就是第二个字符串。

fit_tansform:是一个适配的过程,用于train,得到一个统一的转换的规则的模型;然后将数据进行转换,比如测试数据按照训练数据同样的模型进行转换,得到特征向量;学习词汇表和idf,返回文档词矩。

最后通过计算得到tf-idf系数或者tf系数,既可以通过这一系数来了解两个字符串得相似程度,由此就可以通过让全文总词库作为第二个字符串将各个段落词库作为第一个字符串,经过计算就可以得到各个段落与全文的相似度。将每一段与其权重保存在一个字典中,按照权值进行排序即可得到每一段与全文之间相似度。

def Similiarity_And_ParagrathRank(wordbank,whole,outfile):
    quanzhong={}
    k=0
    for i in wordbank:
        a=tf_similarity(i, whole)
        b=tfidf_similarity(i, whole)
        if(k!=0):
            quanzhong.setdefault("段落{}与全文的相似度".format(k),(("tf系数",a),("tfidf系数",b)))
        else:
            quanzhong.setdefault("标题与全文的相似度".format(k),(("tf系数",a),("tfidf系数",b)))
        k=k+1
    outfile.write("\n每段与全文的相似度\n")
    json.dump(quanzhong,outfile,ensure_ascii=False,  indent=4)
    zuida={}
    k=0
    for i in wordbank:
        b=tfidf_similarity(i, whole)
        zuida.setdefault(b,"第{}段".format(k))
        k=k+1
    zuida=dict(sorted(zuida.items(),reverse=True))
    outfile.write("\n根据tfidf系数将其从大到小排序,第零段为标题\n")
    json.dump(zuida,outfile,ensure_ascii=False,  indent=4)#计算的出每一段落包括标题与全文的相似度,从高到低排序并写入json

2、抽取式摘要

抽取式摘要是自动文摘的一种形式是自然语言处理的重要步骤。抽取式摘要的关键问题是如何有效的从文章当中抽取出重要性高的若干句子。现有的抽取式文摘主要通过人们通过统计简单直观的文本特征,比如词频、句子的位置、线索词和标题等从文档中识别重要的句子组成摘要,或者基于外部语义资源对文章句子进行语义理解。我采用的方法式通过统计简单直观的文本特征来获取摘要。

我选择的文本特征是用上文所提到的相似性计算方法计算所得全文每一句话与全文词向量的相似度。经过排序选择相似度最高的5句话作为全文摘要。

def Get_ZhaiYao(linebank, whole,outfile):
    linesimility=[]
    for item in linebank:
        linesimility.append(tf_similarity(item, whole))
    juzi={}
    k=0
    for item in linesimility:
             juzi.setdefault(item,k)
             k=k+1
        juzi=dict(sorted(juzi.items(),reverse=True))
        sortedline=[]
        for key in juzi:
            sortedline.append(juzi[key])
        zhaiyao="文章摘要: "
        for i in range(0,5):
            zhaiyao=zhaiyao+linebank[i]
        zhaiyao=zhaiyao+'\n'
        print(zhaiyao)
        outfile.write("\n文章摘要\n")
        json.dump(zhaiyao,outfile,ensure_ascii=False)#根据句子在全文中的重要性排序选择关联度最高的5句句子形成摘要

3、语料集命名

计算机不如同人类可以有效得通过文本集的几篇文本快速想到可以象征这一类文本的名字。我尝试了两个方法,第一个方法是通过建立领域词表去除总词库关键词后提取关键词,我经过尝试建立遍历该类型的文章建立领域词表并提取领域词表的关键词是最有效的方法。对于领域词表的建立我的思路是领域词表中的词必须能充分代表这一类别,所以我建立了包含所有文章词语的全总语料库,建立了这一类型文章词语的领域词库,去除了领域词表中与全部总语料库中较常见的关键词。对此求关键词效果相对直接通过领域词表球的关键词效果更佳。

Ciku=''
for str in LingYu:
     if word not in Zong:
    Ciku=Ciku+str
Cikujs=r"C:\Users\tony5\Desktop\nlp\Cikuyujson.json"
Cikujs = open(Cikujs,'w',encoding = 'utf-8')
article=jieba.analyse.extract_tags(Ciku, topK = 50, withWeight = True, allowPOS = ())
WArticle=jieba.analyse.extract_tags(Ciku, topK = 50, withWeight = False, allowPOS = ())
mydict=Translate_Into_dict(article)
Cikujs.write("\n词库的关键词\n")
json.dump(Ciku,Cikujs,ensure_ascii=False, indent=4)#计算全文关键词并写入json
print(Ciku)

第二个方法是主题模型是一种统计模型用于发现文档集合中出现的抽象“主题”。主题建模是一种常用的文本挖掘工具,用于在文本体中发现隐藏的语义结构。

LDA也称三层贝叶斯概率模型,包含词、主题和文档三层结构;利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。以下是代码实现。

def LDA_model(words_list):
    # 构造词典
    # Dictionary()方法遍历所有的文本,为每个不重复的单词分配一个单独的整数ID,同时收集该单词出现次数以及相关的统计信息
    dictionary = corpora.Dictionary(words_list)
    print(dictionary)
    print('打印查看每个单词的id:')
    print(dictionary.token2id)  # 打印查看每个单词的id
 
    # 将dictionary转化为一个词袋
    # doc2bow()方法将dictionary转化为一个词袋。得到的结果corpus是一个向量的列表,向量的个数就是文档数。
    # 在每个文档向量中都包含一系列元组,元组的形式是(单词 ID,词频)
    corpus = [dictionary.doc2bow(words) for words in words_list]
    print('输出每个文档的向量:')
    print(corpus)  # 输出每个文档的向量
 
    # LDA主题模型
    # num_topics -- 必须,要生成的主题个数。
    # id2word    -- 必须,LdaModel类要求我们之前的dictionary把id都映射成为字符串。
    # passes     -- 可选,模型遍历语料库的次数。遍历的次数越多,模型越精确。但是对于非常大的语料库,遍历太多次会花费很长的时间。
    lda_model = models.ldamodel.LdaModel(corpus=corpus, num_topics=2, id2word=dictionary, passes=10)
return lda_model

lda_model = LDA_model(Ciku)
topic_words = lda_model.print_topics(num_topics=2, num_words=5)
print(topic_words)

两个方法进行一下比较

两个方法求得的关键词差别不大,进一步的比较分析我将会在下一学期的时间内继续进行。本次计算思维实训让我收获良多,在本次实训过程中我自学学会了python语言,加深了对于自然语言处理的理解和认实,初步了解了Lda三层贝叶斯概率模型,锻炼了编程能力。

提取文本关键词?很 easy 啊,用 Python 三行搞定
我是香菜
04-17 3233
jieba 的应用场景比较广泛,适用于中文文本的分词、词性标注、关键词提取等任务,是我们中文文本处理的重要工具。textrank 主要应用于基于图模型的文本摘要关键词提取,对于较长的英文文本的处理效果较好。SnowNLP 的应用场景主要是中文文本情感分析、文本分类等任务,它能够识别出文本的情感色彩,并进行积极、消极等分类,对于中文文本的快速处理有不错的效果。本文介绍了四个 Python 文本关键词提取库,分别是 jieba、textrank、SnowNLP
中文文本分析--停用词词库文件,结合了多个词库
12-11
中文内容分词中用到的停用词问题解决词库,整合了多个词库文件中的内容,相信对你有帮助。
关键词提取
qq_37977007的博客
01-15 530
介绍关于自然语言处理下的关键词提取技术
利用Python实现摘要自动提取,完美瘦身只需一行代码_python 提取摘要(1)
最新发布
2401_84572511的博客
05-06 530
🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化学习资料的朋友,可以戳这里获取。
常用的Python3关键词提取方法
诸神缄默不语的博客
06-25 9370
本文将介绍一些简单的使用Python3实现关键词提取的算法。
Python:如何实现提取文本关键词摘要、短语、无监督文本聚类
浩栋的博客
05-07 8120
Python:如何实现提取文本关键词摘要、短语、无监督文本聚类;我们在使用Python对文本数据进行处理时,通常会遇到提取文本关键词提取摘要提取短语或者进行无监督文本聚类等需求。本文将向大家推荐一个非常实用的包pyhanlp,使用这个包中的函数通过几行代码就可以完成以上所有的操作。
Python 实战 | 文本分析之文本关键词提取
白帽阿叁的博客
10-14 1637
自然语言处理中最基本的任务就是文本词频统计和关键词提取,在过去的文章中,我们已经详细介绍了使用 Python 对文本进行词频统计的方法,通过统计词频,我们可以大致了解文章构成,并且在一定程度上了解文章的重点内容。而文本关键词提取工作则可以让我们更加直观地了解文章的主题思想,也可以用来做一些情感分析、内容摘要文本分类聚类等文本分析工作,这也是很多学者关心的问题。
基于Python的LDA算法的长文本主题提取分类并预测类别
08-18
本文配备相关博客说明文档:https://blog.csdn.net/m0_47220500/article/details/105765841 LDA算法核心思路: 1.将训练数据和预测数据混合并提取词典库 2.利用词典库将训练数据转换成one-hot编码 3.利用gensim提供的API做模型提取主题 4.将混入的预测数据转换成one-hot编码 5.预测分类主题
中文文本关键词抽取的三种方法-python
cc的博客
07-22 2万+
利用Python实现中文文本关键词抽取的三种方法 文本关键词抽取,是对文本信息进行高度凝练的一种有效手段,通过3-5个词语准确概括文本的主题,帮助读者快速理解文本信息。目前,用于文本关键词提取的主要方法有四种:基于TF-IDF的关键词抽取、基于TextRank的关键词抽取、基于Word2Vec词聚类的关键词抽取,以及多种算法相融合的关键词抽取。笔者在使用前三种算法进行关键词抽取的学习过程中,发现采用TF-IDF和TextRank方法进行关键词抽取在网上有很多的例子,代码和步骤也比较简单,但是采用Word2
利用Python实现摘要自动提取,完美瘦身只需一行代码
python学习者的博客
01-26 3928
今天给大家推荐一个也可以用于关键字提取的算法TextRank,但主要实现的功能是快速从长篇新闻中抽取精准摘要。 前言介绍 TextRank是一个基于图排序的、用于文本处理的算法,通常使用PageRank作为其底层的图排序模型,当然其他的图排序模型也可以与其结合。 使用TextRank算法,不需要有深入的语言学和专业领域知识,因为它是一个无监督的算法。在文本中使用基于图的排序算法需要构建一张关...
基于Python实现中文文本关键词抽取的三种方法.zip
06-22
本文总结了三种常用的抽取文本关键词的方法:TF-IDF、TextRank和Word2Vec词向量聚类,并做了原理、流程以及代码的详细描述。另外,本文的实验目的主要在于讲解三种方法的思路和流程,实验过程中的某些细节仍然可以...
Python实现提取文章摘要的方法
12-24
本文实例讲述了Python实现提取文章摘要的方法。分享给大家供大家参考。具体如下: 一、概述 在博客系统的文章列表中,为了更有效地呈现文章内容,从而让读者更有针对性地选择阅读,通常会同时提供文章的标题和摘要。 一篇文章的内容可以是纯文本格的,但在网络盛行的当今,更多是HTML格的。无论是哪种格摘要 一般都是文章 开头部分 的内容,可以按照指定的 字数 来提取。 二、纯文本摘要 纯文本文档 就是一个长字符串,很容易实现对它的摘要提取: #!/usr/bin/env python # -*- coding: utf-8 -*- """Get a summary of the TEXT-f
读书笔记之8文本特征提取之word2vec
12-03
文本预处理:分词,取出停用词,过滤低频词汇,编码归一化等; 文本向量化:如使用向量空间模型VSM(Vector Space Model)或者概率统计模型对文本进行表示,使计算机能够理解计算,用的方法基于合论模型。基于代数轮模型。基于频率统计模型等等; 文本特征提取和选择:特征提取对应着特征项的选择和特征权重的计算。
Python-利用Python实现中文文本关键词抽取分别采用TFIDFTextRankWord2Vec词聚类三种方法
08-10
利用Python实现中文文本关键词抽取,分别采用TF-IDF、TextRank、Word2Vec词聚类三种方法。
关键词提取算法 textRank python实现
11-21
python实现的textRank算法,用于文本无语料训练下的关键词提取
基于Python抽取文本自动摘要实现.zip
06-22
本次作业重点关注基于抽取的文本自动摘要实现,以及实现的算法——textrank。 pagerank算法应用于谷歌等搜索引擎中,通过网页链接的数量和质量来初略估计网页的重要性,从而对网页进行排名。textrank是基于...
基于python实现中文医学文本实体关系抽取源码+数据+项目说明.zip
11-01
基于python实现中文医学文本实体关系抽取源码+数据+项目说明基于python实现中文医学文本实体关系抽取源码+数据+项目说明基于python实现中文医学文本实体关系抽取源码+数据+项目说明基于python实现中文医学文本...
中文文本摘要提取 (文本摘要提取 有代码)基于python
热门推荐
总裁余(余登武)博客
06-21 2万+
任务简介 文本摘要旨在将文本或文本合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取摘要和生成摘要摘要:意思就是从一段文本 用几句话来概括这段话的意思 方法有很多 本文只讲我会的 。 思路 1 :将文本分词,统计一段文本的词频(当然是去除停用词之后的词频),得到{词:词频} 2: 对文本进行分句 3:对句子进行打分,统计这个句子中出现的每个词的词频, 句子得分
Python 从单个文本中提取关键字的四种超棒的方法
2201_75499313的博客
02-02 3429
到这里我们已经一起学习了在提取关键字/关键短语领域使用的四种最棒的技术,并提供了简单代码实现。这四种方法各有千秋。并且每个都成功地提取了与作者指定的关键字相同或接近并与该领域相关的关键字。
python-利用python实现中文文本关键词抽取分别采用tfidftextrankword2vec词聚类三
07-23
### 回答1: 利用Python实现中文文本关键词抽取可以采用tf-idf、TextRank和Word2Vec等方法。 首先是tf-idf方法。它通过计算每个词在文本中的重要性,将重要性较高的词作为关键词抽取出来。在Python中,可以使用sklearn库的TfidfVectorizer类来实现。首先,将文本数据进行分词,然后使用TfidfVectorizer对分词后的文本进行向量化,最后通过指定关键词数量的方提取出重要的关键词。 其次是TextRank方法。它是基于图的排序算法,通过把文本的句子或词语构建成一个图模型,利用图模型中的节点之间的边权重来衡量节点的重要性。在Python中,可以使用jieba库进行分词,并使用textrank4zh库来实现TextRank算法。将分词后的文本传入textrank4zh的接口,设置关键词的数量,可以得到抽取出来的关键词。 最后是Word2Vec方法。它是通过将文本数据转化为词向量,然后通过计算词向量之间的相似度来抽取关键词。在Python中,可以使用gensim库来实现Word2Vec算法。首先,将文本数据进行分词,然后通过gensim的Word2Vec类将分词后的文本转化为词向量。通过计算词向量之间的余弦相似度或欧氏距离,找到与其他词向量相似度高的词作为关键词。 综上所述,利用Python实现中文文本关键词抽取可以采用tf-idf、TextRank和Word2Vec等方法,根据需求选择合适的方法进行关键词抽取。每种方法都有其特点和适用场景,可以根据具体情况进行选择和调整。 ### 回答2: 中文文本关键词抽取分别采用TF-IDF、TextRank和Word2Vec词聚类是基于Python的三种常用方法。 TF-IDF是一种常用的文本特征提取方法,它通过计算一个词在文档中的出现频率和在整个语料库中的逆文档频率来确定词的重要性。在Python中,可以使用sklearn库的TfidfVectorizer实现中文文本的关键词抽取。通过构建TF-IDF矩阵,可以获得文本中的关键词和它们的权重。 TextRank是一种基于图的排序算法,用于提取文本中的关键词和关键句。它通过利用词之间的共现关系构建一个图,并根据词之间的连接强度进行排名。在Python中,可以使用pytextrank库来实现TextRank算法,提取中文文本中的关键词。 Word2Vec词聚类是一种将词转换为向量表示的方法,通过将词映射到一个n维向量空间中,使得具有相似含义的词在向量空间中的距离较近。在Python中,可以使用gensim库的Word2Vec方法来训练中文文本数据,并将词转换为对应的向量表示。通过对词向量进行聚类,可以得到相关的词组。 综上所述,通过使用Python中的TF-IDF、TextRank和Word2Vec方法,可以实现中文文本的关键词抽取。每种方法都有其独特的优势和适用场景,根据具体需求选择适合的方法进行文本处理和分析。 ### 回答3: 中文文本关键词抽取是一种重要的文本挖掘任务,它可以帮助我们快速理解和提取文本的主题信息。在Python中,我们可以利用不同的库和算法来实现中文文本关键词抽取,下面将介绍tf-idf、textrank和word2vec三种常用方法。 1. tf-idf(Term Frequency-Inverse Document Frequency)是一种经典的文本特征提取方法。它通过计算单词在文本中出现的频率和在整个文中出现的频率,来衡量单词的重要性。在Python中,我们可以使用sklearn库中的TfidfVectorizer模块来实现tf-idf的关键词抽取。 2. textrank是一种基于图的排序算法,通过计算单词之间的相似度以及单词与整个文本之间的关系,来确定关键词的重要性。在Python中,我们可以使用jieba库和networkx库来实现textrank的关键词抽取。 3. word2vec是一种基于神经网络的词向量表示方法,它可以将单词表示为具有语义信息的向量。通过计算单词向量之间的相似度,可以得到与文本主题相关的关键词。在Python中,我们可以使用gensim库来实现word2vec的关键词抽取。 另外,词聚类是一种将具有相似语义的单词聚在一起的方法,可以进一步深化对文本关键词的理解。在Python中,我们可以使用scikit-learn库中的KMeans算法和聚类评估方法来实现词聚类的任务。 总之,利用Python实现中文文本关键词抽取可以使用tf-idf、textrank和word2vec等方法,并可以结合词聚类进一步分析单词之间的相似性和关联关系。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • html中插入svg 6828
  • js中history对象 6273
  • input标签介绍 5848
  • 基于不平衡数据集的中风分析预测 5000
  • 运用python实现了关键词提取,基于词向量的抽取式摘要,文本分类和语料集命名 4874

分类专栏

  • 前端学习笔记 52篇
  • 曾经的课程作业 3篇
  • 倒排索引 2篇

最新评论

  • 有关计算机网络子网划分问题的解析

    易俫雫: 挺会误导人的,n为掩码中1的个数,每个子网中可用的主机地址数为2^(n-2)?而且2^(28-2)=14是怎么回事?

  • 运用python实现了关键词提取,基于词向量的抽取式摘要,文本分类和语料集命名

    snailYWW: def Get_ZhaiYao 函数的for循环的范围似乎没对应好。

  • java异步方法 Async/Await

    技术小拉机: java===JavaScript,你是大哥

  • 基于不平衡数据集的中风分析预测

    m0_74862632: 还有保留的数据集吗

  • 基于不平衡数据集的中风分析预测

    青日.: 请问有数据集吗?

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 伪类,伪元素
  • css水平垂直居中方法
  • js中基本数据类型null和undefind区别
2023年59篇

目录

目录

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

学不会只能哭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司西乡百度标王报价坑梓百姓网标王推荐武威网站优化软件价格迪庆网络广告推广报价驻马店如何制作网站公司阳江网站推广推荐广安百度爱采购公司承德网站优化按天计费推荐毕节如何制作网站多少钱东莞企业网站建设多少钱黔西南如何制作网站价格黔东南网站推广方案推荐海口网站推广价格温州网站建设设计推荐北海关键词按天收费哪家好铜陵网站优化按天计费公司菏泽模板网站建设龙岗SEO按天扣费哪家好坪地网站推广多少钱苏州营销型网站建设价格东营SEO按天收费多少钱辽源百度网站优化排名多少钱淮北百度竞价价格黄石seo排名哪家好海南网站设计哪家好仙桃SEO按天计费报价扬州网站优化按天扣费多少钱昭通网站改版哪家好珠海网站优化软件辽源百度竞价报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化