用python机器学习实现新闻关键词的抽取

702 0 0

作者:我是九颗

随着互联网的蓬勃发展，手机移动端和网络的逐渐普及，传播的权利下放到每个公民，“公民新闻”应运而生，每个公民成为记者，发出自己的声音。随着新闻传播门槛的降低，网上的信息愈加鱼龙混杂，如何有效在海量信息中获取自己感兴趣的和需要的成为另一个难题，如何在大量的新闻文本中提取出关键信息变得越来越重要。本案例将使用Python实现新闻关键词的提取。详见：（用python机器学习实现新闻关键词抽取模型）
首先介绍何为关键词？

1.关键词

关键词是指能反映文本主题或者意思的词语，如论文中的Keyword字段。大多数人写文章的时候，不会像写论文的那样明确的指出文章的关键词是什么，关键词自动标注任务正是在这种背景下产生的。
目前，关键词自动标注方法分为两类：

（1）关键词分配

预先定义一个关键词词库，对于一篇文章，从词库中选取若干词语作为文章的关键词；

（2）关键词抽取

从文章的内容中抽取一些词语作为关键词。

2.应用场景

在文献检索初期，由于当时还不支持全文搜索，关键词就成为了搜索文献的重要途径。随着网络规模的增长，关键词成为了用户获取所需信息的重要工具，从而诞生了如Google、百度等基于关键词的搜索引擎公司。
关键词自动标注技术在推荐领域也有着广泛的应用。如图1所示，当用户阅读图中左边的新闻时，推荐系统可以给用户推荐包含关键词”Dropbox”、”云存储”的资讯，同时也可以根据文章关键词给用户推荐相关的广告。
在这里插入图片描述

关键词可以作为用户兴趣的特征，从而满足用户的长尾阅读兴趣。传统的信息订阅系统一般使用类别或者主题作为订阅的内容，如图2所示。如果用户想订阅更细粒度的内容，这类系统就无能为力了。关键词作为一种对文章更细粒度的描述，刚好可以满足上述需求。
在这里插入图片描述

除了这些以外，关键词还在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时，将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的关键词，就可以大致知道那天发生了什么事情。或者将某段时间中几个人的微博拼成一篇长文本，然后抽取关键词就可以知道他们主要在讨论些什么话题。

3.现有问题与挑战

文章的关键词通常具有以下三个特点

可读性。

关键词本身应该是有意义的词或者短语。例如，“我们约会吧”是有意义的短语，而“我们”则不是。

相关性。

关键词必须与文章的主题相关。例如，一篇介绍巴萨在德比中输给皇马的新闻，其中可能顺带提到了“中超联赛”这个关短语，这时就不希望这个短语被选取作为该新闻的关键词。

覆盖度。

关键词集合能对文章的主题有较好的覆盖度，不能只集中在文章的某个主题而忽略了文章的其他主题。
从上述三个特点，可以看到关键词标注算法的要求以及面临的挑战：

a.新词发现以及短语识别问题，怎样快速识别出网络上最新出现的词汇（人艰不拆、可行可珍惜…）？

b.关键词候选集合的问题，并不是文章中所有的词语都可以作为候选；

c.怎么计算候选词和文章之间的相关性？

d.如何覆盖文章的各个主题？

关键词分配算法需要预先定义一个关键词词库，这就限定了关键词候选范围，算法的可扩展性较差，且耗时耗力；关键词抽取算法是从文章的内容中抽取一些词语作为标签词，当文章中没有质量较高的词语时，这类方法就无能为力了。
用Python作为工具，可以对海量文本进行机器学习和算法分析，用最接地气的方式挑战数据科学领域实战项目。更多案例详见：
Python抽取新闻关键词搭建模型教程简介：

1.任务目标与数据集介绍

2.数据清理与预处理

3.抽取数据基本特征

4.分析文章与词向量

5.划分权重

6.候选词统计特征

7.textrank特征提取

8.候选词相似度特征

9.特征工程汇总

谷歌的自动驾驶汽车和机器人受到了很多媒体的关注，但该公司真正的未来是在机器学习领域，这种技术能使计算机变得更聪明，更个性化。-Eric Schmidt（Google董事长）
在当下数字社会，机器学习和数据分析已经成为我们生活的一部分，已经是很多系统的“动力系统”，从平凡到可以改变生活的所有。Python更像是一个工具，助力数据分析更加精准和高效。

更多文章和资料|点击下方文字直达 ↓↓↓
阿里云K8s实战手册
[阿里云CDN排坑指南] CDN
ECS运维指南
DevOps实践手册
Hadoop大数据实战手册
Knative云原生应用开发指南
OSS 运维实战手册

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/woshijiuke/p/13447029.html

标签：云计算

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

用python机器学习实现新闻关键词的抽取