温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
  • 忘记密码?
登录注册×
获取短信验证码
其他方式登录
点击 登录注册 即表示同意 《亿速云用户服务条款》
  • 服务器
  • 数据库
  • 开发技术
  • 网络安全
  • 互联网科技
登 录 注册有礼
最新更新 网站标签 地图导航
产品
  • 首页 > 
  • 教程 > 
  • 互联网科技 > 
  • 大数据 > 
  • 怎么用Python爬取微博热搜榜数据

怎么用Python爬取微博热搜榜数据

发布时间:2021-09-10 10:45:17 来源:亿速云 阅读:467 作者:chen 栏目: 大数据

本篇内容介绍了“怎么用Python爬取微博热搜榜数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

微博的热搜榜对于研究大众的流量有非常大的价值。今天的教程就来说说如何爬取微博的热搜榜。热搜榜的链接是:

https://s.weibo.com/top/summary/

用浏览器浏览,发现在不登录的情况下也可以正常查看,那就简单多了。使用开发者工具(F12)查看页面逻辑,并拿到每条热搜的CSS位置,方法如下:

怎么用Python爬取微博热搜榜数据

按照这个方法,拿到这个td标签的selector是:
pl_top_realtimehot > table > tbody > tr:nth-child(3) > td.td-02

其中nth-child(3)指的是第三个tr标签,因为这条热搜是在第三名的位置上,但是我们要爬的是所有热搜,因此:nth-child(3)可以去掉。还要注意的是 pl_top_realtimehot 是该标签的id,id前需要加#号,最后变成:

#pl_top_realtimehot > table > tbody > tr > td.td-02

你可以自定义你想要爬的信息,这里我需要的信息是:热搜的链接及标题、热搜的热度。它们分别对应的CSS选择器是:

链接及标题:#pl_top_realtimehot > table > tbody > tr > td.td-02 > a
热度:#pl_top_realtimehot > table > tbody > tr > td.td-02 > span

值得注意的是链接及标题是在同一个地方,链接在a标签的href属性里,标题在a的文本中,用beautifulsoup有办法可以都拿到,请看后文代码。

现在这些信息的位置我们都知道了,接下来可以开始编写程序。默认你已经安装好了python,并能使用cmd的pip,如果没有的话请见这篇教程:python安装。需要用到的python的包有:

BeautifulSoup4:
cmd/Terminal 安装指令: pip install  beautifulsoup4.

lxml解析器:
cmd/Terminal 安装指令: pip install lxml  
lxml是python中的一个包,这个包中包含了将html文本转成xml对象的工具,可以定位标签的位置。而能用来识别xml对象中这些标签的位置的包就是Beautifulsoup4.

编写代码:

怎么用Python爬取微博热搜榜数据

代码说明请看注释

结果:    

怎么用Python爬取微博热搜榜数据


代码说明请看注释,不过这样做,仅仅是将结果保存到数组中,结果非常不易观看,我们下面将其保存为csv文件。

怎么用Python爬取微博热搜榜数据

效果如下,怎么样,是不是好看很多:

怎么用Python爬取微博热搜榜数据


完整代码如下,文字版请阅读原文进入网站阅读:

怎么用Python爬取微博热搜榜数据

“怎么用Python爬取微博热搜榜数据”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

向AI问一下细节
推荐阅读:
  1. Python网络爬虫之爬取微博热搜
  2. python如何实现爬取微博热搜存入Mysql

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python
  • 上一篇新闻:
    python位置参数怎么用
  • 下一篇新闻:
    怎么通过重启路由的方法切换IP地址

猜你喜欢

  • ubuntu安装软件包出错怎么解决
  • 虚拟主机测试方法有哪些
  • 负载均衡器SLB策略有哪些优点
  • C#中streamwriter用法是什么
  • 电脑openal32.dll丢失怎么解决
  • 香港虚拟主机空间租用怎么样
  • 香港虚拟主机空间租用价格是多少
  • 虚拟主机免费空间使用不足怎么清理
  • 云电脑在线使用常见的问题有哪些
  • 怎么免费永久玩的云电脑
最新资讯
  • Linux主机与Docker Registry私有仓库
  • Linux主机与Docker镜像管理
  • Linux主机与Ansible Playbook编写
  • Linux主机与Pacemaker服务管理
  • Linux主机与Corosync集群管理
  • Linux主机与Keepalived高可用配置
  • Linux主机与HAProxy负载均衡
  • Linux主机与Ceph集群部署
  • Linux主机与GlusterFS分布式文件系统
  • Linux主机与NFSv4新特性
相关推荐
  • 使用python怎么爬取微博的热搜数据
  • 使用Python怎么爬取微博热搜关键词
  • python爬虫怎么爬取微博热搜
  • python如何爬取微博热搜存入Mysql
  • python如何爬取微博热搜并实现数据可视化
  • Python 怎么爬取微博树洞
  • Python怎样爬取新浪微博数据
  • python中如何使用Scrapy框架爬虫爬取微博热搜
  • 怎么使用python爬取知乎热榜Top50数据
  • 怎么用Python实现爬取百度热搜信息

相关标签

mysql-python python解释器 pythonz python变量 pythonpostgresql python 爬虫 python列表推导式 python全局变量 python简介 python爬虫库 python面试 python升级 python报错 python关键字 python模拟 python3.8.0 python 入门 boost.python python3.10 python反爬虫
AI

深圳SEO优化公司滁州网站优化哪家好为什么我的网站优化上不去惠州快速网站优化网站优化被k网站优化岗位要求北辰区网站优化推广济南网站系统优化网站优化方式有哪些福田健康网站优化及营销方案河北网站优化公司排名优化东门网站优化哪家好网站优化在哪里学网站搜索引擎优化教学优化公司网站克制云速捷选择云南网站优化哪家负责如何避免优化网站眉山网站排名优化长虹网站的优化龙口功能性网站优化公司重庆网站优化有哪些英文网站优化手册金山区360网站优化排名永州网站优化价格多少好网站推广优化商洛网站优化服务合作网站关键词排名优化网站的站外优化方案安庆企业网站排名优化哪家合适网站内容优化哪个好搜索引擎优化营销网站设计歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化