python爬取微博热门消息(一)——效果展示

22 篇文章 13 订阅
订阅专栏

微博的热搜榜对于研究大众的流量有非常大的价值。

今天的教程就来说说如何爬取微博的热搜榜

感兴趣的小伙伴可以 收藏 + 关注 哦!


另外,关于本项目的效果展示,以及教程,点击一下链接即可。

python爬取微博热门消息(二)—— configs中参数的设置及程序执行过程

python爬取微博热门消息(三)—— 爬取微博热门信息的功能函数

python爬取微博热门消息(四)—— 完整代码


下面,我就介绍一下我的项目效果以及文件结构。

目录

一、目标

二、效果展示

三、文件结构


一、目标

利用 python 爬取微博热门消息榜以及榜单上的热门消息的内容(切记,这里爬取的是公开的微博数据!!!)

并将其保存到本地。

我将会在后面的几篇文章展示我的教程,感兴趣的小伙伴可以 关注 哦!!!

二、效果展示

以2021年1月11日17:46的热搜榜为例

1、控制台输出我们爬取到的微博热搜榜

  • 网页版微博热搜内容

  • 控制台微博热搜内容

2、控制台输出我们爬取到的热搜内容

以其中某一个热搜为例,即‘ 6:迪丽热巴双马尾

  • 网页版微博热搜内容

  • 控制台微博热搜内容

3、爬取到的数据我们将其存储到本地,文本内容以txt形式存储

以其中某一个热搜为例,即‘ 6:迪丽热巴双马尾

三、文件结构

1、文件结构

2、information文件夹

information文件存储我们爬取到的信息,注:该文件自动创建,无需手动创建

该文件下的结构为:

--  infoimation

    --  2021-01-11_1746           ------ 命名方式:year-month-day_time,为当前时间。当前时间下爬取的所有热搜内容均存于当前文件夹下

         --  01_***.txt                   ------ 命名方式:数字_热搜关键词.txt。存储该热搜话题的所有内容

         --  02_***.txt

         --  50_***.txt

         --  top.txt                       ------ 命名方式:top.txt。存储该热搜话题的所有内容

         --  topic.txt                    ------ 命名方式:topic.txt。存储当前时间下的所有热搜关键词

示例:

(1)topic.txt

(2) 其中每个热搜信息的内容均以热搜话题命名,并以txt文件形式保存

2、config.py

该文件为配置文件,一些参数可以在这里修改。

3、MicroBlog.py

该文件中包含一些爬取微博数据的函数

python爬取微博网页数据
01-21
提供代码框架,读者们稍作修改就可以用了,本文爬取的是某舆情热门事件的发文ID、点赞数、转发数、评论量
爬取移动端微博信息 简易Python代码
11-13
新浪微博信息丰富,适合用来做分析,用Python网络爬虫工具进行微博信息的获取是一种行之有效的方法,(附赠移动端代码),全亲自实践,希望多多交流,共同学习
python爬虫爬取微博评论--完整版(超详细,大学生不骗大学生)
最新发布
m0_68325382的博客
04-06 3707
​​​​​​​。
Python爬取新浪微博转发数等
06-29
爬取新浪微博转发数,评论,点赞数等,用selenium,可以控制程序只能在指定时间内运行,只要有对应版本的chromedriver就行
python爬取微博关键词索博文
03-17
python爬取微博关键词索博文,只需要修改cookie和url参数
使用python爬取微博数据打造一颗“心”
09-19
主要介绍了使用python基于微博数据打造一颗“心”,作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗“爱心”,我想她一定会感动得哭了吧,需要的朋友可以参考下
知乎榜_爬虫_榜话题_python_
10-01
python爬取知乎网站的热门话题,热门榜单,源码上传,下载可直接运行
python爬取知乎_Python 超简单爬取微博榜数据
weixin_39678451的博客
11-21 414
微博榜对于研究大众的流量有非常大的价值。今天的教程就来说说如何爬取微博榜。 榜的链接是:用浏览器浏览,发现在不登录的情况下也可以正常查看,那就简单多了。使用开发者工具(F12)查看页面逻辑,并拿到每条的CSS位置,方法如下:按照这个方法,拿到这个td标签的selector是:pl_top_realtimehot > table > tbody > tr:nth-child(3)...
Python网络爬虫-爬取微博
abkw75139的博客
04-17 1129
微博爬取较为简单,我只是用了lxml和requests两个库   url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6 1.分析网页的源代码:右键--查看网页源代码.        从网页代码中可以获取到信息             (1)的名字...
7-18(查找) 新浪微博热门话题(30 分)
weixin_30492047的博客
12-12 1364
新浪微博可以在发言中嵌入“话题”,即将发言中的话题文字写在一对“#”之间,就可以生成话题链接,点击链接可以看到有多少人在跟自己讨论相同或者相似的话题。新浪微博还会随时更新热门话题列表,并将最热门的话题放在醒目的位置推荐大家关注。 本题目要求实现一个简化的热门话题推荐功能,从大量英文(因为中文分词处理比较麻烦)微博中解析出话题,找出被最多条微博提到的话题。 输入格式: 输入说明:输入首先给...
python 爬虫_Python网络爬虫-爬取微博
weixin_39758953的博客
12-03 433
微博爬取较为简单,我只是用了lxml和requests两个库1.分析网页的源代码:右键--查看网页源代码.从网页代码中可以获取到信息(1)的名字都在的子节点里(2)的排名都在的里(注意置顶微博是没有排名的!)(3)的访问量都在的子节点里2.requests获取网页(1)先设置url地址,然后模拟浏览器(这一步可以不用)防止被认出是爬虫程序。###网址url="https://s....
python爬取微博视频
03-20
可以自行输入想要爬取的博主的用户名,下载主页的视频,可以自行输入想要爬取的博主的用户名,下载主页的视频
一行代码爬取微博数据,看看这个爬虫是怎么爬的
简说Python的博客
09-26 6957
文章目录一、前言二、专栏概要三、直接来:爬取微博数据3.1 找到数据源,页面分析3.2 一行代码爬取微博3.3 爬虫初学者看这里,爬虫入门模板教程如何爬去微博3.3.1 标题3.3.2 度3.3.3 排名3.3.4 度标签 一、前言 今天的分享来满足这位读者的需求,想读“关于数据库sql或者MySQL的,就那种Python来处理数据库,比如Python爬虫爬到数据,然后封存到数据库里面,然后再从sql里面读取,进行分析可视化”。 后面写文章一方面是自己学习笔记,另外也会针对读者
【互联网有记忆】爬取微博榜并存入数据库(python爬虫+存储过程后端实现)
小王的博客
03-24 3006
一、爬虫代码 import random, time import requests, re import datetime import mysql.connector # 定义爬取间隔(minutes) interval_time = 15 class HotSearchThread: def __init__(self): self.curTime = dat...
Python网络爬虫实战16:爬取微博要闻榜
简时刻的博客
06-29 298
目录 1. 网页源码 2. 代码实例 3. 运行结果 1. 网页源码 2. 代码实例 # -- coding: utf-8 -- from pyquery import PyQuery as pq import requests headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 S...
第一部分-实时爬取WeiBo
weixin_43596589的博客
04-11 841
python实时爬取微博 文章只做简单记录和复现,详细内容可以一起讨论 第一步lxml方法获取内容 从站内找到的方法,xpath.py代码如下 import requests from lxml import etree import mysql def run(): # 定义爬取的url url = "https://s.weibo.com/top/summary" header = { 'User-Agent': 'Mozilla/5.0 (Windows
50行Python代码,一键获取微博点!
爬遍所有网站
06-02 332
小编闲暇时喜欢看点,会收集微博,微信上的点,了解一下最近的娱乐八卦新闻。但是在浏览微博的时候,想把微博点给复制下来,但是却怎么也复制不了,鼠标一放上去就变成了“小手”的形状。 还有微信上的,微信点,文字都不好复制下来。肿么办~~ Python号称无所不能,既然是玩Python的呢,为啥不利用Python给自己打造一款截屏的文字识别工具,用来提升自己的效率。 1 整体的思路 小编花了几个小时的时间,查阅了相关的资料,完成了这个小...
Python知乎热门话题爬取
weixin_30740295的博客
12-11 196
本例子是参考崔老师的Python3网络爬虫开发实战写的 看网页界面: 热门话题都在 explore-feed feed-item的div里面 源码如下: import requests from pyquery import PyQuery as pq url='https://www.zhihu.com/explore' #今日最 #url='https...
Python 超简单爬取微博榜数据
Python实用宝典网
05-13 6179
微博榜对于研究大众的流量有非常大的价值。今天的教程就来说说如何爬取微博榜。 榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情况下也可以正常查看,那就简单多了。使用开发者工具(F12)查看页面逻辑,并拿到每条的CSS位置,方法如下: 按照这个方法,拿到这个td标签的selector是: pl_top_realtimehot > table > tbody > tr:nth-child(3) > td.t
使用python爬取微博热门新闻并且输出到一个文本文档里
04-03
以下是使用Python爬取微博热门新闻并输出到文本文档的示例代码: ```python import requests from bs4 import BeautifulSoup # 微博的URL url = "https://s.weibo.com/top/summary?cate=realtimehot" # 发送HTTP请求并获取响应内容 response = requests.get(url) html = response.text # 使用BeautifulSoup解析HTML soup = BeautifulSoup(html, "html.parser") # 获取热门新闻的列表 news_list = soup.select(".td-02 a") # 打开一个文本文件用于写入热门新闻 with open("weibo_hot_news.txt", "w", encoding="utf-8") as f: # 遍历热门新闻列表,依次写入文件 for news in news_list: news_title = news.get_text(strip=True) f.write(news_title + "\n") ``` 以上代码会爬取微博的页面,获取热门新闻的标题,并将其写入一个名为"weibo_hot_news.txt"的文本文件中。你可以修改代码来适应你所需的输出格式。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • JAVA实现的小程序 13172
  • JAVA实现2048小游戏 10134
  • Python实现2048小游戏 8312
  • python爬取微博用户信息(二)—— cookie的获取方式以及configs中参数的设置 7668
  • python爬取微博用户信息(六)—— 完整代码 7657

分类专栏

  • Java 38篇
  • LeetCode 82篇
  • python 22篇
  • cv 6篇
  • DIP 1篇
  • pytorch 4篇
  • C 1篇
  • Artificial Intelligence 1篇
  • Deep Learning 1篇

最新评论

  • JAVA实现Tom猫

    久瞑: 老哥,给我也发一个嘞?

  • python爬取微博用户信息(六)—— 完整代码

    hulala__: 求助!!!如果想爬取大量用户应该如何修改代码!表情包

  • JAVA实现2048小游戏

    燚初音: 给Game2048Panel的构造方法里加addListener就行了 this.addKeyListener(this);

  • python爬取微博用户信息(六)—— 完整代码

    2301_80288962: 是第三个文件类啊

  • python爬取微博用户信息(六)—— 完整代码

    2301_80288962: 为什么我爬取的不是用户的内容而是我的关注内容啊

大家在看

  • String、StringBuilder、StringBuffer之间的区别是什么? 244
  • XMall-Front:基于Vue.js的XMall商城前台页面的开发实践
  • 基于51单片机智能超市自动售货机售卖机电机蓝牙APP设计19-839 417
  • MySQL基本查询
  • 万维组态绑点示例文档

最新文章

  • Java学习笔记——网络编程
  • Java学习笔记——序列化
  • Java学习笔记——集合
2022年31篇
2021年30篇
2020年86篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司咸宁网站制作多少钱娄底网站优化按天收费多少钱新余seo优化大运网站优化价格朝阳关键词按天扣费价格毕节品牌网站设计价格坂田网站改版哪家好六安seo网站推广多少钱邵阳网站seo优化多少钱金昌网站优化排名公司衡水推广网站多少钱辽源模板制作多少钱渭南建站价格长沙网站开发价格巴中至尊标王坪地推广网站价格甘南网站排名优化公司伊春百度网站优化排名多少钱襄阳百度竞价包年推广焦作百度竞价包年推广价格四平网站设计黄山seo排名报价长沙英文网站建设价格萍乡推广网站推荐银川建设网站报价咸宁百度网站优化排名大连网站改版哪家好荆门网站优化排名坂田关键词按天扣费价格龙岗外贸网站制作歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化