Python爬虫实战(基础篇)—1获取微博TOP10热搜(附完整代码)

23 篇文章 19 订阅
订阅专栏

今天我们来讲Python爬虫获取微博TOP10热搜关键词,如果对你有帮助的还请各位佬多多关注,多多点赞,多多收藏!!

请添加图片描述

步入正题

第一步,进入微博官网: 点我进入

我们可以看到 热搜就在右下方

在这里插入图片描述

第 2 步,点击【f12】,或者【右击】检查,查看热搜的,网址来源

在这里插入图片描述

第 3 步

1、点击Network,刷新页面,所有的加载资源会在左方出现

2、我们发现有一个【hotSearch】这个就是热搜的链接

3、点击下方的【{}】这个小图标,格式化一下json信息

在这里插入图片描述

第 4 步 找到请求URL

在这里插入图片描述

第 5 步 代码请求

如图所示请求成功

在这里插入图片描述

第 6 步整理数据

1、将返回数据(string)转为dict

2、经过分析发现热搜主要在一个列表里:json.loads(url.text)['data']['realtime']在这里插入图片描述

3、获取

在这里插入图片描述

4、继续分析(大家可以继续分析,里面的分类还有很多,我这里就不分析了)

在这里插入图片描述

到这里已经全部获取了,接下来写入Excel

在这里插入图片描述

import json
import re

import openpyxl
import requests
from lxml import etree

wb = openpyxl.Workbook()
ws = wb.active
ws.append(['顺序','热搜分类','热搜关键词'])

url = requests.get("https://weibo.com/ajax/side/hotSearch")
# url.encoding= "gbk"
# print(url.text)
data = json.loads(url.text)['data']['realtime']
for i in data:
    # print(i)
    try:
        print(f'热搜:{i["realpos"]}, 热搜分类[{i["category"]}], 热搜关键词:{i["word"]}')
        ws.append([i["realpos"],i["category"],i["word"]])
    except:
        pass
wb.save("热搜.xlsx")

希望对大家有帮助

都看到这了,关注+点赞+收藏=不迷路!!

Python网络爬虫爬取微博
01-21
微博爬取较为简单,我只是用了lxml和requests两个库 url= https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6 1.分析网页的源代码:右键–查看网页源代码. 从网页代码中可以获取到信息 (1)的名字都在的子节点里 (2)的排名都在的里(注意置顶微博是没有排名的!) (3)的访问量都在的子节点里 2.requests获取网页 (1)先设置url地址,然后模拟浏
python 小白爬虫实战:使用 scrapy 爬取微博并发送邮箱
01-20
文章目录环境爬取内容和思路实现文件结构具体实现后记参考资料 环境 我的环境是:python3.5 + scrapy 2.0.0 爬取内容和思路 爬取内容:微博的关键词,链接,以及导语,即简要概述内容的一小段话 思路: 对于链接:通过关键词所在标签的属性再加上前缀即可(如图1) 对于关键词:进入关键词所在链接,一般会有一个如图2所示的位置,根据标签解析出内容;如果没有,存入“无” 对于导语:也是在关键词链接里边(如图3),通过解析获得;如果没有,爬取页面中的一条微博截取 对于推荐类(如图4):一般是广告之类,不在所爬取范围之内,可以在提取关键词链接时,通过标签最后位置是否为 “荐
python每天定时爬取微博并保存到本地(表格、数据库)
qq_43613793的博客
04-13 3139
微博网站:https://s.weibo.com/top/summary/ 就是这个样子: pyquery提取: 保险起见headers里加个UA… from pyquery import PyQuery as pq html = pq("https://s.weibo.com/top/summary/", { 'User-Agent': 'M...
Python爬虫入门教程28:爬取微博榜并做动态数据展示
最新发布
m0_62673499的博客
03-22 970
Python 3.6Pycharm相关模块的使用💨import csv安装Python并添加到环境变量,pip安装需要的相关模块即可。💥需求数据来源分析榜数据, 每次刷新上面的度数值都是会发生边改变,每隔一段时间可以爬取一下榜单数据,然后可以做一个数据展示。榜数据内容还是比较好爬的, 因为是静态网页数据内容, 如果大家有认真看过之前的问题,那么这个网站还是很好爬取的。💥代码实现每一分钟爬取一次数据内容import csv。
Python爬取微博数据
weixin_45723705的博客
03-29 3266
废话少说,直接上代码,然后再详细介绍构造过程。 代码 import urllib.request import re import pandas as pd import time import random def getdata(): url='https://s.weibo.com/top/summary?cate=realtimehot' req=urllib.request.Request(url) req.add_header('User-Agent',' Mozill
【互联网有记忆】爬取微博榜并存入数据库(python爬虫+存储过程后端实现)
小王的博客
03-24 3014
一、爬虫代码 import random, time import requests, re import datetime import mysql.connector # 定义爬取间隔(minutes) interval_time = 15 class HotSearchThread: def __init__(self): self.curTime = dat...
Python|30行代码实现微博爬虫(及可视化进阶)
凌小添的博客
09-15 7800
练手必备!微博爬虫项目,含pillow绘图及selenium的使用。
爬虫 | Python爬取微博实时榜信息
白帽阿叁的博客
12-21 2777
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。发现实际上这个榜的信息在网页中是以表格(Table)的形式展现的。
爬取微博榜并进行数据分析
分享关于数据的知识。
07-26 5223
用requests库访问页面用get方法获取页面资源,登录页面对页面HTML进行分析,用beautifulsoup库获取并提取自己所需要的信息。再讲数据保存到CSV文件中,进行数据清洗,数据可视化分析,绘制数据图表,并用最小二乘法进行拟合分析。
微博数据采集,微博爬虫微博网页解析,完整代码(主体内容+评论内容)
bigcrab的博客
09-12 9526
参加新闻比赛,需要获取大众对某一方面的态度信息,因此选择微博作为信息收集的一部分以华为发布会这一为例子,我们可以通过开发者模式得到信息基本都包含在下面的 div tag中 我们通过网络这一模块进行解析,发现信息基本都存储在 %23 开头的请求之中,接下来分析一下响应内容 这里可以看出响应内容为html格式,因此我们可以用xpath或者css来进行解析,这里我们使用BeautifulSoup来解析,解析代码如下: 我们可以获得如下结果: 这里的mid,uid两个参数是为了下一节获取微博评论内容需要
Python爬虫 爬取新浪微博
qq_47880276的博客
02-02 2207
Python爬虫 爬取新浪微博 文章目录Python爬虫 爬取新浪微博网页分析数据爬取数据存储全部代码 网页分析 找到的排名,标题和度,发现它们在同一路径 数据爬取 import requests from lxml import etree url= 'https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6' #print(response.text) headers={ 'User-Agent':
Python爬虫 - 使用python爬取微博.zip
02-02
Python爬虫 - 使用python爬取微博.zip
爬取微博神器(公众号)中过去的
11-07
爬过去的微博用的代码~~具体的可以参考博客上,有详细的介绍~https://blog.csdn.net/weixin_42208219/article/details/109545977
python爬取微博关键词索博文
03-17
python爬取微博关键词索博文,只需要修改cookie和url参数
python爬虫手把手教你抓取微博评论(完整代码
12-22
前几天周子瑜捐款的事情引发粉丝和黑子大战,突然想了解其中的对话 不想看的朋友可以直接跳到最后拿代码 开始工作 第一步引入库 import time import base64 import rsa import binascii import requests import re from PIL import Image import random from urllib.parse import quote_plus import http.cookiejar as cookielib import csv import os 第二步:一些全局变量的设置 comment_path = '
Python爬虫获取微博TOP50+Excel
08-03
Python爬虫获取微博TOP50+Excel 1、直接点击运行 2、获取微博的前50 3、会对进行Excel入 4、代码完成时间为2023年8月
python数据可视化分析微博微博可舆情可视化分析系统
12-09
微博数据可视化分析系统 前端框架:html+ css+boostrap+echart 后端框架:flask+python+snownlp 数据库:mysql python数据可视化分析微博微博可舆情可视化分析系统
python爬取微博
My_progress1的博客
11-29 3407
目录 代码 部分结果 参考文献 你需要修改的是代码中的"User-Agent"、"Cookie" 代码 # -*- codeing = utf-8 -*- # @Time : 2021/11/29 13:47 # @Author : My_progress1 # @File : 微博播50.py # @Software : PyCharm import urllib.request from bs4 import BeautifulSoup import re import random
python爬虫爬取微博
05-29
好的,我可以为您提供一个简单的实现方案: 1.首先,我们需要安装两个库 requests 和 BeautifulSoup4,可以使用以下命令进行安装: ``` pip install requests pip install beautifulsoup4 ``` 2.然后,我们需要获取微博的页面数据。可以使用 requests 库发送 GET 请求并获取响应内容。代码示例: ```python import requests url = "https://s.weibo.com/top/summary?cate=realtimehot" response = requests.get(url) html = response.text ``` 3.接下来,我们需要使用 BeautifulSoup4 库对获取的页面数据进行解析。代码示例: ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') trs = soup.select('.data tbody tr') for tr in trs: # 解析榜单数据并输出 ... ``` 4.最后,我们可以根据需要对榜单数据进行处理和保存。完整的代码示例如下: ```python import requests from bs4 import BeautifulSoup url = "https://s.weibo.com/top/summary?cate=realtimehot" response = requests.get(url) html = response.text soup = BeautifulSoup(html, 'html.parser') trs = soup.select('.data tbody tr') for tr in trs: # 解析榜单数据并输出 title = tr.select('.td-02 a')[0].text hot = tr.select('.td-02 span')[0].text print(title, hot) ``` 希望这个方案能够助到您!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 国内的几款强大的智能—AI语言模型 677780
  • Cursor--gp4使用非常方便(保姆级教学) 56063
  • ChatGP4 的体验 一站式 AI工具箱 -—Poe(使用教程) 13705
  • Anaconda3(2023-4-25版本)的安装配置及使用教程(详细过程) 10739
  • python tkinter 点击按钮选择文件,返回文件路径(更新时间2024-3-29) 9890

分类专栏

  • Python自动化办公 付费 141篇
  • 30天精通Python 付费 8篇
  • Python每日tips 付费 28篇
  • 可视化 7篇
  • Python100个库分享 23篇
  • Pygame基础专栏 8篇
  • AI 新闻 2篇
  • OCR图片识别文字 7篇
  • 告别BUG 3篇
  • C++入门 3篇
  • Python办公自动化PostSQL篇 3篇
  • 自己的笔记 29篇
  • 每日一练 5篇
  • tkinter 5篇
  • selenium 10篇
  • Python爬虫 23篇
  • Navicat 1篇
  • GUI 6篇
  • Scrapy 1篇
  • matplotlib 1篇
  • mysql 4篇
  • Django 9篇
  • Windows虚拟环境 1篇

最新评论

  • Python计算两个时间的时间差(工作笔记需要自取)

    疯狂Android讲义: 写的很好,细节很到位!【我也写了一些相关领域的文章,希望能够得到博主的指导,共同进步!】

  • 有效转载:解决AttributeError: module ‘win32com.gen_py.xxxxxxxxxx‘ has no Attribute CLSIDToClassMap

    一晌小贪欢: 客气啦

  • ChatGP4 的体验 一站式 AI工具箱 -—Poe(使用教程)

    G -Yusheng.: 怎么翻墙呀

  • python识别图标并点击

    一晌小贪欢: 我用的3.6.2

  • python识别图标并点击

    码界丶杜兰特: 大佬 你用的是Python什么版本的,我怎么导入不了cv2

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Python办公—openpyxl(增加、删除行列,修改单元格,底色、字体样式设置,读取sheet表)
  • Python办公—openpyxl合并单元格
  • Python计算两个时间的时间差(工作笔记需要自取)
2024
05月 1篇
04月 29篇
03月 27篇
02月 11篇
01月 7篇
2023年169篇
2022年40篇
2021年5篇
2020年4篇
2019年1篇
2018年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一晌小贪欢

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司东营网站改版公司石岩建网站报价塔城建设网站推荐崇左模板制作报价绍兴网站优化按天收费报价营口关键词排名包年推广多少钱桂林SEO按天扣费多少钱山南百度竞价包年推广价格大庆优化价格常州网站制作设计推荐宿迁企业网站设计哪家好北海网站推广工具公司湖州seo优化推荐松岗seo哪家好忻州百搜标王多少钱吉林网站制作报价淮北网站开发公司商洛seo网站优化哪家好常州网络推广报价济源网站制作设计哪家好嘉兴网站制作多少钱林芝seo网站优化多少钱肇庆百度竞价包年推广珠海网站制作三亚网站推广方案哪家好兴安盟模板推广价格宁德网站优化按天收费多少钱盘锦百度关键词包年推广推荐杭州优化多少钱垦利seo排名哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化