Python爬虫实战(基础篇)—1获取微博TOP10热搜(附完整代码)

最新推荐文章于 2024-03-22 08:16:06 发布

一晌小贪欢

最新推荐文章于 2024-03-22 08:16:06 发布

阅读量3k

点赞数 11

分类专栏： Python爬虫文章标签： python 爬虫开发语言 excel

本文链接： https://blog.csdn.net/weixin_42636075/article/details/131935111

版权

Python爬虫专栏收录该内容

23 篇文章 19 订阅

订阅专栏

今天我们来讲Python爬虫获取微博TOP10热搜关键词，如果对你有帮助的还请各位佬多多关注，多多点赞，多多收藏！！

步入正题

第一步，进入微博官网：点我进入

我们可以看到热搜就在右下方

第 2 步，点击【f12】，或者【右击】检查，查看热搜的，网址来源

第 3 步

1、点击Network，刷新页面，所有的加载资源会在左方出现

2、我们发现有一个【hotSearch】这个就是热搜的链接

3、点击下方的【{}】这个小图标，格式化一下json信息

第 4 步找到请求URL

第 5 步代码请求

如图所示请求成功

第 6 步整理数据

1、将返回数据(string)转为dict

2、经过分析发现热搜主要在一个列表里：json.loads(url.text)['data']['realtime']

3、获取

4、继续分析(大家可以继续分析，里面的分类还有很多，我这里就不分析了)

到这里已经全部获取了，接下来写入Excel

import json
import re

import openpyxl
import requests
from lxml import etree

wb = openpyxl.Workbook()
ws = wb.active
ws.append(['顺序','热搜分类','热搜关键词'])

url = requests.get("https://weibo.com/ajax/side/hotSearch")
# url.encoding= "gbk"
# print(url.text)
data = json.loads(url.text)['data']['realtime']
for i in data:
    # print(i)
    try:
        print(f'热搜：{i["realpos"]}, 热搜分类[{i["category"]}], 热搜关键词：{i["word"]}')
        ws.append([i["realpos"],i["category"],i["word"]])
    except:
        pass
wb.save("热搜.xlsx")