Python爬虫——去哪儿网评论

最新推荐文章于 2024-07-12 22:58:11 发布

老Amy

最新推荐文章于 2024-07-12 22:58:11 发布

阅读量2.3k

点赞数

分类专栏：少女的技术文章文章标签： python

本文链接： https://blog.csdn.net/weixin_44352981/article/details/109301189

版权

本文详细介绍了如何使用Python爬虫抓取去哪儿网周边游页面的评论数据，包括解析页面、寻找动态加载数据的接口、处理POST请求参数等步骤，最终成功获取评论数量等信息。

摘要由CSDN通过智能技术生成

需求

由于疫情的影响，可能大家更加偏向于与家人在周边游~ 所以我们来到去哪儿网的周边游：https://dujia.qunar.com/p/around

界面如下：

可以看到，我们的周边游也有很多页的数据~如果我们需要去货比n家的话，当然是数据越多越好。但是为了前期分析的便利，我们以第一页为主。那在该页，我们需要获取到的基本信息为：标题，价格，详情页跳转链接

基础需求实现

还是老步骤，在写代码之前，我们需要定位到需求数据所在的url。先来 https://dujia.qunar.com/p/around 康康把~

F12 打开谷歌自带的工具
看到 Network/Preview 确认需要数据是否在该页面

结果发现，OMG，没有想要的数据。咋办呢？

因为最开始提到该数据比较多存在翻页，所以我们就需要揣测一下，数据是否是 ajax 动态加载的。所以我们操作如下：

立减 ¥

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【Python】基于requests库对去哪儿景点评论信息的爬取

weixin_45895411的博客

02-28

1780

基于requests库对去哪儿景点评论信息的爬取

Python采集去哪儿旅游攻略(爬虫+数据分析),快过年了,这不得全家一起出去玩一次

python56123的博客

01-14

5556

本次目的: Python采集去哪儿旅游攻略(爬虫+数据分析) 内容介绍: 2021有哪些好玩的地方？今天用python分析适合年轻人的旅游攻略 (数据分析) 知识点： requests 发送网络请求 parsel 解析数据 csv 保存数据第三方库： requests >>> pip install requests parsel >>> pip install parsel 模块安装: 按住键盘 win + r, 输入cmd回车打开命令行窗口

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫技术从去哪儿网获取旅游数据，对攻略进行可视化分析，提供全面的旅游攻略和个性化的出行建议

最新发布

weixin_49081159的博客

07-12

2743

随着信息技术的快速发展和互联网的普及，旅游行业也迎来了数字化和智能化的变革。数据覆盖了一年的12个月，出游次数分别为：1月39次，2月54次，3月56次，4月81次，5月55次，6月40次，7月55次，8月63次，9月64次，10月78次，11月52次，12月53次。8月和9月的出游次数也较高，分别为63次和64次，这可能与暑期有关，暑假期间学校放假，家庭出游较为集中。出游时间的分析结果为旅游市场提供了有价值的参考，旅游行业可以根据季节和假期特点，优化产品和服务，制定营销策略，以满足不同时间段的旅游需求。

【python 爬虫】携程，去哪儿评论爬虫

赖德发的博客

05-09

3486

1、去哪儿 # -*- coding:utf-8 -*- import re import json import requests import pandas as pd date=[] content=[] for i in range(1,1000): try: print("正在抓取第"+str(i)+"页") url="https://touch...

Python爬取去哪儿网文章及评论.py

09-02

Python爬取动态网站；Python爬取微信公众号文章以及评论源代码！

去哪儿网评论Python爬虫

09-04

去哪儿网pycharm爬虫

python爬虫爬取去哪儿网评论详情

weibalabala的博客

05-22

2794

comment_info 爬取的东西是直接往数据库存的，数据库基本操作建表 CREATE TABLE comment_info_update ( comment_url VARCHAR(200), comment_title VARCHAR(200), comment_ LONGTEXT, comment_score VARCHAR(50), comment_date VARCHAR(100), user_name VARCHAR(100), uid VARCHAR(100) ) 下面是爬虫代码 impo

送书｜获取旅游景点信息及评论并作词云、数据可视化

tongtongjing1765的博客

10-13

1556

大家好，我是啃书君！正所谓：有朋自远方来，不亦乐乎？有朋友来找我们玩，是一件很快乐的事情，那么我们要尽地主之谊，好好带朋友去玩耍！那么问题来了，什么时候去哪里玩最好呢，哪里玩的地方最多呢？...

Python爬虫获取网上评论

10-05

演示了如何利用Python库获取网上关于汽车的评估的方法。乃至了urllib库、BeautifulSoup库等。

python 爬虫——抓取去哪儿网站景点部分信息

无限大地NLP_空木的专栏

10-22

7758

preface: 最近一个同学需要收集去哪儿网的一些景点信息，爬虫上场。像是这么有规律的之间用urllib及BeautifulSoup这两个包就可破。实际上是我想少了。一、抓取分析 http://piao.qunar.com/ticket/detail_1.html及http://piao.qunar.com/ticket/detail_1774014993.html分别为齐庐山和西海景

python爬取去哪网全国景区数据

02-26

python爬取去哪网全国景区数据，爬取地址为piao.qunar.com,注意去哪网有反爬虫策略,如果ip被封，可能使用手机热点

python爬虫（上）--请求——关于旅游网站的酒店评论爬取（传参方法）

热门推荐

Silbert Monaphia

07-01

2万+

前言最近考试一直都没有时间写这篇总结，现在考试暂告一段落，现在抽空出来写一篇总结，总结一下python爬虫的学习进度。承接上一篇基于scrapy框架爬虫学习小结，上一篇主要是第二次作业后，“老师说会给我们时间继续完善这个作业，直到可以真的爬到微信朋友圈内容….”，其实之后前面半句是有，但是后面半句真的爬到朋友圈却没有了，老师改变了需求，我们变成了去爬一些旅游网站了。我们被分派到的任务是：研究分析携程

Python 反爬虫——文本混淆反爬虫

Python美丽星球--微信(Felixzfb)

06-26

1086

文中案例参考 GitHub项目 4 文本混淆反爬虫 4.1 图片伪装为文字反爬虫有些文字内容实际是图片伪装的提取图片的内容(图片请求响应结果res.content就是图片的字节数据，可以直接write为图片对象，也可以打开为图片对象，看案例) 图片对象使用光学字符识别技术(pytesseract库)从图片中提取文字 PyTesseract缺点：只能识别出一些清晰工整的图像中的文字，扭曲的文字或者有其它颜色图片干扰信息时候识别不准确参考案例001(02文件夹中) 4.2 CSS偏移反爬虫一般用于

爬取去哪儿网北京南站驴友点评，及词云

Yeoman92的博客

07-25

670

爬取页面截图代码数据抓取 # -*- encoding:utf-8 *-* import urllib.request from lxml import etree import os #获取页面 def get_page(url): page = urllib.request.urlopen(url) html = page.read() ...

python爬虫去哪网数据分析

weixin_52026996的博客

09-03

437

#1.下载去哪网数据 import requests import csv import time from bs4 import BeautifulSoup #定义数据字典 subjects = {"游乐场","自然风光","文化古迹","城市观光"} headers = {"User_Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 S

Python 获取旅游景点信息及评论并作词云、数据可视化

Python学习与数据挖掘

08-27

1771

正所谓：有朋自远方来，不亦乐乎？有朋友来找我们玩，是一件很快乐的事情，那么我们要尽地主之谊，好好带朋友去玩耍！那么问题来了，什么时候去哪里玩最好呢，哪里玩的地方最多呢？今天将手把手教你使用线程池爬取同程旅行的景点信息及评论数据并做词云、数据可视化！！！带你了解各个城市的游玩景点信息。在开始爬取数据之前，我们首先来了解一下线程。......

爬取去哪儿酒店信息及评论

顶锅猫

06-28

1820

爬取去哪儿酒店信息及评论第一步，获取城市列表 import requests import json import codecs # 去哪儿城市列表 url = "https://touch.qunar.com/h-api/hotel/hotelcity/en" s = requests.get(url) file = codecs.open('./city.json','w','utf-8') file.write(s.text) file.close() 运行结果：第二步根据城市列表

潇洒郎：Python爬取"去哪儿网"微信公众号指定年限时间的所有文章信息及文章的所有评论

潇洒郎的博客

09-02

885

潇洒郎：Python爬取"去哪儿网"微信公众号指定年限时间的所有文章信息及文章的所有评论准备工作：由于微信网页版不能登录，不能在浏览器中F12进行抓包分析！所以使用工具Fiddler对PC版微信进行抓包，找到微信公众号的真实地址。我们准备爬取去哪儿公众号，如图，打开PC版微信，进去去哪儿公众号：点击。。。。找到文章，我们复制网址，...

去哪儿网景点评论爬取

10-10

您可以使用Python的爬虫库，例如BeautifulSoup和Requests，来爬取去哪儿网的景点评论。以下是一个简单的示例代码： ```python import requests from bs4 import BeautifulSoup def get_comments(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} response = requests.get(url, headers=headers) soup = BeautifulSoup(response.text, 'html.parser') comments = soup.find_all('div', class_='comments-item') for comment in comments: content = comment.find('span', class_='heightbox').text.strip() print(content) print('---------------------') # 示例URL url = 'https://piao.qunar.com/ticket/detailLight/sightCommentList.json?sightId=24194&index=1&page=1&pageSize=10' get_comments(url) ```