以【某程旅行】为例,讲述小程序爬虫技术

大家好,我是辰哥~~~

前提:在学习本文采集小程序数据之前,相信大家都掌握了抓取数据包的技能,比如使用Mitmproxy进行抓取数据包。如果看到这里的你还没有掌握的话,可以参与辰哥之前的写的一篇关于mitmproxy使用的文章(实战|手把手教你如何使用抓包神器MitmProxy)。

本文目标:利用Mitmproxy抓取某程小程序景点数据,并实现翻页(下一页)循环爬取。

思路:

1、利用Mitmproxy抓取数据包,并进行分析

2、利用分析的结果,编写Python代码进行提取数据,并进行实现下一页采集

01、mitmproxy抓取数据包

冰彤小说网 https://www.cuer.info

1.启动mitmproxy

先配置好手机的代理IP和启动mitmproxy

在终端中启动mitmweb

mitmweb

在浏览器中查看数据包(输入mitmweb会自动在浏览器中打开网页,如果没有打开的则手动输入)

http://127.0.0.1:8081/#/flows

2.访问小程序

打开同程旅行小程序,点击全部景点

可以看到页面中出现了景点列表:

3.浏览器中查看数据包

上图中红框部分是景点列表的api接口,点击response查看返回的数据。

02、Python解析数据包

1.分析接口

经过分析,发现该接口是没有反爬(签名验证),因此通过这个接口可以直接爬取多页数据,比如修改接口链接中的参数

参数:

page页数

PageSize条数

CityId城市

keyword关键词

...

因此通过修改page就可以获取全部景点数据。

得知接口链接,在python中通过requests请求去获取数据,这种方式我们都会。

import requests
### 获取第1页~第10页数据
for p in range(1,11):
    # 页数
    url = "https://wx.17u.cn/scenery/json/scenerylist.html?PosCityId=78&CityId=53&page="+str(p)+"&sorttype=0&PageSize=20&IsSurrounding=1&isSmallPro=1&isTcSmallPro=1&isEncode=0&Lon=113.87234497070312&Lat=22.90543556213379&issearchbytimenow=0&IsNeedCount=1&keyword=&IsPoi=0&status=2&CityArea=5&Grades=&IsSearchKeyWordScenery=1"
    response = requests.get(url).json()
    print(response)

今天我们用另一种方式去获取数据,这种方式可以用于绕过接口签名验证的反爬,比如sign或者x-sign等签名加密参数。

2.直接解析数据包

相信看了辰哥的这篇文章(实战|手把手教你如何使用抓包神器MitmProxy)的读者都知道,mitmproxy抓取的数据包,除了在浏览器可以查看外,还可以编写的python代码一边抓取数据包,一边进行解析。

先看一下python可以获取数据包的那些数据(下图仅写成部分常用的)

在终端中调用上面的py代码,结果如下:

下面开始真正编写python代码,将景点数据直接保存在txt中。

在chenge.py文件中,修改response函数部分(如上图)

启动程序:

mitmdump.exe -s chenge.py

api接口返回的数据前面包含了:

"state":"100","error":"查询成功"

因此判断响应的数据中包含这个内容说明是含有景点列表的

景点列表数据在json数据的sceneryinfo字段中。我们将字段(name、address、grade)的内容取出来保存到txt文件中,并命名为景点.txt

在小程序中向下滑动,加载更多数据,同时mitmproxy继续抓包,对应的python程序将继续保存数据到txt中。

ps:这里仅讲述技术的使用,就没有去将数据完整爬取下来,并且为了演示数据可以保存,也暂时保存到txt,读者可以根据需要保存到数据库或者excel。

03、小结

本文目标:利用Mitmproxy抓取某程旅行小程序景点数据,并实现翻页(下一页)循环爬取。并且还讲述了如何通过mitmproxy绕过接口签名验证的反爬,比如sign或者x-sign等签名加密参数(虽然本文没有加密参数,但是技术大家可以先掌握,在遇到的时可以使用)

不会的小伙伴,感觉动手练习!!!!最后说一声:原创不易,求给个赞!

damimi00
关注 关注
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
原创网络数据爬取小程序
12-22
面向各种网站的页面信息爬取,包括接口的数据爬取,不用安装,只要有jre运行环境,下载即用,源码在我的博客里,也可以作为工具类在项目中使用,我为第三方建站迈进一小步,你将成功一大步。
户外旅行小程序源码(户外活动)
02-22
户外旅行小程序源码分享,包括:活动组织、行程介绍、消息通知等功能
python爬取小程序数据,python爬微信小程序
最新发布
w666666Wwwwwww的博客
03-24 430
大家好,小编为大家解答python爬取小程序数据的问题。很多人还不知道python爬微信小程序,现在让我们一起来看看吧!大家好,小编来为大家解答以下问题,python爬取微信小程序数据,python爬取小程序数据,现在让我们一起来看看吧!
微信小程序 旅游行业 东航旅行 (源代码+截图)
06-21
微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码+截图)微信小程序 旅游行业 东航旅行 (源代码
微信小程序 面包旅行(截图+源码)
05-13
微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序 面包旅行(截图+源码)微信小程序
微信小程序 东航旅行(截图+源码)
05-11
微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序 东航旅行(截图+源码)微信小程序
爬虫篇-小程序后台数据获取【附源码】
ctu_sue的博客
09-13 4529
内部系统小程序后台爬虫应用,因此没有账号的可以学习思路,有账号的可以考虑实战爬虫
python爬取微信小程序数据,如何爬取小程序数据
yyyqqq_的博客
02-19 2878
最近需要获取微信小程序上的数据进行分析处理,第一时间想到的方式就是采用python爬虫爬取数据,尝试后发现诸多问题,比如无法获取目标网址、解析网址中存在指定参数的不确定性、加密问题等等,经过一番尝试,终于使用 Charles 抓取到指定微信小程序中的数据,本文进行记录并总结。电脑:Windows10,连接有线网手机:iPhone Xr,连接无线网注:有线网与无线网最好位于同一网段下学python什么书比较好python用海龟库画笑脸。
python爬取微信小程序,如何爬取小程序数据
a17348的博客
01-05 3221
这篇文章主要介绍了python爬取微信小程序,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小编带着大家一起了解一下。python爬虫——实战篇2021.7.20晚已更新注:注释和说明已在代码中注释。
python爬取微信小程序数据,python爬取小程序数据
2301_81837718的博客
12-19 2707
最近需要获取微信小程序上的数据进行分析处理,第一时间想到的方式就是采用python爬虫爬取数据,尝试后发现诸多问题,比如无法获取目标网址、解析网址中存在指定参数的不确定性、加密问题等等,经过一番尝试,终于使用 Charles 抓取到指定微信小程序中的数据,本文进行记录并总结。电脑:Windows10,连接有线网手机:iPhone Xr,连接无线网注:有线网与无线网最好位于同一网段下学python什么书比较好。本文有线网网址:192.168.131.24,无线网网址:192.168.210.223。
看完即会,抓取微信小程序数据包教程
热门推荐
主要分享测试的学习资源,帮助快速了解测试行业,帮助想转行、进阶、小白成长为高级测试工程师。
07-08 1万+
最近有很多小伙伴问到能不能抓取到微信小程序数据呢?答案当然是肯定的,通过Fiddler或者Charles这些主流的抓包工具都可以抓得到,在IOS平台抓取微信小程序和https请求都是一样的设置,接下来给大家通过Fiddler演示如何设置在IOS平台端抓取小程序数据包(Charles也是类似)。一般电脑和移动端设备连接到同一个WiFi热点(路由器),就可以保证是在同一局域网中,这里我们可以通过手机设置->无线局域网->选择对应热点,查看设备IP地址:在电脑端通过ping命令去检测下电脑是否能够连接IOS设备:
东航旅行微信小程序源码.rar
07-13
东航旅行微信小程序源码.rar
Python爬取微信小程序Charles实现过程图解
12-16
一、前言 最近需要获取微信小程序上的数据进行分析处理,第一时间想到的方式就是采用python爬虫爬取数据,尝试后发现诸多问题,比如无法获取目标网址、解析网址中存在指定参数的不确定性、加密问题等等,经过一番尝试,终于使用 Charles 抓取到指定微信小程序中的数据,本文进行记录并总结。 环境配置: 电脑:Windows10,连接有线网 手机:iPhone Xr,连接无线网 注:有线网与无线网最好位于同一网段下。 本文有线网网址:192.168.131.24,无线网网址:192.168.210.223 二、Charles配置与使用 1.Charles简介 Charles,一个HTTP代理服务
python爬取微信小程序(实战篇)_python爬取猫眼的前100榜单并展示在微信小程序
weixin_39672194的博客
12-10 541
首先分析要爬取的网页,对其结构及数据获取方式解析后,可采用正则筛选自己要的数据猫眼榜单.pngimport requestsfrom requests.exceptions import RequestExceptiondef get_one_page(url):try:response = requests.get(url)if response.status_code == 200:retur...
Python爬虫系列之微信小程序药品数据多线程爬取
Packager
09-19 1722
Python爬虫系列之微信小程序药品数据多线程爬取 小程序爬虫接单、app爬虫接单、网页爬虫接单、接口定制、网站开发、小程序开发 > 点击这里联系我们 < 代码仅供学习交流,请勿用于非法用途 一、准备数据库 create database drugs_; use drugs_; create table `drug`( `id` int primary key auto_in...
爬虫中的那些反爬虫措施以及解决方法
神秘的凯
12-07 5401
 在爬虫中遇到反爬虫真的是家常便饭了,这篇博客我想结合我自己的经验将遇到过的那些问题给出来,并给出一些解决方案。 1、UserAgent   UserAgent的设置能使服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本等信息。对于一些网站来说,它会检查我们发送的请求中所携带的UserAgent字段,如果非浏览器,就会被识别为爬虫,一旦被识别出来, 我们的爬虫也就无法正常爬取数据了。 解决方法   收集常见的useragent作为配置文件,每次访问的时候取出一个作为头部发送请求,需要
(最详细)Charles+Burp+手机联动抓取WX小程序/公众号数据包
Arched的博客
01-24 6195
Charles+Burp+手机联动抓取WX小程序/公众号数据包
爬虫 全国建筑市场监管服务平台(四库一平台) 小程序数据抓取
tngou的博客
08-01 2568
原来发了几遍文章关于 全国建筑市场监管公共服务平台(四库一平台)平台的网站数据采集和抓取: 建筑资质爬虫抓取-全国建筑市场监管公共服务平台(一)入门篇 建筑资质爬虫抓取-全国建筑市场监管公共服务平台(二)-接口篇 新版建筑市场(四库一平台)抓取最新信息(爬虫) 最近发现 建筑市场监监管平台推出了自己的小程序《全国建筑市场监管服务平台》。 在使用过程中,发现没有前端的辅助验证码,和一些访问的现在,于是就研究如何通过小程序来抓取数据,经过的学习和研究基本完成的数据的采集和...
python爬虫抓包
09-15
Python爬虫抓包是指使用Python编写程序来模拟浏览器发送请求,并获取返回的数据和信息。通过抓包可以获取网页的内容、图片、视频等资源,以及网页的响应状态码、头部信息等。 要实现Python爬虫抓包,可以使用以下步骤: 1. 安装requests库:使用pip工具安装requests库,该库是Python中用于发送HTTP请求的常用库。 2. 导入requests库:在Python程序中导入requests库,以便使用其中的功能。 3. 发送HTTP请求:使用requests库中的get()方法来发送GET请求。通过传入目标网页的URL作为参数,可以向目标网站发送请求,并获取返回的响应对象。 4. 获取响应内容:通过访问响应对象的text属性,可以获取到网页的HTML内容。如果需要获取其他类型的资源,可以使用响应对象的content属性。 5. 解析网页内容:如果需要从网页中提取特定的信息,可以使用相关的解析库,如BeautifulSoup、lxml等。这些库可以帮助我们解析网页的HTML结构,从中提取出需要的数据。 6. 设置请求头:为了模拟浏览器的行为,可以设置请求头中的关键内容,如User-Agent、Cookie等。这样可以使得请求更像是来自于浏览器,提高爬取数据的成功率。 综上所述,可以使用Python中的requests库来发送HTTP请求,并通过解析网页内容来实现爬虫抓包的功能。在编写代码时,可以参考使用json.dumps()函数将字典转化为JSON格式,以及使用urllib.parse模块中的urlencode函数来进行URL编码的操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • ClickHouse与ES的优劣对比 14339
  • 简易的服务器接口开发入门教程 3101
  • 一文读懂Spring动态配置多数据源---源码详细分析 2949
  • Python3中datetime不同时区转换介绍与踩坑 2339
  • .Net Core 3.1简单搭建微服务 1822

最新评论

  • 简易的服务器接口开发入门教程

    小星星o: 很棒,可以学着做出基础接口

  • 66.QT-线程并发、QTcpServer并发、QThreadPool线程池

    橘皮遇上柚子皮: 老哥好像接收使用这个接收不到数据。

  • .Net Core 3.1简单搭建微服务

    weixin_46117976: https://www.cnblogs.com/w821759016/p/14964628.html

  • Hive SQL语句的正确执行顺序

    qq_36605766: 大哥 你这是原封不到的照搬啊

  • .Net Core 3.1简单搭建微服务

    sunnf: 原文件的链接,有吗

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • WanJetpack项目:用Jetpack实现玩Android,追求最官方的实现方式
  • 一张图带你搞懂Javascript原型链关系
  • Salesforce Integration 概览(三) Remote Process Invocation—Fire and Forget(远程进程调用-发后即弃)
2021年58篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司南联网站优化按天收费报价白山SEO按效果付费抚顺关键词按天扣费柳州外贸网站设计价格张家界百度网站优化价格承德网站设计模板报价垦利企业网站改版多少钱茂名网站排名优化推荐丹竹头seo推荐爱联网络营销宜昌推广网站烟台百度爱采购报价荷坳营销网站观澜百度标王安阳网页制作价格张家口设计公司网站价格梧州网页制作公司济宁优秀网站设计报价金昌企业网站制作价格黑河百度标王公司天水建设网站价格临夏建网站伊春百姓网标王宜春网站优化按天计费推荐坪地设计公司网站报价信阳网站推广哪家好黄山网站排名优化价格通化网站推广方案推荐玉林关键词按天收费价格淮南网站优化按天计费哪家好歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化