python爬虫——requests+xpath 爬取8684公交查询网站

最新推荐文章于 2024-04-14 07:15:00 发布

独听钟声晚

最新推荐文章于 2024-04-14 07:15:00 发布

阅读量3.5k

点赞数 3

分类专栏： python爬虫

本文链接： https://blog.csdn.net/weixin_44321116/article/details/104294550

版权

一.分析网站

url =  'http://xian.8684.cn/'

1.第二层路线xpath：

# 查找以数字开头的所有链接
    number_href_list = tree.xpath('//div[@class="list"][1]/a/@href')
    # 查找以字母开头的所有链接
    char_href_list = tree.xpath('//div[@class="list"][2]/a/@href')

2.准确路线xpath：

 route_list = tree.xpath('//div[@class="list clearfix"]/a/@href')

3.提取所需要爬取的内容：

3.1获取公交信息：

 bus_number = tree.xpath('//div[@class="info"]/h1/text()')[0]

3.2 获取运行时间：

run_time = tree.xpath('//ul[@class="bus-desc"]/li[1]/text()')[0]

3.3获取更新时间：

    laster_time = tree.xpath('//ul[@class="bus-desc"]/li[4]/text()')[0]

3.4获取上行总站数:

    up_total = tree.xpath('//div[@class="layout-left"]/div[4]/div/div[@class="total"]/text()')[0

立减 ¥

3
点赞
踩
35

收藏

觉得还不错? 一键收藏
5
评论
python爬虫——requests+xpath 爬取8684公交查询网站

一.分析网站url = 'http://xian.8684.cn/'1.第二层路线xpath：# 查找以数字开头的所有链接 number_href_list = tree.xpath('//div[@class="list"][1]/a/@href') # 查找以字母开头的所有链接 char_href_list = tree.xpath('//div[@cl...
复制链接

扫一扫

专栏目录

【Python爬虫】爬取公共交通站点数据

HenryAnChen的博客

05-24

4028

代码结合8684网站和高德地图爬取公共交通站点的经纬度。

python 爬虫小案例８６８４网站爬取北京公交路线站点信息。

我是菜鸡我不敢睡的博客

04-08

4734

基于Ｐｙｔｈｏｎ　在８６８４网站爬取北京公交路线的信息，包括站点，站点的经纬度，路线的描述，票价等信息。

5 条评论您还未登录，请先登录后发表或查看评论

Python实战：简单实践公交路线查询

最新发布

oandy0的博客

04-14

385

可以处理和查询起点和终点的公交路线，并返回最优的路线规划结果。在实际应用中，公交路线查询系统可以应用于公共交通网站、手机应用程序等。

爬取城市公交站点数据的一篇保姆级教程

小一的博客

11-18

1819

大家好，我是小一萧萧的风在瑟瑟的吹，还是可以穿短袖的深圳，似乎也即将会变天前几天，有一个读者在和我交流技术的时候，提出了一个小小的问题这其实是一个很简单的事情，搁在之前，我早就分分钟写个脚...

Python爬取公交车数据（一）：Requests+JSON网络站点爬取8684公交站点公交站台数据

ZesenYuan的博客

07-05

3688

文章目录爬取内容分析爬取代码实现代码运行结果清洗代码实现代码实现效果完整代码爬取内容分析我们首先打开8684手机网页端在这里，我输入了B22并准备点击查询，在此之前记得打开开发者模式看一下网页的请求我们已经成功请求到了数据在开发者模式中，我们可以看到它是使用get方法获取数据的可以看到这里的headers没有cookies，说明我们不用将cookies给放进去救可以爬取了，还要注意的就是我们的headers，将这两个放进我们的代码中并请求便可以获取数据了爬取代码实现代码首先呢我们来

使用python爬取8684.cn公交信息

i先生

11-05

2817

使用库如果库缺失请自行下载 import requests import time from bs4 import BeautifulSoup import json 源码 import requests import time from bs4 import BeautifulSoup import json headers = { 'User-Agent': 'Mozilla...

公交联想（一）掌上公交 APP 接口分析

奋斗

07-31

4023

不知道什么时候起，有款这样的公交 APP，平时用来查看公交车在哪一站、大概什么时候到，着实方便了本地人的出行。今日对这款应用起了兴趣，便打算开始分析，猜想：是否能够统计各时间段下某两站之间行驶所用时间，存储并处理一周以内的数据，结合节假日信息做出较准确的时间预测，并且可以为此做一份分析报告也是挺有趣的事。如果要我来写接口，我大概会给每个站点进行标号，在服务...

电商网站python爬虫(selenium+xpath+peewee)

06-30

电商网站python爬虫过程说明： 1. selenium以chromedriver驱动chrome浏览器打开目标站（真浏览器，比curl或requests访问更难被察觉） 2. beautifulsoup4解析结果dom，提取有用字段 3. peewee存结果到数据库 4. 同时...

Python爬虫课程作业，requests+xpath学习

05-08

能学到什么：Python爬虫基础，requests基础，xpath数据提取。适用人群：软件开发与爬虫学习人群，具有一定的编程技术使用场景：爬虫学习与研究阅读建议：此资源在于综合学习Python爬虫技术，不仅是代码编写实现也...

Python爬虫基础之requests+xpath解决动态加载问题（四）-附件资源

03-05

Python爬虫基础之requests+xpath解决动态加载问题（四）-附件资源

Python使用requests xpath 并开启多线程爬取西刺代理ip实例

09-17

主要介绍了Python使用requests xpath 并开启多线程爬取西刺代理ip实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

公交线路爬虫（基于Selenium）

weixin_34205076的博客

04-08

193

今天上传一个关于公交线路爬虫的代码。话不多说，直接讲思路：对网站进行分析，分析URL--------->定位“切换城市”并点击------>根据输入的字符串进行定位城市并点击，定位不到返回错误信息------->获取对应城市的公交线路的各个分类------->对各个分类进行点击，获取分类下的每一个线路的链接，并存入字典中------>循环访问每一个链接，并且把匹配...

Python爬虫实战之xpath解析

热门推荐

阿浩的博客

08-01

4万+

XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。

爬虫之 requests 库爬取公交信息

沉觞的博客

09-06

688

爬虫之 requests 库爬取公交信息爬取公交的信息1、根据第一级页面链接获取第二级链接2、进入第二级页面链接爬取公交的信息广州公交网站 https://guangzhou.8684.cn/ 抓取广州市所有的公交信息 1、根据第一级页面链接获取第二级链接右键检查元素最初的页面的url是点击字母或数字进入下级页面时url的变化所以通过正则匹配url,拼接url 2、进入第二级页面链接同样查找规律用xpath插件查找所需的内容然后进入第三级链接获取最终的信息 gongjiao

python爬取全国公交线路---bs4方法

Dream____Fly

08-20

1548

这里主要讲了bs4解析方法和json方法，以8684网页为例子，爬取了全国公交线路 import requests import time from bs4 import BeautifulSoup import json from xpinyin import Pinyin headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;...

Python爬虫（一）--城市公交网络站点数据的爬取

打酱油的葫芦娃

04-14

4万+

本博文的目的是利用Python爬虫实现对整个城市公交网络站点数据的爬取存储，爬取的站点为http://beijing.8684.cn/，解析html文档使用的是BeautifulSoup。

在Python中使用Xpath进行数据爬取的案例

mangguochang的专栏

11-05

1510

#!/usr/bin/evn python # -*- coding:utf-8 -*- import urllib2 import urllib from lxml import etree class proxyObj: proxyService=""; proxyPort="" proxyHttp="http" proxy_headers={ "User-Agent": ...

Python爬虫之xpath的基本使用（解析HTML详细介绍）

废人一枚的博客

02-29

3万+

尽情等待，很快就会更新，谢谢大家的观看。

Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息

05-23

好的，下面是一个简单的 Python 爬虫程序，使用 lxml 解析器爬取汽车之家二手车信息： ```python import requests from lxml import etree url = "https://www.che168.com/china/used/" response = requests.get(url) html = etree.HTML(response.text) car_list = html.xpath("//ul[@class='viewlist_ul']/li") for car in car_list: title = car.xpath(".//a[@class='carinfo_title']/text()")[0] price = car.xpath(".//p[@class='carinfo_price']/text()")[0] km = car.xpath(".//p[@class='carinfo_km']/text()")[0] year = car.xpath(".//p[@class='carinfo_year']/text()")[0] print(title, price, km, year) ``` 这段代码会先发送一个 GET 请求获取汽车之家二手车页面的 HTML 内容，然后使用 lxml 解析器解析 HTML，并通过 XPath 表达式获取到每辆二手车的标题、价格、公里数和年份信息。最后，将这些信息打印出来。需要注意的是，如果要获取更多的二手车信息，可以通过修改 URL 中的参数来实现。例如，将 URL 修改为 `https://www.che168.com/china/used/o1s2i7`，可以获取到所有价格在 2 万元以下、公里数在 7 万公里以下的二手车信息。