Python爬虫——入门爬取网页数据

news/2024/5/29 23:37:28/

目录

前言

一、Python爬虫入门

二、使用代理IP

三、反爬虫技术

1. 间隔时间

2. 随机UA

3. 使用Cookies

四、总结


前言

本文介绍Python爬虫入门教程,主要讲解如何使用Python爬取网页数据,包括基本的网页数据抓取、使用代理IP和反爬虫技术。

一、Python爬虫入门

Python是一门非常适合爬虫的编程语言。它具有简单易学、代码可读性高等优点,而且Python爬虫库非常丰富,使用Python进行爬虫开发非常方便。

我们先来看一个简单的Python爬虫程序,爬取一个网页的标题:

import requests
from bs4 import BeautifulSoup# 发送HTTP请求
url = 'http://www.baidu.com/'
response = requests.get(url)# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title# 输出结果
print('网页标题:', title.string)

在这个程序中,我们使用了requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML文档。通过这两个库,我们可以轻松地获取网页数据,进而进行数据分析和处理。

二、使用代理IP

有些网站可能会封禁某个IP地址,这时我们需要使用代理IP来隐藏真实IP地址。使用代理IP的方法很简单,只需向requests库的get()或post()方法传递proxies参数即可。

下面是一个使用代理IP的Python爬虫程序,爬取一个网站的代理IP:

import requests
from bs4 import BeautifulSoup# 设置代理IP
proxies = {'http': 'http://127.0.0.1:8080','https': 'http://127.0.0.1:8080'
}# 发送HTTP请求
url = 'http://www.zdaye.cn/freeproxy.html'
response = requests.get(url, proxies=proxies)# 解析HTML文档
soup = BeautifulSoup(response.text, 'html.parser')
trs = soup.select('.table tbody tr')# 输出结果
for tr in trs:tds = tr.select('td')ip = tds[0].stringport = tds[1].stringprint('{}:{}'.format(ip, port))

在这个程序中,我们设置了一个代理IP,然后使用requests库发送HTTP请求,传递了proxies参数。接着我们解析HTML文档,使用BeautifulSoup库找到了代理IP,并输出了结果。

三、反爬虫技术

有些网站为了防止被爬虫抓取,会采取一些反爬虫技术,如设置限流、验证码等。为了绕过这些反爬虫技术,我们需要使用一些技巧。

1. 间隔时间

我们可以通过设置间隔时间来减小对目标网站的压力,缓解反爬虫措施带来的影响。代码实现如下:

import requests
import time# 发送HTTP请求
url = 'http://www.baidu.com/'
while True:response = requests.get(url)print(response.text)time.sleep(5)  # 每隔10秒钟发送一次请求

在这段代码中,我们使用了time库来让程序等待5秒钟,然后再继续发送HTTP请求。

2. 随机UA

有些网站会根据User-Agent来判断是否是爬虫程序,我们可以通过随机User-Agent的方法,来让我们的爬虫程序更难被发现。代码实现如下:

import requests
from fake_useragent import UserAgent# 获取随机User-Agent
ua = UserAgent()
headers = {'User-Agent': ua.random
}# 发送HTTP请求
url = 'http://www.baidu.com/'
response = requests.get(url, headers=headers)
print(response.text)

在这段代码中,我们使用了fake_useragent库来生成随机的User-Agent,然后将其设置到HTTP请求的headers中。

3. 使用Cookies

有些网站会根据用户的Cookies来判断是否是爬虫程序,我们可以通过获取网站的Cookies,然后将其设置到我们的爬虫程序中,来伪装成正常用户。代码实现如下:

import requests# 发送HTTP请求
url = 'http://www.baidu.com/'
response = requests.get(url)# 获取Cookies
cookies = response.cookies# 设置Cookies
headers = {'Cookies': cookies
}# 发送HTTP请求
url = 'http://www.baidu.com/'
response = requests.get(url, headers=headers)
print(response.text)

在这段代码中,我们先发送HTTP请求获取了网站的Cookies,然后将其设置到HTTP请求的headers中。

四、总结

本文介绍了Python爬虫入门教程,主要讲解了如何使用Python爬取网页数据,使用代理IP和反爬虫技术等技巧。通过学习本文,您可以轻松地掌握Python爬虫开发的基本技巧,从而更加高效地进行数据采集和处理。


http://www.ppmy.cn/news/1209496.html

相关文章

班级新闻管理系统asp.net+sqlserver

班级新闻管理系统asp.net+sqlserver

班级新闻管理系统 附加功能 新闻图片,点击次数访问自增,每个人都只能增删改查自己发布的新闻,并可以看到所有人发布的新闻 运行前附加数据库.mdf(或sql生成数据库) 主要技术: 基于asp.net架构和sql serve…
阅读更多...
企业年会/年终活动如何邀请媒体记者报道?

企业年会/年终活动如何邀请媒体记者报道?

​媒体邀约是企业或组织进行宣传的重要手段之一。通过邀请媒体参加活动,可以增加活动的曝光度和知名度,吸引更多的关注和参与。同时,媒体报道还可以提高企业或组织的权威性和可信度,从而让公众更容易接受其传达的信息。 企业年会或…
阅读更多...
9 mysql调优

9 mysql调优

1、优化数据访问 查询性能低下的原因是访问的数据太多,原因通常是: 1.通常是访问了太多的行,尤其是没有必要的行,或者是访问了太多的列。 2.确认MySQL服务器层分析是否存在大量超过需要的数据行。这些不必要的查询,给…
阅读更多...
开机自启动笔记本的小键盘

开机自启动笔记本的小键盘

虽然电脑开机次数不多,但每次开机都要摁下小键盘的开关,好烦 终于忍不住了: 将下面文件命名为 XXX.bat echo off rem 禁用批处理文件中的命令回显,以使输出更整洁rem 查询注册表中 "InitialKeyboardIndicators" 的值 r…
阅读更多...
No source control providers registered

No source control providers registered

使用vscode时碰到这个问题 git扩展没启动
阅读更多...
Exploration by random network distillation论文笔记

Exploration by random network distillation论文笔记

Exploration by Random Network Distillation (2018) 随机网络蒸馏探索 0、问题 这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别? 猜想:本文是基于随机网络蒸馏提出的intrin…
阅读更多...
RK3399平台开发系列讲解(内存篇)free 命令查看内存占用情况介绍

RK3399平台开发系列讲解(内存篇)free 命令查看内存占用情况介绍

🚀返回专栏总目录 文章目录 一、free的使用二、free的内容📢free 指令会显示内存的使用情况,包括实体内存,虚拟的交换文件内存,共享内存区段,以及系统核心使用的缓冲区等。 一、free的使用 -b  以 Byte 为单位显示内存使用情况。-k  以 KB 为单位显示内存使用情况。…
阅读更多...
【算法】算法题-20231111

【算法】算法题-20231111

一、409. 最长回文串 简单 给定一个包含大写字母和小写字母的字符串 s ,返回 通过这些字母构造成的 最长的回文串 。 在构造过程中,请注意 区分大小写 。比如 “Aa” 不能当做一个回文字符串。 示例 1: 输入:s “abccccdd” 输出:7 解释: 我们可以构…
阅读更多...
FPGA UDP RGMII 千兆以太网(3)ODDR

FPGA UDP RGMII 千兆以太网(3)ODDR

1 xilinx原语 在 7 系列 FPGA 中实现 RGMII 接口需要借助 5 种原语,分别是:IDDR、ODDR、IDELAYE2、ODELAYE2(A7 中没有)、IDELAYCTRL。其中,IDDR和ODDR分别是输入和输出的双边沿寄存器,位于IOB中。IDELAYE2和ODELAYE2,分别用于控制 IO 口输入和输出延时。同时,IDELAYE2 …
阅读更多...
赛宁网安入选国家工业信息安全漏洞库(CICSVD)2023年度技术组成员单

赛宁网安入选国家工业信息安全漏洞库(CICSVD)2023年度技术组成员单

近日,由国家工业信息安全发展研究中心、工业信息安全产业发展联盟主办的“2023工业信息安全大会”在北京成功举行。 会上,国家工业信息安全发展研究中心对为国家工业信息安全漏洞库(CICSVD)提供技术支持的单位授牌表彰。北京赛宁…
阅读更多...
Angular 由一个bug说起之一:List / Grid的性能问题

Angular 由一个bug说起之一:List / Grid的性能问题

在angular中,MatTable构建简单,使用范围广。但某些时候会出现卡顿 卡顿情景: 1:一次性请求太多的数据 2:一次性渲染太多数据,这会花费CPU很多时间 3:行内嵌套复杂的元素 4:使用过多的…
阅读更多...
Wix使用velo添加Google ads tag并在form表单提交时向谷歌发送事件

Wix使用velo添加Google ads tag并在form表单提交时向谷歌发送事件

往head里加代码时,不能看谷歌的代码,要看wix的代码,不然必定踩坑 https://support.wix.com/en/article/tracking-google-ads-conversions-using-wix-custom-code 这里的代码才对,因为wix搞了个velo,这个velo很傻x&am…
阅读更多...
uniapp+vue3+ts+vite+echarts开发图表类小程序,将echarts导入项目使用的详细步骤,耗时一天终于弄好了

uniapp+vue3+ts+vite+echarts开发图表类小程序,将echarts导入项目使用的详细步骤,耗时一天终于弄好了

想在uniapp和vue3环境中使用echarts是一件相当前卫的事情,官方适配的还不是很好,echarts的使用插件写的是有些不太清晰的,这里我花费了一天的时间,终于将这个使用步骤搞清楚了,并且建了一个仓库,大家可以直…
阅读更多...
【蓝桥杯选拔赛真题17】C++时间换算 第十二届蓝桥杯青少年创意编程大赛C++编程选拔赛真题解析

【蓝桥杯选拔赛真题17】C++时间换算 第十二届蓝桥杯青少年创意编程大赛C++编程选拔赛真题解析

目录 C/C++时间换算 一、题目要求 1、编程实现 2、输入输出 二、算法分析 <
阅读更多...
【广州华锐互动】太空探索VR模拟仿真教学系统

【广州华锐互动】太空探索VR模拟仿真教学系统

随着科技的不断发展&#xff0c;人类对宇宙的探索欲望愈发强烈。火星作为距离地球最近的行星之一&#xff0c;自然成为了人类关注的焦点。近年来&#xff0c;火星探测取得了一系列重要成果&#xff0c;为人类了解火星提供了宝贵的信息。然而&#xff0c;实地考察火星仍然面临着…
阅读更多...
跨时钟域(Clock Domain Crossing,CDC)

跨时钟域(Clock Domain Crossing,CDC)

本文参考&#xff1a;http://t.csdnimg.cn/VHga2 【数字IC基础】跨时钟域&#xff08;CDC&#xff0c;Clock Domain Crossing&#xff09;_ReRrain的博客-CSDN博客 同步设计&#xff1a;所有设计使用同一时钟源&#xff0c;频率相位可预知。 异步设计&#xff1a;设计中有两…
阅读更多...
原型制作神器ProtoPie的使用Unity与网页跨端交互

原型制作神器ProtoPie的使用Unity与网页跨端交互

什么是ProtoPie&#xff1f; ProtoPie是一款面向设计师的软件原型设计工具&#xff0c;例如制作App界面交互展示&#xff0c;制作好的原型可以一键发布到Web服务器&#xff0c;就可以浏览器访问。由于其内置了大量常用交互类型&#xff0c;以及"程序化"模块&#xf…
阅读更多...
竞赛选题 深度学习疲劳检测 驾驶行为检测 - python opencv cnn

竞赛选题 深度学习疲劳检测 驾驶行为检测 - python opencv cnn

文章目录 0 前言1 课题背景2 相关技术2.1 Dlib人脸识别库2.2 疲劳检测算法2.3 YOLOV5算法 3 效果展示3.1 眨眼3.2 打哈欠3.3 使用手机检测3.4 抽烟检测3.5 喝水检测 4 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; **基于深度学习加…
阅读更多...
学者观察 | 数字经济中长期发展中的区块链影响力——清华大学柴跃廷

学者观察 | 数字经济中长期发展中的区块链影响力——清华大学柴跃廷

导语 区块链是一种全新的分布式基础架构与计算范式&#xff0c;既能利用非对称加密和冗余分布存储实现信息不可篡改&#xff0c;又可以利用链式数据结构实现数据信息可溯源。当前&#xff0c;区块链技术已成为全球数据交易、金融结算、国际贸易、政务民生等领域的信息基础设施…
阅读更多...
LeetCode(6)轮转数组【数组/字符串】【中等】

LeetCode(6)轮转数组【数组/字符串】【中等】

目录 1.题目2.答案3.提交结果截图 链接&#xff1a; 189. 轮转数组 1.题目 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数。 示例 1: 输入: nums [1,2,3,4,5,6,7], k 3 输出: [5,6,7,1,2,3,4] 解释: 向右轮转 1 步: [7,1…
阅读更多...
最新文章

深圳SEO优化公司咸宁模板推广多少钱晋中seo优化多少钱遵义网站优化排名报价爱联推广网站哪家好铜仁品牌网站设计酒泉百度seo推荐通化营销网站价格安顺网站改版推荐北海网站制作设计哪家好大鹏网站设计推荐重庆关键词按天收费推荐安庆网站制作设计价格沧州网站推广方案佛山网站推广系统玉树网站建设价格铜陵百度网站优化排名公司洛阳网站改版多少钱咸宁网站优化按天计费推荐恩施品牌网站设计宁德建网站多少钱伊犁高端网站设计多少钱伊春网站优化软件推荐运城网站制作公司大运百度关键词包年推广哪家好金昌英文网站建设公司宜昌建网站推荐贵阳网站设计模板推荐金华百度竞价包年推广咸宁营销型网站建设报价大同网站推广工具多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化