python爬虫爬取免费简历模板实例

3 篇文章 0 订阅
订阅专栏

爬取目标网站https://sc.chinaz.com/jianli/free.html

思路

 

 

 

 

 

 思路捋清,直接上代码

# -*- codeing = utf-8 -*-
# @Time : 2021/7/20 10:13
# @Author : ArthurHuang
# @File : 10_xpath解析案例_站长素材中免费简历模板爬取.py
# @Software : PyCharm
import requests

from lxml import html
etree = html.etree #新版本etree现在需要这样导入

import  os

if __name__ == "__main__":

    url = 'http://sc.chinaz.com/jianli/free_%d.html'
    for page in range(1, 6):  # 循环取前5页,每页20张简历
        # UA伪装:将对应的User-Agent封装到一个字典中
        headers = {
            "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0.4472.77 Safari / 537.36"
        }

        if page == 1:  # 第一页与其余几页的url不同,需要分开写
            new_url = 'http://sc.chinaz.com/jianli/free.html'
        else:
            new_url = format(url % page)

        page_text = requests.get(url=new_url, headers=headers).text
        # 实例化etree对象
        tree = etree.HTML(page_text)

        # 创建一个文件夹保存图片
        if not os.path.exists('./jianliLibs'):
            os.mkdir('./jianliLibs')


        a_list = tree.xpath('//div[@id="container"]/div/a')
        for a in a_list:
            # 获取简历名称列表
            all_titles = a.xpath('./img/@alt')[0]+'.zip'
            all_titles = all_titles.encode('iso-8859-1').decode('utf-8')  # 通用处理中文乱码的解决方案
            #print(all_titles)

            # 获取每个简历对应的单独网页地址
            all_href = 'https:'+a.xpath('./@href')[0]
            response = requests.get(url=all_href, headers=headers)
            resume_data = response.text
            resumetree = etree.HTML(resume_data)
            resume_download_list = resumetree.xpath('//div[@id="down"]/div[2]/ul/li[1]')
            # 每个简历对应的点击下载的地址
            for download in resume_download_list:
                all_downloads = download.xpath('./a/@href')[0]
                resume_rar_page = requests.get(url=all_downloads, headers=headers).content  # 向点击下载的url发送请求,把简历下载到本地
            resume_path = 'jianliLibs/' + all_titles
            with open(resume_path, 'wb')as fp:
                fp.write(resume_rar_page )
                print(all_titles, "下载成功!!!")

成功获取

 

python爬虫 爬取超清壁纸代码实例
09-18
主要介绍了python爬虫学习 爬取超清壁纸代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
爬虫项目二十一:需要简历吗?用Python轻松爬下上千份简历模板
weixin_47163937的博客
04-18 1653
文章目录前言一、获取详情页url二、获取下载链接三、保存模板 前言 用Python对站长之家的上千个简历模板批量爬取保存 提示:以下是本篇文章正文内容,下面案例可供参考 一、获取详情页url 我们进入站长之家的免费模板网站 https://sc.chinaz.com/jianli/free.html 进行翻页观察页面的url变化规律,可以看到其规律就是free后变化的数据 第一页:https://sc.chinaz.com/jianli/free.html 第二页:https://sc.chinaz
网络爬虫爬取简历模板案例
北海的博客
08-02 660
测试期间,只爬取了一页建立,想要爬取所有的简历模板只需要改动url = 'https://sc.chinaz.com/jianli/free.html',加上相应的参数,用循环套起来即可。
Python爬虫爬取简历模板
qq_54346552的博客
09-23 2733
本片博客将带领大家运用xpath技术,从免费简历网站一步步爬取数据。
爬虫简历数据:优劣剖析
oGuJing123的博客
05-14 921
在人才竞争日益激烈的今天,招聘已经成为了企业最头疼的问题之一。而在招聘流程中,人力资源管理者需要收集大量的简历信息,进行筛选、面试和录用等步骤。为了提高效率,许多企业开始使用爬虫技术来采集简历数据。本文将详细介绍如何使用爬虫采集简历数据,并探讨其优缺点。一、爬虫技术概述爬虫是一种自动化工具
爬虫:boss直聘自动投递简历+数据获取
泛泛之素
10-21 2890
boss直聘web端的反爬做得还是不错的,需要通过下载js文件结合浏览器生成token,一时也没太搞明白,所以通过selenium获取数据,顺手把投投简历。 即便是使用selenium也只能获取部分数据,因为获取数据的数量被限制,无论是搜索或是在公司(300条)都限制和获取数据的数目,因此这里有个方向是可以根据推荐进行获取数据 。 还有就是访问长了还会提示要验证,而且那个验证也是比较复杂,人工看有时候都得看半天。 from selenium import webdriver import time from
Python爬虫爬取糗事百科段子实例分享
09-16
在本篇文章里小编给大家整理了关于Python爬虫爬取糗事百科段子实例内容,需要的朋友们可以参考下。
Python爬虫爬取煎蛋网图片代码实例
09-18
主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
Python爬虫——爬取简历模板
最新发布
qq_44777595的博客
11-22 696
以上就是爬取简历模板的全部过程,程序中只爬取了第一、二、三页,如果想获取更多的模板,可以修改for循环翻页中的数字。在程序中,为了分解每个步骤,把各个部分的代码分开写。可以尝试将各个步骤合并起来,比如,获取到模板详情页的URL之后,对该URL发起请求来获取模板的下载地址,再对下载地址发起请求来将文件保存到本地,需要多嵌套几层循环。该网站中还有其他模板,比如ppt、各种类型的图片等等。如果感兴趣可以继续去探索。
python爬虫脚本实现简历模板自由(爬取站长素材简历模板)
python牛犊子
11-28 1244
目标网站:站长素材 抓取要求: 1.根据输入页页码进行抓取响应内容 2.根据页码建立文件夹存储本页内容 3.输出控制台正在抓取的内容 使用到的库: import requests #请求网页 from lxml import html #解析网页源码 import threadpool #多线程 from multiprocessing.pool import Pool #多进程 import os #创建文件夹 完整代码: import requests #请求网页 from lxml import
python用requests库和xpath爬取站长素材的免费简历模板
m0_67274979的博客
07-14 1100
python里的requests和xpath批量下载
简历模板python爬虫
热门推荐
愿十四亿神州尽舜尧
09-27 1万+
先看爬虫得到的简历模板: 具体实现就几十行代码啦,代码如下: import re import os import sys import random import requests from bs4 import BeautifulSoup url = 'http://sc.chinaz.com/jianli/free_' headers = {'User-Agent':'Mozil...
Python爬虫-简历解析
qq_43185059的博客
12-29 1887
本科生简历分析实验知识点实验步骤实验效果图实验代码 实验用到的是Python爬虫技术,实现爬取和可视化的思想有: 实验知识点 使用request.get(url)获取网页的HTML。 对返回回来的HTML代码进行正则表达式匹配提取网页中需要的数据和文本。 正则表达式: re 模块使 Python 语言拥有全部的正则表达式功能。 Python 的 re 模块提供了re.sub用于替换字符串中的匹配项。 re.sub(pattern, repl, string, count=0, flags
python简介怎么写-python爬虫简历怎么写
weixin_37988176的博客
11-01 1599
python爬虫简历怎么写?python爬虫简历如下:1. 基本信息求职岗位:Python爬虫工程师(全职)期望薪资:15000以上姓名:xx手机号码:xxxx邮箱:xxxx@qq.com毕业院校:厦门大学软件学院2.掌握技能1.Python中8种数据类型的精通使用2.Python匿名函数、列表推导式、装饰器的熟练使用3.Python中re、requests、beautifulSoup等库的熟练使...
Python爬取简历模板案例(Xpath方法)
m0_65592409的博客
02-28 989
源码: import requests import os from lxml import etree if not os.path.exists('./简历模板'): os.mkdir('./简历模板') headers={ 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36
1-11 requests模块之爬取简历模板(xpath解析)
ungoing的博客
04-12 204
# 目标网站:https://sc.chinaz.com/jianli/free.html from lxml import etree import requests # 获取网页源代码: def get_page_source_code(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/
Python--爬虫--XPath入门
qq_57663276的博客
10-09 1198
Python--爬虫爬取4)--XPath入门
python爬取简历模板_python爬取简历模板
weixin_39558221的博客
12-19 805
前言临近毕业,设计一份好的,具有个性化的简历是必须的。当然,简历的样式也有很多种,比如单页的,多页的,表格类的…现在我用python中的requests+bs4+正则表达式编写代码爬取网上的简历模板用作参考。数据来源:http://www.gerenjianli.com(个人简历网)简历获取分析网站打开网站我们看到如图所示的界面点击简历模板进入我们所需要的界面如图:图上所示便是我们所需要的简历模板...
Python爬虫(Xpath):批量爬取站长免费简历
qq_43181451的博客
08-16 464
话不多说吧 直接上 from lxml import etree import requests import os # 封装解析下载函数 def cv_down(tree, headers): cv_href = tree.xpath('//div[@class="sc_warp mt20"]/div/div/div/a/@href') for href in cv_href: act_response = requests.get(url=href, header
python爬虫爬取官方公开信息实例
04-08
关于Python爬虫爬取官方公开信息,可以参考以下实例: 1. 爬取百度新闻的标题和链接信息: ```python import requests from bs4 import BeautifulSoup url = "http://news.baidu.com/" response = requests.get...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • RTMP、RTSP、m3u8、flv 区别及含义 6463
  • idea Translation翻译插件失效解决办法 5549
  • JavaScript获取页面加载时间和页面停留时间 3876
  • Java后端返回树形结构数据 3422
  • 关于使用BETWEEN AND 使索引失效的解决方法 3039

分类专栏

  • linux 4篇
  • 流媒体 1篇
  • Java 7篇
  • xxl-job 2篇
  • Web 3篇
  • Git 1篇
  • Android 1篇
  • python 3篇
  • mysql 2篇

最新评论

  • python爬虫爬取4K图片实例

    木叶清风666: 这个还是缩略图吧,只是放大了一点

  • VSCode安装Remote-SSH插件远程连接服务器

    备马、上任鹅城: 填自己的呢

  • python爬虫爬取4K图片实例

    m0_62352358: 这个也不是4K的

  • VSCode安装Remote-SSH插件远程连接服务器

    hanguanga: 服务器地址应该怎么填,是直接照抄吗还是根据自己的ip地址情况,我照抄的时候 不能与那个地址建立连接

  • idea Translation翻译插件失效解决办法

    LETMEGFlxd: 这个也ping通了idea 用不了

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • Centos安装docker
  • Centos安装nginx
  • 关于使用BETWEEN AND 使索引失效的解决方法
2022年20篇
2021年3篇

目录

目录

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司昌都企业网站设计价格常州品牌网站设计哪家好郑州网站设计模板清远百度seo价格黄山网络推广报价海南百姓网标王推广哪家好福永推广网站多少钱内江优化价格盘锦关键词排名包年推广报价河源百姓网标王推广价格绵阳优秀网站设计多少钱郴州seo哪家好铜川网站推广方案推荐海南外贸网站建设报价邵阳建网站公司沙井网站优化推广推荐阿里百度网站优化盘锦网络营销多少钱北京seo报价鞍山企业网站改版价格河源百姓网标王推广推荐思茅推广网站公司双龙网站建设推荐坂田SEO按天收费价格重庆网站推广推荐洛阳阿里店铺托管推荐阜阳SEO按天收费公司本溪网站开发多少钱大浪营销网站推荐鹤壁百度爱采购公司歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化