全网搜索一个人的痕迹,爬取百度搜索结果

20 篇文章 24 订阅
订阅专栏
作者有话说

小编今天就想全网搜索一个人的痕迹,看看能不能得到我想要的。
思路:

  1. python爬虫(爬取百度网站),输入 姓名
  2. 爬虫结果写入txt文件
  3. 得到的txt文件中,含有大量重名,或者其他一些脏数据
  4. ctrl+F,输入这个人的其他关键词 ,如:国网重庆。
  5. 定义到具体位置,复制位置前的网址,然后在浏览器打开,即可浏览到这个人的信息。
  6. 如果关键词搜索不到这个人,说名这个人还未在互联网上留下痕迹。

网址分析

复制网址

在这里你会看到,明明在浏览器URL栏看到的是中文,但是复制url,粘贴到记事本或代码里面,就会变成上面这样?)
在很多网站的URL中对一些get的参数或关键字进行编码,所以我们复制出来的时候,会出现问题。但复制过来的网址可以直接打开。本例子不用管这个。
那么,怎样才能自动爬取第一页以外的其他页面,打开第三页,网页地址如下,分析发现和第一页区别在于:第一页最后pn=10,第三页pn=20
我们可以想到自动获取多个网页的方法,可以for循环实现,每次循环后,pn+10

审查元素 发现内容区 和单个内容区见图

代码
python
不解释代码


from bs4 import BeautifulSoup
import numpy as np
import requests
from requests.exceptions import  RequestException
import pandas as pd
import re


#读取网页
def craw(url,page):
    try:

        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36"}
        html1 = requests.request("GET", url, headers=headers,timeout=10, verify=False)
        html1.encoding ='utf-8' # 加编码,重要!转换为字符串编码,read()得到的是byte格式的
        html=html1.text

        return html
    except RequestException:#其他问题
        print('读取error')
        return None
#解析网页并保存数据到表格
def pase_page(url,page):
    html=craw(url,page)
    html=str(html)
    if len(html)>10:
        soup = BeautifulSoup(html, 'lxml')
        shangping=soup.select('#content_left .result.c-container.new-pmd')#所有内容div

        for li in shangping:#遍历每一个内容

            " 网址"

            website=str(li.select('.t'))
            web=str(re.findall('href=(.* )target',website))


            " 内容标题"
            title=str(re.findall('target(.*)</a>',website))
            title=re.sub('[_blank,=,em,<,,">]','',title)#删除一些奇怪字符

            " 内容"
            content=str(li.select('.c-abstract'))
            content=re.sub('[divclasscabstractem,em,<,=,"-",>,-,/]','',content)#剔除一些奇怪的字符
            #content=remove_punctuation(content)
            #content=content.apply(remove_punctuation)

            " 写入txt"
            with open('百度搜索.txt','a',encoding='utf-8')as c:
                c.write(web+'\n')
                c.write(title+'\n')
                c.write(content+'\n')



for i  in range(10,650,10):#遍历网页10,。。。。。#查看末页网址,发现最后pn=650
    print(i)
    url='https://www.baidu.com/s?wd=%E4%BD%99%E7%99%BB%E6%AD%A6&pn='+str(i)+'&oq=%E4%BD%99%E7%99%BB%E6%AD%A6&tn=56080572_3_hao_pg&ie=utf-8&usm=1&rsv_idx=2&rsv_pq=ffcc5d4d00001b62&rsv_t=49ac9CnXhelNWIZNsv%2B236pf8b0c4gpk9tfUY%2BXO5jIYkgpRGSEri7Kz6r%2Byy%2FQz9qfrtUnb25E'
#url='https://www.baidu.com/s?wd=%E4%BD%99%E7%99%BB%E6%AD%A6&pn=20&oq=%E4%BD%99%E7%99%BB%E6%AD%A6&tn=56080572_3_hao_pg&ie=utf-8&usm=1&rsv_idx=2&rsv_pq=ffcc5d4d00001b62&rsv_t=49ac9CnXhelNWIZNsv%2B236pf8b0c4gpk9tfUY%2BXO5jIYkgpRGSEri7Kz6r%2Byy%2FQz9qfrtUnb25E'
    pase_page(url,i)


结果文件夹

我知道这个人的其中一个关键词:国网重庆
ctrl+F 查找 。即可定位到具体位置。然后复制位置前面的网址即可查找到这个人。

这里就不文本分析这个人啦(毕竟这个人很重要。)

当然可以爬取其他人,自己修改下url 就是
在这里插入图片描述

作者:电气-余登武

四小时学python爬虫爬取信息系列(第一天)
visual_eagle的博客
05-27 6670
六小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda activate py36 //进入我的py36环境 pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple //安装requests库 电脑python流程:直接cmd,输入下面命令,可能会提示你升级pip ,可
Python 爬虫“王者”:微博信息爬取
人生苦短, 还不用Python?
09-28 3890
这里的微博爬虫,我主要实现的是输入你关心的某个大 V 的微博名称,以及某条微博的相关内容片段,即可自动爬取相关该大 V 一段时间内发布的微博信息和对应微博的评论信息。 Cookie 获取 与上面的 Boss 直聘网站类似,爬取微博也需要获取响应的 cookie。 用浏览器打开微博页面,拷贝出对应的 Cookie,保存到本地。 微博搜索 既然是某位大 V,这里就肯定涉及到了搜索的事情,我们可以先来...
vlookup 2张表 显示na_12个最新Vlookup函数示例大全,再不收藏就是你的错了!
weixin_39870664的博客
11-13 647
Vlookup函数的教程网上已非常多了,而贴近工作用的Vlookup函数应用示例却很少。今天给同学们带来一期Vlookup函数示例大全,希望能给大家的工作带来帮助。【例1】查找个人信息=VLOOKUP($B18,$C$7:$H$15,COLUMN(B1),0)注:Colum(b1)的结果是2,当公式向右复制时可以生成3,4,5,..【例2】合并两个表格F2单元格公式=VLOOKUP(B2,$B$1...
PC 微信 Hook 实战记录 1: 找到个人信息
weixin_30230009的博客
12-07 4055
前言4 个月前,自己着迷于微信逆向方面的技术,一是因为公司要做客服微信关键词屏蔽过滤,二是自己觉得很有意思,所以研究了一段时间,记录了一些简单的笔记,分...
一个人的所有微博 python_听说想了解一个人要从爬取她(他)的所有微博开始呢~...
weixin_39762075的博客
11-29 553
原文链接听说想了解一个人要从爬取她(他)的所有微博开始呢~​mp.weixin.qq.com导语既然你已经点进来了,那我就直说吧,标题其实是我瞎编的,但套路你点进来学习的我是真心的。前两天发了篇文章:从阅读量可以看出来了,很多小伙伴对这玩意并不感兴趣。看来还是得多回归回归老本行,写点有趣的脚本,才能套路各位过来学习呀。今天的小目标是写个小爬虫爬取目标用户发的所有微博数据。废话不多说,让我们愉快地...
爬虫】案例01:爬取搜索网站搜索结果数据
我的数据分析师之路
03-12 2788
案例01:爬取搜索网站搜索结果,写入Excel 古人云:“问君能有几多愁,恰似一群爬虫在爬网。” 但现在的我们可以说:“学爬虫,就像打怪升级一样,一步一步,勤学多练才能变得更强!下面就开始爬虫的第一个案例练习吧,获取搜索结果要涉及requests、beautiful soup、pandas等知识点,非常适合刚入门python爬虫的小伙伴练习。
爬虫实战(三)
m0_64357419的博客
03-17 9182
需要注意的是,爬取多个页面时,我们需要使用循环来遍历每个页面,并将每个页面的内容合并到同一个列表中。通常,我们可以通过对页面的HTML代码进行解析,提取出我们需要的信息,并保存到本地文件或数据库中。随着互联网的发展,数据量的爆炸式增长,单机爬虫已经无法满足大规模数据爬取的需求,分布式爬虫成为了一种常见的解决方案。百度搜索一个非常常见的搜索引擎,我们可以使用Python的requests库和BeautifulSoup库来爬取百度搜索结果页面,并提取搜索结果的标题、链接和描述信息
Python爬取链家二手房数据——重庆地区
weixin_30410999的博客
05-29 1107
最近在学习数据分析的相关知识,打算找一份数据做训练,于是就打算用Python爬取链家在重庆地区的二手房数据。 链家的页面如下: 爬取代码如下: import requests, json, time from bs4 import BeautifulSoup import re, csv def parse_one_page(url): headers={ ...
python爬虫之selenium库,浏览器访问搜索页面并提取信息,及隐藏浏览器运行
10-12 9482
如果链接简单,爬虫可以通过链接用requests库提取页面信息,如爬取豆瓣top250影片信息,链接简单易懂。爬取豆瓣top250影片信息但如果遇到一些搜索之类的,基于js动态加载的网页,以上就不适合,如爬虫b站,搜索爬虫”页面,第一页链接如下,第二页又是很长没规律的链接。很难用requests库提取页面。针对以上情况,我们可以通过浏览器直接访问每个页面,然后提取页面。当然是让爬虫自己打开浏览器,输入内容访问,然后提取页面元素。这个过程就要用到 selenium 库。
低调使用!一键爬取全网资源,Python简直太强大了!
xiangxue666的博客
03-22 644
低调使用!一键爬取全网资源,Python简直太强大了!
python爬虫源代码】用python爬取百度搜索搜索结果!
05-17
python爬取百度搜索结果,字段包含:页码、标题、百度链接、真实链接、简介、网站名称。文件包含: 1、baidu_spider_0326.py 爬虫源码文件 2、爬取百度_马哥是谁_前5页.csv 爬取结果示例 - 同步讲解文章:...
python爬虫爬取百度云盘资源
12-28
python爬虫爬取百度云盘资源,输入关键字直接在主奥面生成网址
爬取知乎全网和伯乐在线,配置到elasticsearch做搜索引擎数据支撑
最新发布
02-23
项目说明 本项目是在之前的爬虫项目zhihu_spider和jobbole_spider的基础上进行重写的 重写的内容有: 新增代理IP池,防止IP屏蔽 新增user-agent随机切换 新增导入elasticsearch逻辑 进一步的数据清洗 ...
自动搜索全网Email EmailSpider邮箱搜索器 v1.0
10-30
EmailSpider邮箱搜索器支持外贸,当前支持 百度、Google、Yahoo、Bing搜索引擎 搜索结果。(Google为国际站 非hk)智能挖掘功能,深入企业网站自动寻址搜索邮箱,当前仅支持中英文,后续版
全网搜索》V6.1软件使用手册,让思考从搜索开始.pdf
04-30
全网搜索》V6.1软件使用...《全网搜索》又名《超级网搜》是一款快速、高效的多引擎搜索工具,拥有数十个国内外搜索引擎,并拥有详细的搜索分类。一次关键字输入,多个引擎同时搜索,大幅提高搜索和解决问题的效率。
Python3 爬虫(五) -- 单线程爬取我的CSDN全部博文
指尖飞舞
05-30 1万+
序 本文我实现的是一个CSDN博文爬虫,将我的csdn博客http://blog.csdn.net/fly_yr/article/list/1 中的全部博文基本信息抓取下来,每一页保存到一个文件中。 先来看一下我的博客页面: 确定要提取的信息: 发表日期是否原创标记博文标题博文链接浏览量评论量 从上第二个图中可以看出,我的博文目前有20页共384条数据,我
Python网络爬虫信息提取(14)—— 百度搜索关键字爬取并整理摘要、标题、关键字等
qq_37668436的博客
10-08 4043
前言 百度搜索的内容一般包含标题、摘要、网址、时间信息,本次主要实现根据搜索整理30页左右百度搜索条例成csv文档。 原理 百度爬虫比较简单,模拟浏览器访问就可以爬取到所要的数据,访问某个关键字第几页的网址构成为: "http://www.baidu.com/s?wd={}&pn={}".format(urllib.parse.quote(word),number) 之后就是解析对应的标签提取信息了。 因为要提取关键字,所以解析得到摘要后需要对摘要进行结巴分词,分词后使用停用词表去掉停用词,最后
如何用六步教会你使用python爬虫爬取数据
热门推荐
m0_59162248的博客
02-22 2万+
python爬虫爬取数据真的很简单,只要掌握这六步就好,也不复杂。以前还以为爬虫很难,结果一上手,从初学到把东西爬下来,一个小时都不到就解决了。到此这篇关于如何用六步教会你使用python爬虫爬取数据的文章就介绍到这了,更多相关python爬虫爬取数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!如果对Python感兴趣的话,可以试试我的学习方法以及相关的学习资料需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。
Python案例实现|爬取租房网站信息
不断学习,不断进步,提高自己
07-21 2695
本实战项目的数据来自于“北京链家网”的租房数据,网址为https://bj.lianjia.com/zufang/。
python一个可以全网搜索并下载歌曲的代码
04-23
好的,以下是一个可以全网搜索并下载歌曲的Python代码: ```python import requests from bs4 import BeautifulSoup import os def download_song(url, filename): with open(filename, 'wb') as f: response = ...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • python读取txt文件(多种方法) 166122
  • python画柱状图并数值显示 45117
  • python 日期和时间处理(time,datetime模块讲解) 42950
  • PCA降维原理及其代码实现(附加 sklearn PCA用法参数详解) 27024
  • 粒子群PSO优化算法学习笔记 及其python实现(附讲解如何使用python语言sko.PSO工具包) 24679

分类专栏

  • 电力系统潮流计算(python) 付费 18篇
  • 重学深度学习 付费 10篇
  • 论文笔记(付费) 付费 21篇
  • 期刊论文 付费 10篇
  • 小余学调度 付费 12篇
  • 期刊论文实现 付费 8篇
  • 算法与数据结构 付费 7篇
  • Uipath学习栏目 付费 14篇
  • NLP 自然语言处理 23篇
  • MATLAB-simulink仿真 1篇
  • flask开发基础教学 8篇
  • 最优化实战例子 31篇
  • 私密
  • 电气 和电力人工智能 29篇
  • mysql数据库 18篇
  • 算法笔记 18篇
  • cv计算机视觉 50篇
  • leetcode学习笔记 22篇
  • C++和MATLAB系列 21篇
  • 职场高手:自动化办公 16篇
  • PYQT(可视化界面) 16篇
  • 语音和视频处理 1篇
  • 学习杂记和工具包讲解 41篇
  • 爬虫 20篇

最新评论

  • 学好电气全靠它,个人电气博文目录(持续更新中.....)

    YaoLi_csdn: 你要做徒弟还是要做师傅?

  • 电工杯:电动汽车的充放电优化(有数据代码下载链接)

    2401_84226882: 下载链接在哪啊

  • 电工杯:电动汽车的充放电优化(有数据代码下载链接)

    weixin_50452493: 如何下载 没链接呀

  • 电工杯:电动汽车的充放电优化(有数据代码下载链接)

    红红的太阳我最爱: 下载链接

  • 电气实现:蒙特卡洛法 模拟多台电动汽车有序充放电负荷和(python实现)

    weixin_52998308: 为什么画不出来图

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • LeetCode讲解算法3-数据结构[链表](Python版)
  • LeetCode讲解算法2-数据结构[栈和队列](Python版)
  • LeetCode讲解算法1-排序算法(Python版)
2024年4篇
2023年19篇
2022年60篇
2021年129篇
2020年198篇

目录

目录

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

总裁余(余登武)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司菏泽关键词排名多少钱青岛推广网站价格淮南设计公司网站推荐武汉百姓网标王推广推荐盐田百度标王多少钱迪庆网站制作推荐日照企业网站设计沙井网站优化排名多少钱濮阳企业网站建设多少钱南澳关键词排名包年推广公司渭南建站报价玉林网站关键词优化多少钱宝鸡关键词排名包年推广推荐绵阳seo网站优化报价北海网站改版公司廊坊网络广告推广多少钱运城企业网站建设多少钱光明建网站公司衡阳品牌网站设计推荐毕节网站搭建价格甘孜模板推广报价贵阳网络推广价格德宏网站设计模板价格汕头模板推广价格迪庆seo排名价格坪山模板推广公司济南网络营销丽江企业网站建设推荐郑州百姓网标王推广价格忻州网站优化排名多少钱歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化