看不懂别做爬虫-----python scrapy爬取淘宝

淘宝商品数据爬取

1.网页分析

做爬虫第一步当然是打开网页进行分析
首先打开网站以后 发现在显示的位置 没有我们想要的数据 那我们就 使用查找就可以 ctrl + f
复制一个商品的信息 看看网页源代码中有没有
在这里插入图片描述
现在发现数据其实是在源代码中 中有一个字典 我们只需要取出这个字典 里面的东西就都可以取出了
在这里插入图片描述

2.创建项目

我们要使用scrapy框架 没有安装的自行百度安装

创建项目

# scrapy startproject 项目名称
scrapy startproject taobao

创建爬虫

# scrapy genspider 爬虫名 爬取链接
scrapy genspider mytaobao https://www.taobao.com/

创建以后的项目结构应该是这样的
在这里插入图片描述

3.修改setting文件

修改setting文件 加入cookie

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
# TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
   
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, li"
                  "ke Gecko) Chrome/81.0.4044.138 Safari/537.36",
    "Cookie": "t=f18d672f5f02333283361f7a027faf6a; cna=pfevF4KruwMCATFGNZqulgP/; cookie2=15ddfbbb62a80754706e020499dd1e73; v=0; _samesite_flag_=true; sgcookie=EINz448jeiIKB8WGxzs9N; uc3=id2=UNDVc8%2F7VdzE9Q%3D%3D&lg2=Vq8l%2BKCLz3%2F65A%3D%3D&nk2=0%2BGi4p5HRSmLlP4%3D&vt3=F8dCufTFCNSqkiy4xCI%3D; csg=72aefe12; lgc=%5Cu554A941826670; dnk=%5Cu554A941826670; skt=3860c595dca8d168; existShop=MTU5NzcxMDE4OQ%3D%3D; uc4=nk4=0%400VrwPsxHxKlIRxHYn8ykawwoZ9uFVQ%3D%3D&id4=0%40UgclHutHCO6ZuzWz2MpkPDjGN4DT; tracknick=%5Cu554A941826670; _cc_=V32FPkk%2Fhw%3D%3D; enc=Cb6iMnjgmA9xnM3tVujqJ9wsNaWy5aqhGOIdZ8X1hEjHsNwahsNbxuAaBm%2B0UgqwdOl7ZGHdobezDfdX8fdEIA%3D%3D; mt=ci=1_1; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; _m_h5_tk=798da7f33bdf9cb44e2c7d98ce2bdb39_1597840452252; _m_h5_tk_enc=fe629ed25401362d32eb5661ee558ee1; _tb_token_=e518fe307f878; uc1=cookie21=UtASsssmeWzt&cookie14=UoTV6yHCSQX2uw%3D%3D&cookie16=W5iHL
最低0.47元/天 解锁文章
Python-pythonscrapy爬取电影天堂所有电影
08-12
python scrapy爬取电影天堂所有电影
分享一个淘宝/天猫/京东/阿里 图片抓取工具
dilongkou5097的博客
07-19 9577
链接:https://pan.baidu.com/s/1lbTL8UNQr4o45Z30J_YGLA提取码:xr3z 复制这段内容后打开百度网盘手机App,操作更方便哦 转载于:https://www.cnblogs.com/ForStudyAlways/p/11212591.html...
python3 爬虫实战案例 (抓取淘宝信息)(淘宝加了搜索必须登录的验证,此方法所到的结果都是0)
热门推荐
ruiti的博客
09-25 2万+
需求:对比足球,篮球,乒乓球,羽毛球,网球,相关物品的销售量保存到excle中 和抓取淘宝关键字相关信息的销售量,这和之前抓取csdn网站浏览量取不同,抓取csdn浏览量主要是通过bs4Tag标签,而淘宝的信息都是通过数据js动态生成的,所有通过python抓取的是未经js转换过得源码。如下图 好在我们所需要数据都在页面可以直接看出g_page_config中是页面用来渲染的json数据直...
最新 稳定版本,X82y x5sec 1688 淘宝滑块 (水果).阿里255 解决方法
最新发布
2301_78053965的博客
02-04 378
python+scrapy简单爬取淘宝商品信息
warm_man的博客
06-09 4517
python结合scrapy爬取淘宝商品信息 一、功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息。 待扩展功能: 爬取商品中的全部其他商品信息。 二、代码解读: 1、创建项目 首先得创建一个scrapy项目,若不会的请看其他创建scrapy项目的博客文章或者我的这篇scrapy安装介绍scrapy安装与创建项目 然后得明白scrapy框架是如何去部署爬虫的,看大图: 2、scrapy工作流程文字解释 引擎(Scrapy Engine)从调度
python爬虫中的scrapy爬取淘宝前60条商品的相关信息(对淘宝多级页面的爬取详细解读)
weixin_44841312的博客
07-09 1万+
** 一,整体规划: ** 1,要爬取的网站是:https://list.tmall.com/search_product.htm?q=Ůװ 2,要爬取的信息是:商品名称,商品价格,商品链接,店铺名称,店铺信息 (good_name, good_price, good_url, shop_name, shop_url) 二,确定网站可以被访问,相关信息可以被提取 1,打开cmd窗口。输入 ...
python推荐淘宝物美价廉商品 2.0
weixin_30535913的博客
01-09 187
改动: 新增功能 :可选择只看天猫或淘宝 代码模块化封装,参数配置或输入单独在一个py文件管理,主函数功能只留出参数传入在setting配置的py文件里。 main.py代码: 1 # -*- coding: utf-8 -*- 2 import urllib 3 import urllib2 4 import requests 5 6 im...
Python淘宝比价定向爬虫
Fooooooo的博客
02-21 383
import requests import re head={ 'cookie': 'enc=' 'x5sec=' , 'user-agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N)' } def getHTMLText(url): try: r=requests.get(url,timeout=30,headers=head) r.raise
python爬虫:基于Scrapy淘宝登陆后实现数据爬取并保存到Mysql
qq_36606793的博客
04-14 1384
main.py #整个scrapy项目可以直接右键main.py运行,不用到命令行输入命令启动。 from scrapy import cmdline cmdline.execute("scrapy crawl taobaobao".split()) taobaobao.py scrapy代码 import scrapy from selenium import webdriver from time import sleep from docs.conf import username,passwor.
Python-爬取百度图片scrapy爬虫实现
08-10
爬取百度图片scrapy爬虫实现
Python爬虫-scrapy-城市二手房数据爬取与保存
01-09
基于scrapy编写的爬虫,能够爬取城市二手房的各种信息,比如房价、面积、所处位置等十分方便易用,并采用Beautifulsoup进行页面解析无视反爬机制
Python-基于Pythonscrapy爬虫框架实现爬取招聘网站的信息到数据库
08-10
基于Pythonscrapy爬虫框架实现爬取招聘网站的信息到数据库
Python基于Scrapy-Redis分布式爬虫设计毕业源码(毕设项目).zip
06-08
程序采用 python 开发的 Scrapy 框架来开发,使用 Xpath 技术对下载的网页进行提取解析,运用 Redis 数据库分布式, 设计并实现了针对当当图书网的分布式爬虫程序,scrapy-redis是一个基于redis的scrapy组件,...
[Python爬虫]使用Scrapy框架爬取淘宝
Black_God1的博客
08-28 4859
说明: 这里我们只爬取淘宝的列表页和宝贝的链接,名称,价格,销量,图片地址。如果有需求爬取内容页,自行添加 启动文件mian.py taobao_wang是我自己建的执行文件名 from scrapy.cmdline import execute execute('scrapy crawl taobao_wang'.split()) 在spiders下的执行文件taoba...
scrapy+selenium爬取淘宝商品信息
triangle的技术博客
04-11 3785
本文仅作经验分享,不商业用途,如涉及权利问题,请通知删除。 scrapy+selenium爬取淘宝商品信息建立scrapy项目对目标网站进行分析selenium模拟登录合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTe...
利用scrapy框架爬取淘宝
majiexiong的博客
08-27 2228
taobao.py主爬取程序 # -*- coding: utf-8 -*- import scrapy import json import re from ..items import TaobaoItem class TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com']...
Python】使用Scrapy新建一个爬虫项目并爬取数据
qq_42595835的博客
12-27 733
使用Scrapy新建一个爬虫项目并爬取数据
爬虫Python+Scrapy+Selenium简单爬取淘宝天猫商品信息及评论
qq_37913898的博客
01-06 1万+
(转载请注明出处) 哈喽,大家好~ 前言:这次写这个小脚本的目的是为了给老师帮个小忙,爬取某一商品的信息,写完觉得这个程序似乎也可以用在更普遍的地方,所以就放出来给大家看看啦,然后因为是在很短时间写的,所以自然有很多不足之处,想着总之实现了功能再说吧,代码太丑大不了之后再重构吧(不存在的) 程序简介: 废话不多说,这个脚本首先是基于scrapy框架实现的,因为前面也说了是一整个项目的...
python学习之 scrapy+selenium爬取淘宝商品信息
weixin_40214188的博客
08-31 1973
学习目的 使用scrapy框架获取动态网站信息,以淘宝为例, 获取商品的[描述,价格,商店,图片链接]将获取的信息保存到execl表,或者json文件,数据库中。 打开淘宝首页搜索一加手机,获取第一页url为https://s.taobao.com/search?q=%E4%B8%80%E5%8A%A0%E6%89%8B%E6%9C%BA&imgfile=&js=1&...
python scrapy-redis爬取豆瓣电影top250
05-26
好的,下面是简单的步骤: 1. 安装 scrapyscrapy-redis ```python pip install scrapy scrapy-redis ``` 2. 创建一个 Scrapy 项目 ```python scrapy startproject douban_top250 ``` 3. 在 settings.py 中加入 scrapy-redis 的相关设置 ```python # 使用 scrapy-redis 的调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 使用 scrapy-redis 的去重过滤器 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 允许暂停、恢复爬虫 SCHEDULER_PERSIST = True # 设置 redis 为 item pipeline ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300 } # 设置 redis 服务器地址和端口号 REDIS_HOST = 'localhost' REDIS_PORT = 6379 ``` 4. 编写 spider ```python # coding:utf-8 import scrapy from scrapy import Request from scrapy_redis.spiders import RedisSpider class DoubanTop250Spider(RedisSpider): """爬取豆瓣电影 Top 250""" name = 'douban_top250' allowed_domains = ['movie.douban.com'] # 在 Redis 中设置起始爬取的 URL redis_key = 'douban:start_urls' def parse(self, response): # 获取电影列表 movie_list = response.css('.grid_view li') for movie in movie_list: # 获取电影名字和详情页 URL title = movie.css('.title::text').extract_first() detail_url = movie.css('.hd a::attr(href)').extract_first() yield Request(detail_url, callback=self.parse_detail, meta={'title': title}) # 获取下一页的链接 next_url = response.css('.next a::attr(href)').extract_first() if next_url: yield Request(next_url, callback=self.parse) def parse_detail(self, response): # 获取电影详情 title = response.meta['title'] score = response.css('.rating_num::text').extract_first() yield {'title': title, 'score': score} ``` 5. 运行 scrapy-redis 爬虫 首先要在终端中启动 redis 服务: ```python redis-server ``` 然后在一个终端中运行 scrapy-redis 爬虫: ```python scrapy runspider douban_top250.py ``` 在另一个终端中向 Redis 中添加起始 URL: ```python redis-cli lpush douban:start_urls https://movie.douban.com/top250 ``` 爬取结果会自动保存到 Redis 数据库中。你可以通过 redis-cli 或者其他 Redis 客户端查看结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 看不懂别做爬虫-----python爬虫实战---大众点评评论 4341
  • 看不懂别做爬虫-----python scrapy爬取淘宝 3532
  • MySql 数据库及数据表的操作 153
  • 爬虫基础 第一篇 119

分类专栏

  • python 3篇
  • 爬虫 3篇

最新评论

  • 看不懂别做爬虫-----python爬虫实战---大众点评评论

    青茶绿梅*2: 带上你登录的cookie的就行了

  • 看不懂别做爬虫-----python爬虫实战---大众点评评论

    Passerby_Wang: 写得也太详细了吧,学到了好多 也欢迎博主来我这里指点一二呀表情包表情包表情包

  • 看不懂别做爬虫-----python scrapy爬取淘宝

    m0_62786160: 你好 博主 最后那一块应该连接哪里啊 是写在mytaobao里面的实现翻页的下面吗

  • 看不懂别做爬虫-----python scrapy爬取淘宝

    甜叙: 怎么用csv存储?

  • 看不懂别做爬虫-----python爬虫实战---大众点评评论

    无敌小短腿: 只能爬取第二页的是为啥啊,我看第二页评论需要登录才能查看,请问这个咋解决呢额?

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 爬虫基础 第一篇
  • 看不懂别做爬虫-----python爬虫实战---大众点评评论
  • MySql 数据库及数据表的操作
2021年1篇
2020年3篇

目录

目录

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司太原网络营销哪家好丹东高端网站设计哪家好伊犁网站优化推广多少钱毕节网站制作推荐南山网络推广公司辽源百度标王推荐四平建网站襄樊网站优化按天收费多少钱天津SEO按天计费哪家好衢州英文网站建设报价黔南网站搭建公司温州关键词按天扣费报价玉林营销型网站建设哪家好巢湖优秀网站设计哪家好怀化seo网站优化哪家好厦门建设网站公司江门网站设计模板价格日照网站改版多少钱潮州网站关键词优化丹竹头百姓网标王推广哪家好鸡西至尊标王推荐运城网站优化按天扣费酒泉推广网站多少钱肇庆建设网站价格汕尾企业网站制作报价淄博企业网站制作多少钱郴州SEO按天计费价格甘孜百姓网标王眉山建站推荐延安网站制作报价歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化