看不懂别做爬虫-----python scrapy爬取淘宝

最新推荐文章于 2024-02-04 18:38:20 发布

VIP文章 Lemon_.

最新推荐文章于 2024-02-04 18:38:20 发布

阅读量3.5k

点赞数 9

分类专栏： python 爬虫文章标签： python

本文链接： https://blog.csdn.net/weixin_44173603/article/details/108272819

版权

淘宝商品数据爬取

1.网页分析

做爬虫第一步当然是打开网页进行分析
首先打开网站以后发现在显示的位置没有我们想要的数据那我们就使用查找就可以 ctrl + f
复制一个商品的信息看看网页源代码中有没有

现在发现数据其实是在源代码中中有一个字典我们只需要取出这个字典里面的东西就都可以取出了

2.创建项目

我们要使用scrapy框架没有安装的自行百度安装

创建项目

# scrapy startproject 项目名称
scrapy startproject taobao

创建爬虫

# scrapy genspider 爬虫名 爬取链接
scrapy genspider mytaobao https://www.taobao.com/

创建以后的项目结构应该是这样的

3.修改setting文件

修改setting文件加入cookie

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
# TELNETCONSOLE_ENABLED = False

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
   
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language': 'en',
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, li"
                  "ke Gecko) Chrome/81.0.4044.138 Safari/537.36",
    "Cookie": "t=f18d672f5f02333283361f7a027faf6a; cna=pfevF4KruwMCATFGNZqulgP/; cookie2=15ddfbbb62a80754706e020499dd1e73; v=0; _samesite_flag_=true; sgcookie=EINz448jeiIKB8WGxzs9N; uc3=id2=UNDVc8%2F7VdzE9Q%3D%3D&lg2=Vq8l%2BKCLz3%2F65A%3D%3D&nk2=0%2BGi4p5HRSmLlP4%3D&vt3=F8dCufTFCNSqkiy4xCI%3D; csg=72aefe12; lgc=%5Cu554A941826670; dnk=%5Cu554A941826670; skt=3860c595dca8d168; existShop=MTU5NzcxMDE4OQ%3D%3D; uc4=nk4=0%400VrwPsxHxKlIRxHYn8ykawwoZ9uFVQ%3D%3D&id4=0%40UgclHutHCO6ZuzWz2MpkPDjGN4DT; tracknick=%5Cu554A941826670; _cc_=V32FPkk%2Fhw%3D%3D; enc=Cb6iMnjgmA9xnM3tVujqJ9wsNaWy5aqhGOIdZ8X1hEjHsNwahsNbxuAaBm%2B0UgqwdOl7ZGHdobezDfdX8fdEIA%3D%3D; mt=ci=1_1; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; _m_h5_tk=798da7f33bdf9cb44e2c7d98ce2bdb39_1597840452252; _m_h5_tk_enc=fe629ed25401362d32eb5661ee558ee1; _tb_token_=e518fe307f878; uc1=cookie21=UtASsssmeWzt&cookie14=UoTV6yHCSQX2uw%3D%3D&cookie16=W5iHL

最低0.47元/天解锁文章

Lemon_.

关注关注

9
点赞
踩
35

收藏

觉得还不错? 一键收藏
5
评论
看不懂别做爬虫-----python scrapy爬取淘宝

淘宝商品数据爬取1.网页分析做爬虫第一步当然是打开网页进行分析首先打开网站以后发现在显示的位置没有我们想要的数据那我们就使用查找就可以 ctrl + f复制一个商品的信息看看网页源代码中有没有现在发现数据其实是在源代码中中有一个字典我们只需要取出这个字典里面的东西就都可以取出了2.创建项目我们要使用scrapy框架没有安装的自行百度安装创建项目# scrapy startproject 项目名称scrapy startproject taobao创建爬虫# s
复制链接

扫一扫