看不懂别做爬虫-----python scrapy爬取淘宝
淘宝商品数据爬取
1.网页分析
做爬虫第一步当然是打开网页进行分析
首先打开网站以后 发现在显示的位置 没有我们想要的数据 那我们就 使用查找就可以 ctrl + f
复制一个商品的信息 看看网页源代码中有没有
现在发现数据其实是在源代码中 中有一个字典 我们只需要取出这个字典 里面的东西就都可以取出了
2.创建项目
我们要使用scrapy框架 没有安装的自行百度安装
创建项目
# scrapy startproject 项目名称
scrapy startproject taobao
创建爬虫
# scrapy genspider 爬虫名 爬取链接
scrapy genspider mytaobao https://www.taobao.com/
创建以后的项目结构应该是这样的
3.修改setting文件
修改setting文件 加入cookie
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
# Disable Telnet Console (enabled by default)
# TELNETCONSOLE_ENABLED = False
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_3) AppleWebKit/537.36 (KHTML, li"
"ke Gecko) Chrome/81.0.4044.138 Safari/537.36",
"Cookie": "t=f18d672f5f02333283361f7a027faf6a; cna=pfevF4KruwMCATFGNZqulgP/; cookie2=15ddfbbb62a80754706e020499dd1e73; v=0; _samesite_flag_=true; sgcookie=EINz448jeiIKB8WGxzs9N; uc3=id2=UNDVc8%2F7VdzE9Q%3D%3D&lg2=Vq8l%2BKCLz3%2F65A%3D%3D&nk2=0%2BGi4p5HRSmLlP4%3D&vt3=F8dCufTFCNSqkiy4xCI%3D; csg=72aefe12; lgc=%5Cu554A941826670; dnk=%5Cu554A941826670; skt=3860c595dca8d168; existShop=MTU5NzcxMDE4OQ%3D%3D; uc4=nk4=0%400VrwPsxHxKlIRxHYn8ykawwoZ9uFVQ%3D%3D&id4=0%40UgclHutHCO6ZuzWz2MpkPDjGN4DT; tracknick=%5Cu554A941826670; _cc_=V32FPkk%2Fhw%3D%3D; enc=Cb6iMnjgmA9xnM3tVujqJ9wsNaWy5aqhGOIdZ8X1hEjHsNwahsNbxuAaBm%2B0UgqwdOl7ZGHdobezDfdX8fdEIA%3D%3D; mt=ci=1_1; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; _m_h5_tk=798da7f33bdf9cb44e2c7d98ce2bdb39_1597840452252; _m_h5_tk_enc=fe629ed25401362d32eb5661ee558ee1; _tb_token_=e518fe307f878; uc1=cookie21=UtASsssmeWzt&cookie14=UoTV6yHCSQX2uw%3D%3D&cookie16=W5iHL
青茶绿梅*2: 带上你登录的cookie的就行了
Passerby_Wang: 写得也太详细了吧,学到了好多 也欢迎博主来我这里指点一二呀
m0_62786160: 你好 博主 最后那一块应该连接哪里啊 是写在mytaobao里面的实现翻页的下面吗
甜叙: 怎么用csv存储?
无敌小短腿: 只能爬取第二页的是为啥啊,我看第二页评论需要登录才能查看,请问这个咋解决呢额?