京东搜索产品时,pc端列表页只展示100页的数据

17 篇文章 2 订阅
订阅专栏

问题描述:当你在电脑上浏览京东网站时,官网只给你返回100页数据,每页60个,总共只显示6000个商品,但实际有几十万的相关产品没有展示出来。

在这里插入图片描述

这算是京东的一种反扒机制,美团的电脑端也是这样,只给你返回固定页数的信息。遇到这个问题,可以选择增加搜索维度、寻找其他接口的方法,尽量多的去获取数据。
解决方法:
一、在搜索的时候,缩小搜索范围,增加搜索维度
  • 1、在搜索商品时,加上品牌、型号等信息,缩小范围
    在这里插入图片描述
  • 2、利用好京东的导航栏,进行每一层的缩小范围
    在这里插入图片描述
    这个方法更可取一些,可以循环导航栏的信息,去一层一层的获取。
    这个导航栏可以用xpath到每一个的链接。
# 提取商品页的所有相关商品 
response.xpath("//div[contains(@class,'J_selectorLine')]/@class")
------------
J_selectorLine s-brand     # 商品的品牌栏
J_selectorLine s-category  # 商品的类别栏
J_selectorLine s-category  
J_selectorLine s-line      # 商品的细分条件栏
J_selectorLine s-line s-senior  # 商品的选项栏
二、如果搜索固定的商品,可以找到它专属的商品页深度挖掘
  • 1、利用好京东的导航栏,找到你想要抓取的信息
    在这里插入图片描述
  • 2、跳转到二级域名下的商品列表里,他展示全部的页码。
    在这里插入图片描述
  • 3、这种方法可以用于全站抓取哦。
三、商品详情页的同款商品可以一并获取
  • 1、抓到具体到商品详情页后,会发现很多同款不同信号的商品,可以一起抓取
    在这里插入图片描述

  • 2、这个商品列表,需要用到源代码正则匹配。
    在这里插入图片描述
    正则规则: re.findall(r"colorSize:(.*?}]),[ ]+?[warestatus:]+", response)

    这时,提取到的是每一个商品的skuId颜色信息,再用字符串拼接商品的URL"https://item.jd.com/{skuId}.html",去提取每一个商品的信息即可。

京东数据产品应用实践共28.pdf.zip
11-20
京东数据产品应用实践共28.pdf.zip
京东11.11:商品搜索系统架构设计
02-26
京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。虽然只有短短几年的间,我们的搜索引擎已经经过了多次618店庆和双11的考验,目前已经能够与人们日常使用的如谷歌、百度等全文搜索引擎相比,我们的产品与其有相通之处,比如涵盖亿级别商品的海量数据、支持短超高并发查询、又有自己的业务特点:海量的数据,亿级别的商品量;高并发查询,日PV过亿;请求需要快速响应。搜索已经成为我们日常不可或缺的应用,很难想象没有了Google、百度等搜索引擎,互联网会变成什么样。京东站内商品搜索京东,就如同搜索引擎对互联网的关系。他们的共同之处:1.海量的数据,亿级别
爬取京东商品评价信息实战
学而思(xiejava的blog)
03-11 743
上期介绍了通过《mitmproxy实战-通过mitmdump爬取京东金榜数据》,能够上京东金榜的商品一般评价都是比较好的,这次介绍如何爬取京东商品的评价信息。
电子商务搜索系统架构参考
11-30 6164
京东商品搜索简介 京东商品搜索引擎是搜索推荐部自主研发的商品搜索引擎,主要功能是为海量京东用户提供精准、快速的购物体验。目前入口主要有PC/移动/微信/手Q搜索、移动列表、店铺搜索、店铺列表等。虽然只有短短几年的间,系统已经能够支持日均PV过亿的请求,并且经过了多次618店庆和双11的考验。 与人们日常使用的如谷歌、百度等大搜索(或称为“全文搜索”)引擎相比
利用python爬取京东平台评论及图片并进行分析
HUANGliang_的博客
08-13 1万+
课设作业
日均5亿查询量的京东到家订单中心,为什么舍MySQL用ES?(v2019-12-07)
Java搜索工程技术栈
02-26 242
作者介绍 张sir,京东到家研发工程师,主要负责订单中心、商家中心、计费等系统。 京东到家订单中心系统业务中,无论是外部商家的订单生产,或是内部上下游系统的依赖,订单查询的调用量都非常大,造成了订单数据读多写少的情况。 我们把订单数据存储在MySQL中,但显然只通过DB来支撑大量的查询是不可取的。同对于一些复杂的查询,MySQL支持得不够友好,所以订单中心系统使用了Elasticsearch来承载订单查询的主要压力。 Elasticsearch作为一款功能强大的分布式搜索引擎,支持近实
爬虫——python爬取京东商品用户评价
m0_64430775的博客
03-21 9103
python爬取京东商品用户评论,分别爬取好评、中评、差评,以小米手环7为例
day24-京东商品作业
HunterQAQ的博客
06-24 146
京东商品
Python如何运用爬虫爬取京东商品评论
m0_48891301的博客
08-30 5238
Python如何运用爬虫爬取京东商品评论?
python应用案例-爬取京东商品评论
xu__ying的博客
08-03 4599
目标:爬取京东商品的评论 1.任意选择一个商品 2.找到评论的url 3.写代码 导入模块requests (可以通过cmd的pip install requests命令安装requests模块) import requests url='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=68767398029&score=0&sortTy
Python爬取京东商品评论
littlestar888的博客
01-08 851
爬取京东商品评论
京东商城详细产品图片列表以及放大镜效果
08-03
京东商城详细产品图片列表以及放大镜效果,代码简单易懂,注释清晰,下载后直接可以点击运行
模仿京东商城PC端的项目源码+项目说明.zip
最新发布
04-12
模仿京东商城PC端的项目源码+项目说明.zip 模仿京东商城PC端的项目源码+项目说明.zip 模仿京东商城PC端的项目源码+项目说明.zip 模仿京东商城PC端的项目源码+项目说明.zip 模仿京东商城PC端的项目源码+项目说明.zip ...
jqzoom实现京东商品详细产品图片放大镜效果.zip
07-11
jqzoom实现京东商品详细产品图片放大镜效果,经常用于商城网站,对产品进行放大的一个效果,看的更加清晰,php中文网推荐下载!
jqzoom实现京东商品详细产品图片放大镜效果
05-30
预览地址:https://www.jsdaima.com/js/24.html;jqzoom实现京东商品详细产品图片放大镜效果,依赖于jquery.jqzoom.js插件,兼容所有浏览器,适用于电商网站商品图片浏览。
爬虫的方法大全
热门推荐
May女子の博客
05-08 2万+
爬虫策略 1、封IP:网的运维人员通过分析日志发现最近某一个IP访问量特别特别大,某一段间内访问了无数次的网,则运维人员判断此种访问行为并非正常人的行为,于是直接在服务器上封杀了此人IP。 2、封USERAGENT:很多的爬虫请求头就是默认的一些很明显的爬虫头python-requests/2.18.4,诸如此类,当运维人员发现携带有这类headers的数据包,直接拒绝访问,返回403错误...
京东商品价格获取的三种方式
May女子の博客
10-15 9946
问题描述:京东商品的详情,价格是js动态加载的,源代里获取不到,该如何破解? 商品详情的价格,在网源代码里找不到,xpath提取为空,这可怎么办? 解决方案: 一、selenium加载页面,进行提取 这个方法是万能的,一定能抓到数据,但是会影响速度和性能,可以参考第二、三种方法。 二、商品列表可以获取价格 1、可以在商品列表,获取商品价格,使用xpath提取 2、xpath可...
selenium无界面操作浏览器
May女子の博客
05-08 5682
selenium的无界面化功能使用的模板代码,以后使用的候,直接把这些配置复制过去就好了。 下面举了我常用的三种操作: 第一种:selenium自动去请求某个页面 第二种:selenium模拟登陆 第三种:selenium获取cookie from selenium import webdriver import time from selenium.webdriver.chrome.optio...
selenium获取到user的WebElement列表后,循环WebElement提取单条user信息
May女子の博客
05-08 5029
在使用scrapy的候,常常会获取到一个div列表,然后循环列表去获取每一个div,再对每一个div进行xpath提取信息。 例如这样的操作(图片代码仅供参考) 但是使用selenium,使用user_lists = self.driver.find_elements_by_xpath("//div[@class='user']") 语句获取到user_list后,同样也可以循环user_l...
京东商城三数据抓取python
10-16
您可以使用Python中的requests和BeautifulSoup库来实现京东商城三数据的抓取。具体步骤如下: 1. 导入requests和BeautifulSoup库 ```python import requests from bs4 import BeautifulSoup ``` 2. 构造请求头和请求参数 ```python headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} params = { 'keyword': '手机', 'enc': 'utf-8', 'page': 1 } ``` 3. 发送请求并解析响应 ```python url = 'https://search.jd.com/Search' response = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(response.text, 'html.parser') ``` 4. 提取数据 ```python items = soup.select('#J_goodsList .gl-item') for item in items: name = item.select('.p-name em')[0].text.strip() price = item.select('.p-price i')[0].text.strip() print(name, price) ``` 5. 循环抓取多数据 ```python for page in range(1, 4): params['page'] = page response = requests.get(url, headers=headers, params=params) soup = BeautifulSoup(response.text, 'html.parser') items = soup.select('#J_goodsList .gl-item') for item in items: name = item.select('.p-name em')[0].text.strip() price = item.select('.p-price i')[0].text.strip() print(name, price) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • win10电脑一开夜神模拟器就蓝屏解决方法,亲测多次好用! 32254
  • 【Python】 unicode转中文 -- \u662f\u5cb8形式换为中文 31335
  • Python requests 移除SSL认证,verify=False,取消控制台输出的InsecureRequestWarning警告 27989
  • 反爬虫的方法大全 20244
  • Python中正则匹配使用findall,捕获分组(xxx)和非捕获分组(?:xxx)的差异 20091

分类专栏

  • python 17篇
  • 随笔
  • java 9篇
  • 爬虫 17篇
  • 面试 5篇
  • 日常问题解决 14篇
  • 数据库 9篇
  • 算法 5篇

最新评论

  • 京东搜索产品时只能获取到每页的前30个产品,scrapy+selenium取到后面30个产品

    m0_70808317: 为啥我下拉进度条也没有继续加载后面的商品啊

  • 【IDEA】一步解决:Debug模式启动非常慢,但Run模式启动正常不卡顿

    Java_小菜狗: 可以很强

  • win10电脑一开夜神模拟器就蓝屏解决方法,亲测多次好用!

    EX十六*碣: 找到办法了,还有一种可能,BIOS里CPU的虚拟机硬件支持没有打开,设置成Enabled就可以了。

  • 京东搜索产品时只能获取到每页的前30个产品,scrapy+selenium取到后面30个产品

    cpyinf: 能贴出源码吗,我用了这个方法报错了,报错显示 spider.browser.get(request.url) AttributeError: 'MobileSpider' object has no attribute 'browser'

  • 【scrapy框架】scrapy框架自带图片下载的管道ImagePipeline

    fenjincheng: 讲的真好。

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 【Java】Spring Cloud学习笔记(一)
  • 【Java】报错:Cause: java.sql.SQLException: Field 'id' doesn't have a default value
  • 【IDEA】一步解决:Debug模式启动非常慢,但Run模式启动正常不卡顿
2020年10篇
2019年51篇
2018年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司商丘企业网站改版泰州百度网站优化排名推荐金昌百搜标王民治关键词排名公司驻马店至尊标王报价阜阳建设网站海南百度网站优化报价大理网站设计模板多少钱西安品牌网站设计价格凉山百度关键词包年推广报价盐田网站优化按天扣费价格长沙企业网站制作眉山网络营销绵阳企业网站制作哪家好龙岩seo排名报价河源网站优化按天收费报价大同网站关键词优化多少钱抚州百度竞价公司新乡百度爱采购推荐广州企业网站设计哪家好福永企业网站改版公司东营SEO按天扣费多少钱南阳网站优化推广青岛网站推广工具报价东营seo优化报价盐城网站设计推荐宁德企业网站建设报价黄山SEO按天收费公司赣州SEO按效果付费宜春网站seo优化价格歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化