拼多多数据分析PPT报告
数据来源是自己用scrapy爬取的拼多多数据,第一张表是商品数据有1059196条,虽然不全面,但每个分类都有涉及到。第二张表是一二三级分类信息,总共有1701个三级分类。
拼多多商品数据表结构如下:
Field Type Null Key Comment
first_category_id int(11) YES :第一级分类ID
second_category_id int(11) YES :第二级分类ID
third_category_id int(11) YES :第三级分类ID
id bigint(20) NO PRI:主键ID
goods_name varchar(255) YES :商品名称
short_name varchar(255) YES :简略的商品名称
price int(11) YES :商品实际售价(拼单价)
normal_price int(11) YES :商品正常价格
market_price int(11) YES :商品市场价
link_url varchar(255) YES :商品对应的url
hd_thumb_url varchar(255) YES :商品缩略图
hd_url varchar(255) YES :商品高清图
cnt int(11) YES :商品销售具体数量
sales_tip varchar(255) YES :商品销售大体数量
虽然字段很多,但实际能用于分析的主要是三级分类信息、商品名字、商品原价、商品拼单价和商品销量(商品市场价由于并不是实际购买时的价格并且与另外两个价格相差很大,分析价值不大,故不列入统计)。
拼多多商品分类表结构如下:
Field Type Null Key Comment
first_category_id int(11) YES 一级分类id
first_category_name varchar(255) YES 一级分类名字
first_category_img varchar(255) YES 一级分类图片
second_category_id int(11) YES 二级分类id
second_category_name varchar(255) YES 二级分类名字
second_category_img varchar(255) YES 二级分类图片
id int(11) NO PRI 三级分类id(主键)
third_category_name varchar(255) YES 三级分类名字
数据清洗
1 新建视图把两张表合并(JOIN)在一起
2 把拼单价除以100得到真实的价格(true_price)
3 把真实价格乘以销量得到销售额(Sales)
以处理后的视图作为数据源进行分析。