国外各大电商平台的女鞋销售数据分析
来源:
因数据来源于网络,我们对数据的背景不是很清楚,通过数据进行分析,猜测是网络上爬取的美国各大电商网站上女鞋的产品记录。
1 提出问题
在这些上线的女鞋产品的数据中,国外各大电商平台的占比分别是怎样的。
在售的女鞋的颜色偏好有规律吗?
不同销售渠道的女鞋的价格是否有明显的差异?
有一个新品牌,终端目标价在70~100美金左右,放在哪个网站上比较有优势。
2 数据清洗:
(1)所选的数据集有23个字段,由于列数比较多,可将某些无关列隐藏。
(2)字段asins/count/dimension/flavors/isbn/ean/weight等字段的数据大量缺失,失去分析的有效性。
(3)有两个非常类似的字段price.sourceURLs和sourceURLs,将两个字段对比,用函数
LEFT(AM2,FIND(".c",AM2)+3),截取price.source的主网址。
用同样的方法截取source.URL的主网址。
对筛选出的主网址做等值判断,
筛选出false的值,发现是http和https的区别,用查找和替换工具,将https替换为http.
筛选出错误值,发现是price.sourceURLs和Source.URL的值为空,按前面的经验判断,此数据集为网上爬取的,同一条记录应来自同一网站。因而可以参考pricesource的值。
保留提取出的PriceURL的值,其他URL列隐藏。
插入一个透视表,我们对URL的地址做分析,并按照百分比显示Overstock/walmart/amazon/ralphlauren/ebay/sears/shop.nordstrom的数据占到98.38%。
将如上数据绘制成饼图,可看到overstcok、walmart以及ebay占据了90%以上的份额,其中overstock占54%,walmart占30%,以及amazon占6%。
从这组数据来看,如果有新品牌且想通过在线销售的方式,overstock和walmart的竞争是非常大的。
3 背景介绍
关于Amazon/Walmart/Ebay我就不赘述了,大家都知道。
http://Overstock.com是美国知名在线购物网站,成立于1999年,总部设于美国犹他州盐湖城,经销各类商品,包括名牌时尚时装、珠宝、电器、家用百货、影音产品等。
ralphlauren是美国的一个时装品牌。
4 业务问题
1 在售的女鞋的颜色分布,我们总的数据量是33802条,颜色字段的数据是19845条,数据严重缺失。从现有的数据中,黑色和棕色的鞋子偏好是比较大的。纯色鞋子的占比要远大于混色鞋子。并且黑棕混色的鞋子占比也比较大。
我们将前10种颜色绘制成柱状图,
2 不同销售渠道上女鞋的价格是否有明显差异。
销售渠道的字段也不完整,我们可以用获取记录的网址代替销售字段。
用excel数据透视表和切片器处理得到市场占比前7位的品牌的销售价格
生成柱状图,我们看到
大部分渠道的销售价格在100美元以内。那么显而意见,如果新品牌的价位在70~100美金,那么平台要在ebay,walmart,overstock,sears几个中间选择了。