Python数据分析案例12——网飞影视剧数据分析及其可视化

59 篇文章 323 订阅
订阅专栏

背景介绍

Netflix是最受欢迎的媒体和视频流平台之一。他们的平台上有超过 8000 部电影或电视节目。截至 2021 年年中,他们在全球拥有超过 2 亿订阅者。

博主看美剧也较为多,像《怪奇物语》、《性爱自修室》等高分美剧都是网飞的。

对于网飞的影视剧,我们可以分析其电影和电视剧的成分占比,发行年份、国家,影视剧类型,收视率,简介关键词等,进行一定程度的描述性统计及其可视化。从而可以得到哪些类型影视剧更受欢迎,哪些国家发行影视剧更多等等结论。

注:(本文不涉及高级复杂的数学模型,主要的核心是数据的描述性分析和可视化。) 


关于数据集介绍

此表格数据集来源kaggle,包含 Netflix 上可用的所有电影和电视节目的列表,以及演员、导演、评级、发行年份、持续时间等详细信息。

不方便的同学可以参考这个获取数据集:网飞数据。


数据读取和清洗

导入数据分析常用的包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns

plt.rcParams ['font.sans-serif'] ='SimHei'              #显示中文
plt.rcParams ['axes.unicode_minus']=False               #显示负号

下面读取数据集转化为pandas数据框对象,删除所有值都为空白的列,把第一列节目标号设置为索引,查看数据前五行

df=pd.read_csv('netflix_titles.csv',encoding='ANSI').dropna(how='all',axis=1).set_index('show_id')
df.head()

可以看到主要都是文本类型数据。


 数据变量介绍和分析

变量信息介绍

‘type’为影视剧类型,即属于电影还是电视剧,分类型变量

‘title’为影视剧名称,文本型变量

‘director' 为导演名字,文本变量

‘cast’为所有演员名称,文本变量

‘ country’为发行制作国家,分类变量

‘date_added’该影视剧在 Netflix 上添加的日期,时间变量

‘release_year’该影视剧实际发布年份,时间变量

‘rating’电影/节目的电视评级,分类变量

‘duration’总持续时间, 分类变量

‘listed_in’影视剧节目类型,多组分类变量

‘description’影视剧简介,文本变量


查看数据的所有变量信息

df=df.infer_objects()
print(df.shape)
df.info()

 从上面数据信息可以看到该数据总共有8798条,11个变量, 有些变量存在一定的缺失值,下面对缺失值进行处理,


数据清洗

对缺失值进行可视化

#观察缺失值
import missingno as msno
msno.matrix(df)

可以看出导演这一列出现缺失值较多,演员和发行国家也存在一些缺失值。 由于每个影视剧的导演和演员都是第一无二的,而且是文本型数据,所以这里不能采用均值或者是众数进行填充,我们使用‘无数据’代替空值。

发行国家采用已有数据里面发行影视剧最多的国家进行填充, 其他列存在缺失值的样本可以进行删除。

填充修改

df['country'] = df['country'].fillna(df['country'].mode()[0])
df['cast'].fillna('No Data',inplace  = True)
df['director'].fillna('No Data',inplace  = True)
df.dropna(inplace=True)

去除重复值

df.drop_duplicates(inplace=True)

将时间变量转化为时间格式

便于后面分析,这里将影视剧添加到网飞版块时间的年月作为分类变量提取出来

df["date_added"] = pd.to_datetime(df['date_added'])
df['year_added'] = df['date_added'].dt.year
df['month_name_added']=df['date_added'].dt.month_name()
df['release_year']=df['release_year'].astype('int')

再次查看数据信息

df.info()

 最终剩余8774条样本数据,变量都无缺失值,变量类型都正确,可以进行下面的分析和可视化


分析及其可视化

网飞影视剧中电影和电视剧的各自占比分析

plt.figure(figsize=(2,2),dpi=180)
p1=df.type.value_counts()
plt.pie(p1,labels=p1.index,autopct="%1.3f%%",shadow=True,explode=(0.2,0),colors=['royalblue','pink']) #带阴影,某一块里中心的距离
plt.title("网飞影视剧中电影和电视剧的各自占比")
plt.show()

 可以看出网飞影视剧中电影数量占比更多,将近七层,电视剧占比30%左右。

网飞影视剧中发行国家分析

import squarify
p2=df.country.value_counts()[:15]
fig = plt.figure(figsize = (8,4),dpi=256)
ax = fig.add_subplot(111)
plot = squarify.plot(sizes = p2, # 方块面积大小
                     label = p2.index, # 指定标签
                     #color = colors, # 指定自定义颜色
                     alpha = 0.8, # 指定透明度
                     value = p2, # 添加数值标签
                     edgecolor = 'white', # 设置边界框
                     linewidth =0.1 # 设置边框宽度
                    )
# 设置标题大小
ax.set_title('网飞影视剧数量发行量排名前15的国家',fontsize = 22)
# 去除坐标轴
ax.axis('off')
# 去除上边框和右边框刻度
ax.tick_params(top = 'off', right = 'off')
# 显示图形
plt.show()

可以看到,由于网飞是美国的公司,在其本土上的影视作品数量最多,几乎占据了所有影视作品的一半,其次是印度、英国、日本、韩国、加拿大,这五个国家的网飞影视剧也较多。

(只选取了前15的国家,因为国家太多了图就会很乱)

网飞影视剧发行量前10的国家电影和电视剧数量对比分析 

def check0(txt):
    if txt in p2.index[:10]:
        a=True
    else:
        a=False
    return a
df_bool=df.country.astype('str').apply(check0)
p3=pd.crosstab(df[df_bool].type,df[df_bool].country,normalize='columns').T.sort_values(by='TV Show')
m =np.arange(len(p3))
plt.figure(figsize = (8,4),dpi=256)
plt.bar(x=m, height=p3.iloc[:,0], label=p3.columns[0], width=0.3,alpha=0.5, hatch='.',color='orange') 
plt.bar(x=m , height=p3.iloc[:,1], label=p3.columns[1], bottom=p3.iloc[:,0],width=0.3,alpha=0.5,hatch='*',color='lime')
plt.xticks(range(len(p3)),p3.index,fontsize=10,rotation=30)
plt.legend()
plt.ylabel('频率')
plt.title("网飞影视剧发行量前10的国家电影和电视剧数量对比")
plt.show()

从网飞发行量前十的国家来看,印度的网飞影视剧的电影占比非常高,其次是埃及,美国。

电视剧占比较高的是韩国、日本、英国。

说明网飞在印度,埃及,美国地区制作拍摄影视剧是更偏向与电影。而在韩国,日本,英国更偏向于电视剧发行。

(只选取了前10的国家,因为国家太多了图就会很乱,国家名称都堆叠在一起放不下去)

影视剧评级分析

p4=df.rating.value_counts()
plt.figure(figsize = (6,3),dpi=256)
sns.barplot(x=p4.index,y=p4)
plt.ylabel('数量')
plt.xlabel('评价')
plt.xticks(fontsize=10,rotation=45)
plt.title("网飞所有影视剧不同评级数量对比")
plt.show()

 可以看到绝大多数的评价都是TV-MA和TV-14,即适合成年人的影视剧和合适14岁以上影视剧的评级。

df_bar=pd.crosstab(df.type,df.rating).T.sort_values(by='Movie',ascending=False).unstack().reset_index().rename(columns={0:'number'})
plt.subplots(figsize = (10,4),dpi=128)
sns.barplot(x=df_bar.rating,y=df_bar.number,hue=df_bar.type,palette = "copper")

 可以看到评级是TV-MA,TV-14和TV-PG的电影和电视剧都有,评级为R和PG的都是电影。

不同发行国家的影视剧评级分析

df_heatmap=df[df_bool].groupby('country')['rating'].value_counts().unstack().sort_index().fillna(0).astype(int).T#.sort_values(by='Movie',ascending=False).T
for col in df_heatmap.columns:
    df_heatmap[col]=df_heatmap[col]/df_heatmap[col].sum()
corr = plt.subplots(figsize = (8,6),dpi=256)
corr= sns.heatmap(df_heatmap,annot=True,square=True,annot_kws={'size':6,'weight':'bold', 'color':'royalblue'},fmt='.2f',cmap='cubehelix_r')
plt.title('不同发行国家的网飞影视剧评级对比')
plt.show()

 从上图可以直观的看出绝大多数的网飞影视剧评级都是TV-MA和TV-14,这与前面的结论一致。

从不同发行国家的角度来看,加拿大,法国,墨西哥,西班牙,英国,美国制作发行的网飞影视剧数量更多偏向于适合成年人观看的。

埃及、印度、日本、韩国制作发行的网飞影视剧有较大的频率被评价为适合14岁以上观看的。

这与传统观念一致,欧美等西方国家的影视剧会更加开放一点,而印度日本韩国亚洲国家的影视剧则会更加保守一点。

影视剧上映年份分析

plt.figure(figsize=(8,3.5),dpi=128)
colors=['tomato','orange','royalblue','lime','pink']
for i, mtv in enumerate(df['type'].value_counts().index):
    mtv_rel = df[df['type']==mtv]['year_added'].value_counts().sort_index()
    plt.plot(mtv_rel.index, mtv_rel, color=colors[i], label=mtv)
    plt.fill_between(mtv_rel.index, 0, mtv_rel, color=colors[i], alpha=0.8)
    plt.legend()
plt.ylabel('网飞发行影视剧数量')
plt.xlabel('年份')
plt.title('网飞在不同年份上映影视剧数量')
plt.show()

 可以看出网飞从2014年开始,影视剧数量开始达到一个爆发式的增长状况,尤其在2019年上映的影视剧作品最多。

19年之后受到疫情等影响上映影视作品数量又呈现慢慢下降趋势。

影视剧上映月份分析

plt.figure(figsize=(5,5),dpi=128)
colors=['tomato','orange','royalblue','lime','pink','brown']

p5=df.month_name_added.value_counts()
plt.pie(p5,labels=p5.index,autopct="%1.3f%%",shadow=True,explode=(0.2,0.1,0.08,0.06,0.04,0.02,0,0,0,0,0,0),colors=colors) #带阴影,某一块里中心的距离
plt.title('网飞影视剧上映月份分析')
plt.show()

可以看出网飞影视剧数量上映的月份较为均匀,其中七月和十二月上映的电视剧较多,正好也对应了西方的暑假和寒假,假期上映电视剧较多。

上映影视剧最少的是二月和三月。

上映影视剧的年龄分析

df_age=df.assign(age=df.year_added-df.release_year)[['type','age']]
plt.figure(figsize=(3,4),dpi=128)
sns.boxplot(x='type',y='age',width=0.8,data=df_age,orient="v") 
plt.show()

可以看出绝大部分的电影或是电视剧的上映时间和发行时间相差不大,中位数在2到3年左右,电影会稍微偏大点,这也反应了好电影比电视剧能一直流传的特点

电影电视剧的异常值都较多,极大值偏多,主要可能是网飞上映收录了不少以前的经典电视剧和电影。

影视剧类型分析

p6=df.assign(kind=df.listed_in.str.split(',')).explode('kind')['kind'].value_counts()[:15]
plt.figure(figsize=(10,4),dpi=128)
sns.barplot(y=p6.index,x=p6,orient="h")
plt.xlabel('影片数量')
plt.ylabel('影视剧类型')
plt.xticks(fontsize=10,rotation=45)
plt.title("网飞不同影视剧类型数量对比")
plt.show()

可以看清楚的看到网飞的影视剧最多的类型是国际电影,然后是戏剧,喜剧,动作冒险片,纪录片

只看美国的影视剧类型

p7=df.assign(kind=df.listed_in.str.split(',')).explode('kind').where(lambda d:d.country=='United States').dropna()['kind'].value_counts()[:12]         
plt.figure(figsize=(5,5),dpi=128)
plt.pie(p7,labels=p7.index,autopct="%1.2f%%",shadow=True,explode=(0.15,0.1,0.08,0.06,0.04,0.02,0,0,0,0,0,0),colors=['c', 'b', 'g', 'tomato', 'm', 'y', 'lime', 'w','orange','pink','grey','tan']) 
plt.title('在美国制作发行的网飞影视剧类型数量对比')
plt.show()

 从上饼图得知在美国网飞上映的影视剧中,纪录片类型的最多,其次是戏剧,喜剧,家庭片,独立电影等。

网飞影视剧的导演和演员分析

p8=df.assign(directo=df.director.str.split(',')).explode('directo')['directo'].value_counts()[1:11]
p9=df.assign(cas=df.cast.str.split(',')).explode('cas')['cas'].value_counts()[1:11]

plt.subplots(1,2,figsize=(12,5),dpi=128)
plt.subplot(121)
sns.barplot(y=p8.index,x=p8,orient="h")
plt.ylabel('导演姓名')
plt.xlabel('导演影视剧的数量',fontsize=14)
plt.title("(a)网飞影视剧导演数量前十的导演")
 
plt.subplot(122)
sns.barplot(y=p9.index,x=p9,orient="h")
plt.ylabel('演员名字')
plt.xlabel('出演影视剧的数量',fontsize=14)
plt.title("(b)网飞影视剧出演数量前十的演员")
#plt.legend()
plt.tight_layout()
plt.show()

从上图得知网飞的影视剧数量前十名的导演,和出演数量前十名的演员。(只能看到名字我也不认识他们.....) ((只选取了前10,因为人名太多了图就会显得很乱))

网飞的影视剧名称的词云图

背景使用网飞的logo

from wordcloud import WordCloud
import random
from PIL import Image
import matplotlib
# Custom colour map based on Netflix palette
mask = np.array(Image.open('wf.png'))

cmap = matplotlib.colors.LinearSegmentedColormap.from_list("", ['#221f1f', '#b20710'])
text = str(list(df['title'])).replace(',', '').replace('[', '').replace("'", '').replace(']', '').replace('.', '')
wordcloud = WordCloud(background_color = 'white', width = 500,  height = 200,colormap=cmap, max_words = 150, mask = mask).generate(text)
plt.figure( figsize=(9,5),dpi=1028)
plt.imshow(wordcloud, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

 

 可以看到网飞影视剧标题用词数量最高的是'LOVE','World','Day','Life','Girl'等词汇。

网飞的影视剧简介的词云图

text2=str(list(df['description'])).replace(',', '').replace('[', '').replace("'", '').replace(']', '').replace('.', '')
wordcloud = WordCloud(background_color = 'white', width = 500,  height = 200,colormap='coolwarm', max_words =30).generate(text2)
plt.figure( figsize=(8,4),dpi=512)
plt.imshow(wordcloud, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

 可以看到网飞影视剧简介用词频率最高的是'life','family','love','find','new'等词汇。


总结

通过分析网飞的八千多部影视剧的数据,我们能得到如下的一些结论:

1、网飞影视剧中电影数量占比更多,将近七层,电视剧占比30%左右

2、由于网飞是美国的公司,在其本土上的影视作品数量最多,几乎占据了网飞所有影视作品的一半, 其次是印度、英国、日本、韩国、加拿大,这五个国家的网飞影视剧也较多。

3、网飞在印度,埃及,美国地区制作拍摄影视剧是更偏向与电影。而在韩国,日本,英国更偏向于电视剧发行。

4、网飞绝大多数的影视剧评级都是TV-MA和TV-14,即适合成年人的影视剧和合适14岁以上影视剧的评级。

5、网飞影视剧的发行国家和影视剧的评级有关,欧美等西方国家的影视剧会更加开放一点,而印度日本韩国亚洲国家的影视剧则会更加保守一点。

6、2014年开始,影视剧数量开始达到一个爆发式的增长状况,尤其在2019年上映的影视剧作品最多。19年之后受到疫情等影响上映影视作品数量又呈现慢慢下降趋势。

7、网飞影视剧数量上映的月份较为均匀,其中七月和十二月上映的电视剧较多,正好也对应了西方的暑假和寒假,假期上映电视剧较多。上映影视剧最少的是二月和三月。

8、网飞的大部分的电影或是电视剧的上映时间和发行时间相差不大,电影会稍微偏大点,反应了好电影比电视剧能一直流传的特点。电影电视剧的异常值都较多,极大值偏多,主要可能是网飞上映收录了不少以前的经典电视剧和电影

9、网飞的影视剧最多的类型是国际电影,然后是戏剧,喜剧,动作冒险片,纪录片。

10、在美国网飞上映的影视剧中,纪录片类型的最多,其次是戏剧,喜剧,家庭片,独立电影等。

11、得知网飞的影视剧数量前十名的导演,和出演数量前十名的演员。

12、网飞影视剧标题用词数量最高的是'LOVE','World','Day','Life','Girl'等词汇。

13、网飞影视剧简介用词频率最高的是'life','family','love','find','new'等词汇


本文由于没有用很复杂的数学模型,得到的结论不算很高级,但是也很有效有意义了。excel可做不出来这效果...大家可以核心地学学这些画图的方法吧,毕竟漂亮的图像和有效地结论才是可视化的意义。


创作不易,看官觉得写得还不错的话点个关注和赞吧,本人会持续更新python数据分析领域的代码文章~(需要定制代码可私信)

数据分析案例-图书书籍数据可视化分析
m0_64336780的博客
01-19 1万+
数据集来源于Kaggle,这个数据集包含了从wonderbk.com(一个受欢迎的在线书店)抓取的信息。该数据集包含103,063本书的详细信息,其中包含标题、作者、描述、类别、出版商、起始价格和出版日期等关键属性。Title:书的标题。Authors:本书的作者。Description :对本书的简要描述。Category:书籍所属的类别或流派。Publisher:负责本书的出版社。Price:书籍的初始价格。Publish Date:出版年份。
电视剧数据集-电视节目和电影数据集(奈飞)
06-25
奈飞电视节目和电影 其中15列信息,文件内包含属性详细说明,包括: ID title show type description release year age certification runtime genres production countries seasons IMDB ID IMDB Score TMDB Popularity
Python项目开发实战:影视作品分析小程序,案例教程编程实例课程详解
最新发布
一个好知识的传播者
06-28 644
1. 项目总结回顾整个项目开发过程,总结项目中的经验和教训。对项目的完成度、质量、性能等方面进行评估。2. 展望未来考虑增加更多的功能,如推荐系统、影视社区等。优化用户体验,提高系统的稳定性和安全性。探索更多的应用场景和技术实现方式,为影视行业的发展贡献更多的力量。
python数据分析】构建国产电视剧数据评分数据集
轩轩是只胖企鹅的企鹅窝
03-07 2527
构建国产电视剧评分数据任务描述任务说明初步分析数据获取单个页面下载多个页面下载初步分析提取单个html界面信息提取多个页面信息并保存到csv文件中 任务描述 需要收集目前国产电视剧的相关数据,预判一个电视剧的评分走向。 任务说明 收集数据,至少包含评分、电视剧名称、主演信息等三个信息。之后将数据存储到一个csv表中。表头如下:title、rating、stars,命名为tv_rating.csv。 初步分析 对比豆瓣和中国电视剧网可以看出,电视剧网有页数显示,页面的URL的page参数会发生变化。这样只需要
手把手教你:电影数据分析可视化系统
大雾的小屋的博客
07-16 3049
本文主要介绍如何使用python搭建:一个基于Python的电影数据分析可视化系统用户登录界面。爬虫电影数据收集。电影简介界面。根据用户偏好展示TOP10的电影。搜索功能界面。按照电影名、导演、演员,模糊匹配需要搜索的电影,并展示电影详情。电影数据分析可视化界面。用户选择关键词来查看数据和该分类下的数据可视化数据分析可视化包括:①电影年代、产地、类型的饼状图或柱状体、②关于电影评价的词云图分析。如各位童鞋需要更换自己的电影数据,完全可以根据源码备注将电影文本数据更换即可直接运行。
基于pandas,matplotlib,numpy的电影案例分析
goodness_for_me的博客
04-24 1362
电影案例分析前言我们想知道这些电影数据中评分的平均分,导演的人数等信息,我们应该怎么获取?对于这一组电影数据,如果我们想Rating,Runtime (Minutes)的分布情况,应该如何呈现数据?用pandas画图用matplotlib画图对于这一组电影数据,如果我们希望统计电影分类(genre)的情况,应该如何处理数据? import numpy as np import pandas as pd import matplotlib.pyplot as plt movie = pd.read_csv(
数据分析案例-电影数据可视化分析
热门推荐
m0_64336780的博客
06-12 2万+
数据介绍数据为2011-2021电影数据可视化分析首先导入本次项目需要的包和数据 数据预处理 可视化
Kaggle数据分析学习(一)-Netflix Shows and Movies
qq_46454022的博客
05-08 1371
Netflix Shows and Movies - Exploratory Analysis 搬运Kaggle上Shivam Bansal对网飞TV和movie的数据分析 其中数据可视化主要使用了plotly库 导入数据 1.pd.to_datetime 将日期参数转换为年月(datetime对象.dt.year/dt.month返回日期的年月信息) 2.新增列可以直接df[‘新的列名’] = df[‘date_added’].dt.month(整列的数据) 3.df.apply搭配lambda函数使用
Python数据分析可视化-电子教案.pdf
06-12
Python 数据分析可视化》是一门专为计算机系或大数据技术与应用专业学生设计的专业必修课程,旨在培养学生的数据分析可视化技能。课程总计60学时,包括36学时理论教学和24学时实验操作,授予3个学分。通过本...
python数据分析可视化.pdf
02-28
它拥有丰富的标准库和第三方库,可以用于各种应用,包括Web开发、数据分析、机器学习、科学计算、网络编程、自动化运维等。 以下是一些Python的基本特性: 易于学习:Python有相对较少的关键字,结构简单,和一个...
python 数据分析可视化
09-08
Python数据分析可视化》课程是针对数据处理和可视化的深入学习资源,涵盖了从Python编程基础知识到高级数据分析工具的广泛主题。课程旨在通过理论讲解、源代码实践和实验环节,帮助学员掌握利用Python进行数据...
netflix_titles.csv
05-29
TV Shows and Movies listed on Netflix This dataset consists of tv shows and movies available on Netflix as of 2019. The dataset is collected from Flixable which is a third-party Netflix search engine. In 2018, they released an interesting report which shows that the number of TV shows on Netflix has nearly tripled since 2010. The streaming service’s number of movies has decreased by more than 2,000 titles since 2010, while its number of TV shows has nearly tripled. It will be interesting to explore what all other insights can be obtained from the same dataset. Integrating this dataset with other external datasets such as IMDB ratings, rotten tomatoes can also provide many interesting findings. Inspiration Some of the interesting questions (tasks) which can be performed on this dataset - Understanding what content is available in different countries Identifying similar content by matching text-based features Network analysis of Actors / Directors and find interesting insights Is Netflix has increasingly focusing on TV rather than movies in recent years.
Python数据分析可视化源码实例
10-03
Python数据分析可视化是现代数据科学中的重要工具,它结合了强大的数据处理库如Pandas和NumPy,以及优秀的可视化库如Matplotlib、Seaborn和Plotly等,为数据科学家提供了高效且直观的数据洞察手段。本资源包含了一...
python数据分析可视化代码案例
05-27
python数据分析可视化
Python数据分析高薪实战第四天 构建国产电视剧评分数据集
fegus的博客
05-04 1456
10 实战:手把手教你构建国产电视剧评分数据集 在前面几讲,我们已经学习完了爬虫技术的三个基础环节:下载数据、提取数据以及保存数据。 今天我们将通过一个综合的实战案例来将之前的内容都串联起来,帮你加深印象,更好地掌握 Python 爬虫技术。 任务描述 近期,电视剧《司藤》热播,阿普闪购决定策划一场围绕国产口碑电视剧的周边特卖活动。为了最大化提升活动的成功率,需要对目前已经有的电视剧名称、演员和评分进行分析,以预判一个电视剧的评分走向。在一切预测与分析之前,首先就需要收集目前国产电视剧的相关数据,或者换句
Python数据分析与挖掘实战总结
专注大数据与人工智能技术分享,欢迎私信加群互相学习!
02-05 1万+
大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享。🎉。
国一大佬也收藏的16个Python数据可视化案例(附源码)
数模国一er
11-16 1万+
数据可视化是数学建模比赛中关键的一步。 同学们在以数据可视化表现某些数据时可以尝试使用 Python 的第三方库。 不过有些同学可能会问也会遇到不少问题,比如选择何种图表,以及如何制作,代码如何编写,这些都是问题! 今天给大家介绍几种常见的 Python 数据可视化图表(第一期),总计约 16 个示例~
数据集“Netflix电影电视剧及用户观影数据“的分析处理和可视化
qq_45672511的博客
05-10 4989
数据集“Netflix电影电视剧及用户观影数据“的分析处理和可视化 一、寻找数据集 from kaggle:《Netflix Movies and TV Shows》 -------- Shivam Bansal 二、数据集分析
python数据分析可视化分析案例
06-06
### 回答1: Python作为数据分析可视化分析的工具之一,越来越被广泛应用。下面将介绍一个用Python进行数据分析可视化分析的案例。 假设我们的目标是对某电商平台的销售数据进行分析和可视化。首先,我们需要收集销售数据,包括产品名称、销售时间、销售数量、销售价格等信息。我们可以通过爬虫或者API接口来获取数据,并将其储存在CSV或Excel文件中。 接着,我们可以利用Python的pandas库来进行数据清洗和处理。例如,我们可以筛选出特定时间段的销售数据、计算每个产品的销售总量和总收入等等。并且,pandas的DataFrame对象能够方便地对数据进行排序、分组、合并等操作。 完成数据处理后,我们可以使用Python可视化matplotlib和seaborn来进行数据可视化。我们可以绘制柱状图、折线图等多种图表,来展示销售数据的趋势和分布。此外,我们还可以使用热力图、散点图等高级可视化方式,来发现数据之间的关联性和规律性。 最后,我们可以将数据分析可视化的结果整合起来,编写报告或者制作PPT来展示数据分析可视化的结论和洞见。通过Python数据分析可视化,我们可以更好地理解销售数据,发现问题和机会,并做出更明智的决策。
写文章

热门文章

  • Python机器学习13——主成分分析 24071
  • 用Python计算点估计预测评价指标(误差指标RMSE、MSE、MAE、MAPE) ,画图展示 17925
  • Python数据分析案例24——基于深度学习的锂电池寿命预测 17663
  • Python数据分析案例08——预测泰坦尼克号乘员的生存(机器学习全流程) 17655
  • Python数据分析案例23——电商评论文本分析(LDA,共现网络) 17582

分类专栏

  • Python数据分析案例 59篇
  • Python优化算法 24篇
  • pandas数据分析 42篇
  • Python统计学 13篇
  • Python深度学习 14篇
  • Python量化交易 11篇
  • 实用的Python机器学习 21篇
  • Python自动化小技巧 24篇
  • MySQL数据库 14篇
  • RPA自动化办公 7篇

最新评论

  • Python数据分析案例44——基于模态分解和深度学习的电负荷量预测(VMD+BiGRU+注意力)

    济南苏轼: 如何预测电负荷量预测?

  • Python数据分析案例44——基于模态分解和深度学习的电负荷量预测(VMD+BiGRU+注意力)

    济南苏轼: 训练的都是分量数据,如何预测电负荷量预测?

  • Python自动化小技巧22——获取中国高校排名数据

    m0_74899654: 是要把弹出来的浏览器关掉了在重新运行代码吗

  • Python数据分析案例52——基于SSA-LSTM的风速预测(麻雀优化)

    bingz111: 谢谢大佬,学到很多

  • Python优化算法15——麻雀搜索算法(SSA)

    阡之尘埃: 案例52

最新文章

  • Python数据分析案例60——扩展变量后的神经网络风速预测(tsfresh)
  • Python数据分析案例59——基于图神经网络的反欺诈交易检测(GCN,GAT,GIN)
  • Python优化算法24——基于觅食生境选择的粒子群算法(FHSPSO)
2024
09月 6篇
08月 14篇
07月 8篇
06月 4篇
05月 4篇
04月 6篇
03月 4篇
02月 1篇
01月 9篇
2023年71篇
2022年118篇

目录

目录

评论 78
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

阡之尘埃

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司惠州网站优化推广多少钱汉中网站优化排名咨询江门网站优化费用多少网站分析与搜索引擎优化广东实力强网站关键词优化价格网站优化软件费用多少优化网站软件申请云速捷高名池州企业网站推广优化番禺网站优化网站标题优化属于搜索引擎化网站关键词优化哪家优惠浙江信息化网站优化价格表温州百度网络推广网站排名优化静海网站优化哪家专业亳州企业网站排名优化哪家服务好宁波网站优化的软件江油网站建设和优化服务网站搜索优化排名报价网站关键词优化推广效果保障优化网站推广怎么做网站文件资源优化乐清市区网站优化焦作网站优化效果衡水安平网站seo优化武汉企业网站做优化岳阳网站推广优化开发教程永济网站排名优化软件网站首页优化服务商滁州市企业网站排名优化网站推广优化方案费用歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化