IT科技类资讯

Python数据分析实战,小费数据集应用

时间:2010-12-5 17:23:32  作者:人工智能   来源:IT科技  查看:  评论:0
内容摘要:一、数据来源本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客

一、数据实战数据数据来源

本节选用的分析是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的小费数据,其中total_bill为消费总金额、数据实战数据tip为小费金额、分析sex为顾客性别、小费smoker为顾客是数据实战数据否吸烟、day为消费的分析星期、time为聚餐的小费时间段、size为聚餐人数。网站模板数据实战数据

import numpy as np from pandas import Series,分析DataFrame import pandas as pd import seaborn as sns    #导入seaborn库 tips=sns.load_dataset(tips)  #seaborn库自带的数据集 tips.head() 

二、问题探索

小费金额与消费总金额是小费否存在相关性? 性别、是数据实战数据否吸烟、星期几、分析聚餐人数和小费金额是小费否有一定的关联? 小费金额占小费总金额的百分比是否服从正态分布?

三、数据清洗

tips.shape #数据集的维度 

(244,7)

共有244条数据,7列。

tips.describe() #描述统计 

描述统计结果如上所示。香港云服务器

tips.info() #查看缺失值信息 

此例无缺失值。

四、数据探索

tips.plot(kind=scatter,x=total_bill,y=tip) #绘制散点图 

由图可看出,小费金额与消费总金额存在正相关性。

import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns   #导入seaborn库 tips=sns.load_dataset(tips)#seaborn库自带的数据集 tips.head() 

3.0896178343949052

female_tip = tips[tips[sex] == Female][tip].mean() #女性平均消费金额female_tip 

2.833448275862069

s = Series([male_tip,female_tip],index=[male,female]) s 

male 3.089618

female 2.833448

dtype: float64

s.plot(kind=bar) #男女平均小费柱状图 

由图可看出,女性小费金额小于男性小费金额。

sun_tip = tips[tips[day] == Sun][tip].mean() sat_tip = tips[tips[day] == Sat][tip].mean() thur_tip = tips[tips[day] == Thur][tip].mean() fri_tip = tips[tips[day] == Fri][tip].mean()#各个日期的平均小费值 s = Series([thur_tip,fri_tip,sat_tip,sun_tip],index=[Thur,Fri,Sat,Sun]) s  s.plot(kind=bar) #日期平均小费柱状图 

由图可看出,周六、周日的小费比周四、周五的小费高。

tips[percent_tip] = tips[tip]/(tips[total_bill]+tips[tip]) tips.head(10) #小费所占百分比  tips[percent_tip].hist(bins=50)#小费百分比直方图 

由图可看出,小费金额占小费总金额的百分比基本服从正态分布。源码库

copyright © 2025 powered by 益强资讯全景  滇ICP备2023006006号-31sitemap