📣 前言
- 👓 可视化主要使用 plotly
- 🔎 数据处理主要使用 pandas
- 🕷️ 数据爬取主要使用 requests
- 👉 本文是我自己在和鲸社区的原创
今天这篇文章将给大家介绍【关于电商产品运营数据的探索】
案例。
Step 1. 导入模块
import pandas as pd import plotly.express as px
Step 2. 数据概览
数据下载:查看文章末尾获取。
file_path = '/home/mw/input/bestbuy5195/Best Buy products.csv' df = pd.read_csv(file_path) df.head()
输出结果:
Step 3.数据分析可视化
3.1 价格分布
绘制最终价格(final_price)的分布图,以了解产品的价格范围
# 将 final_price 转换为数值类型,通过去除货币符号和逗号 df['final_price'] = df['final_price'].str.replace('$', '').str.replace(',', '').astype(float) # 将 discount 转换为数值类型,通过去除前缀 'Save ' 和逗号 df['discount'] = df['discount'].str.replace('Save ', '').str.replace(',', '').str.replace('$', '') df['discount'] = df['discount'].apply(lambda x: float(x) if isinstance(x, str) and x.isdigit() else float('nan'))
# 将 rating 转换为数值类型 df['rating'] = pd.to_numeric(df['rating'], errors='coerce') # 将 reviews_count 和 questions_count 转换为数值类型 df['reviews_count'] = pd.to_numeric(df['reviews_count'], errors='coerce') df['questions_count'] = pd.to_numeric(df['questions_count'], errors='coerce') # 再次查看前几行以确保数据类型正确 df.head()
输出结果:
fig = px.histogram(df, x='final_price', nbins=30, marginal='rug', title='Distribution of Final Prices') # 更新字体样式 fig.update_layout( template="plotly_white", font=dict( size=14, color="#000000" ) ) fig.update_layout(xaxis_title='Final Price', yaxis_title='Frequency') fig.show()
输出结果:
从最终价格的分布图中可以看出,大部分产品的价格集中在较低的区域,尤其是在0到500美元之间。还有一些产品的价格超过了这个范围,但数量相对较少。
3.2 折扣情况
绘制折扣(discount)的分布图,查看折扣的普遍情况
输出结果:
折扣分布图显示,大部分的折扣都集中在较小的数值范围内,尤其是在0到200美元之间。这表明虽然许多产品都有折扣,但大多数折扣的金额并不是很高。
3.3 品类分布
对产品所属的品类(root_category)进行计数,看看哪些类别的产品最多。
root_category_counts = df['root_category'].value_counts().reset_index()
root_category_counts
输出结果:
品类分布图显示,某些品类下的产品数量远多于其他品类。在顶部的是产品数量最多的品类,而其他品类则相对较少。具体来说,排在前面的品类如 “Appliances”(家电)和 “Computers & Tablets”(电脑和平板)等,这些品类的产品数量较多。
3.4 评分分布
绘制产品评分(rating)的分布图,了解产品的整体评分情况。
产品评分的分布图显示,大部分产品的评分集中在较高的区域,尤其是在4到5星之间。这表明在数据集中的产品大多数都获得了较高的评分。
3.5 评价数量和提问数量
分析评价数量(reviews_count)和提问数量(questions_count)之间的关系。
从评价数量与提问数量之间的关系散点图中可以看出,随着评价数量的增加,提问数量也呈现出一定的增加趋势。这表明产品受到的关注度越高,用户提出的问题也越多。
完整代码👇
https://www.heywhale.com/mw/project/661dded9d60ce3fe5b02b428
ps:访问链接点击【在线运行】即可查看完整代码,且不需要担心环境配置问题
数据获取方式
关注公众号,回复关键词【电商产品运营数据】即可免费获取
- END -
以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。
👆 关注**「布鲁的Python之旅」**第一时间收到更新
还没有评论,来说两句吧...