【Python数分实战】关于电商产品运营数据的探索

【Python数分实战】关于电商产品运营数据的探索

码农世界 2024-05-23 后端 55 次浏览 0个评论

📣 前言

  • 👓 可视化主要使用 plotly
  • 🔎 数据处理主要使用 pandas
  • 🕷️ 数据爬取主要使用 requests
  • 👉 本文是我自己在和鲸社区的原创

    今天这篇文章将给大家介绍【关于电商产品运营数据的探索】

    案例。

    Step 1. 导入模块

    import pandas as pd
    import plotly.express as px
    

    Step 2. 数据概览

    数据下载:查看文章末尾获取。

    file_path = '/home/mw/input/bestbuy5195/Best Buy products.csv'
    df = pd.read_csv(file_path)
    df.head()
    

    输出结果:

    【Python数分实战】关于电商产品运营数据的探索

    Step 3.数据分析可视化

    3.1 价格分布

    绘制最终价格(final_price)的分布图,以了解产品的价格范围

    # 将 final_price 转换为数值类型,通过去除货币符号和逗号
    df['final_price'] = df['final_price'].str.replace('$', '').str.replace(',', '').astype(float)
    # 将 discount 转换为数值类型,通过去除前缀 'Save ' 和逗号
    df['discount'] = df['discount'].str.replace('Save ', '').str.replace(',', '').str.replace('$', '')
    df['discount'] = df['discount'].apply(lambda x: float(x) if isinstance(x, str) and x.isdigit() else float('nan'))
    
    # 将 rating 转换为数值类型
    df['rating'] = pd.to_numeric(df['rating'], errors='coerce')
    # 将 reviews_count 和 questions_count 转换为数值类型
    df['reviews_count'] = pd.to_numeric(df['reviews_count'], errors='coerce')
    df['questions_count'] = pd.to_numeric(df['questions_count'], errors='coerce')
    # 再次查看前几行以确保数据类型正确
    df.head()
    

    输出结果:

    【Python数分实战】关于电商产品运营数据的探索

    fig = px.histogram(df, x='final_price', nbins=30, marginal='rug', title='Distribution of Final Prices')
    # 更新字体样式
    fig.update_layout(
        template="plotly_white",
        font=dict(
            size=14,
            color="#000000"
        )
    )
    fig.update_layout(xaxis_title='Final Price', yaxis_title='Frequency')
    fig.show()
    

    输出结果:

    【Python数分实战】关于电商产品运营数据的探索

    从最终价格的分布图中可以看出,大部分产品的价格集中在较低的区域,尤其是在0到500美元之间。还有一些产品的价格超过了这个范围,但数量相对较少。

    3.2 折扣情况

    绘制折扣(discount)的分布图,查看折扣的普遍情况

    输出结果:

    【Python数分实战】关于电商产品运营数据的探索

    折扣分布图显示,大部分的折扣都集中在较小的数值范围内,尤其是在0到200美元之间。这表明虽然许多产品都有折扣,但大多数折扣的金额并不是很高。

    3.3 品类分布

    对产品所属的品类(root_category)进行计数,看看哪些类别的产品最多。

    root_category_counts = df['root_category'].value_counts().reset_index()
    
    root_category_counts
    

    输出结果:

    【Python数分实战】关于电商产品运营数据的探索

    【Python数分实战】关于电商产品运营数据的探索

    品类分布图显示,某些品类下的产品数量远多于其他品类。在顶部的是产品数量最多的品类,而其他品类则相对较少。具体来说,排在前面的品类如 “Appliances”(家电)和 “Computers & Tablets”(电脑和平板)等,这些品类的产品数量较多。

    3.4 评分分布

    绘制产品评分(rating)的分布图,了解产品的整体评分情况。

    输出结果:【Python数分实战】关于电商产品运营数据的探索

    产品评分的分布图显示,大部分产品的评分集中在较高的区域,尤其是在4到5星之间。这表明在数据集中的产品大多数都获得了较高的评分。

    3.5 评价数量和提问数量

    分析评价数量(reviews_count)和提问数量(questions_count)之间的关系。

    输出结果:【Python数分实战】关于电商产品运营数据的探索

    从评价数量与提问数量之间的关系散点图中可以看出,随着评价数量的增加,提问数量也呈现出一定的增加趋势。这表明产品受到的关注度越高,用户提出的问题也越多。

    完整代码👇

    https://www.heywhale.com/mw/project/661dded9d60ce3fe5b02b428

    ps:访问链接点击【在线运行】即可查看完整代码,且不需要担心环境配置问题

    数据获取方式

    关注公众号,回复关键词【电商产品运营数据】即可免费获取

    - END -

    以上就是本期为大家整理的全部内容了,喜欢的朋友可以点赞、点在看也可以分享让更多人知道。

    【Python数分实战】关于电商产品运营数据的探索

    👆 关注**「布鲁的Python之旅」**第一时间收到更新

转载请注明来自码农世界,本文标题:《【Python数分实战】关于电商产品运营数据的探索》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,55人围观)参与讨论

还没有评论,来说两句吧...

Top