Python案例如何实现数据聚合统计？

wen python案例 2026-06-18 3

Python案例如何实现数据聚合统计？——从入门到实战的完整指南

目录导读

数据聚合统计的核心概念
Python数据聚合的五大工具
实战案例一：销售数据按部门聚合
实战案例二：多维度分组与自定义聚合
常见问题答疑
SEO优化建议与最佳实践

数据聚合统计的核心概念

数据聚合统计是指将原始数据按照特定规则分组，并对每组数据执行汇总计算（如求和、平均、计数等）的过程，将电商订单按月份分组，统计每月销售额；或按用户ID分组,计算每个用户的总消费次数。

Python案例如何实现数据聚合统计？

为什么需要数据聚合？

从海量分散数据中提取有意义的指标（如KPI）
支持决策分析（如查看哪些产品类别销售额最高）
减少数据维度，便于可视化展示

Python作为数据分析的首选语言，通过pandas、NumPy等库能高效完成聚合操作。

Python数据聚合的五大工具

工具/方法	适用场景	核心函数
pandas.groupby()	结构化表格数据	df.groupby('列名').agg()
pandas.pivot_table()	透视表聚合	pd.pivot_table(df, values='...', index='...', aggfunc='sum')
pandas.crosstab()	交叉频率统计	pd.crosstab(index, columns)
NumPy	数值数组聚合	np.sum(), np.mean(), np.bincount()
SQL语法（通过pandasql）	熟悉SQL的用户	sqldf("SELECT col, SUM(val) FROM df GROUP BY col")

选择建议：90%的聚合场景使用groupby()+agg()即可解决，复杂多维度统计用pivot_table()。

实战案例一：销售数据按部门聚合

场景描述

假设有公司2023年销售数据sales_data.csv，包含字段：部门、员工、销售额、成本，需要统计每个部门的总销售额、平均成本、订单数量。

完整代码实现

import pandas as pd
# 读取数据
df = pd.read_csv('sales_data.csv')
# 按部门分组聚合
result = df.groupby('部门').agg(
    总销售额 = ('销售额', 'sum'),
    平均成本 = ('成本', 'mean'),
    订单数 = ('订单ID', 'count')  # 假设有订单ID列
)
# 添加排名（按销售额降序）
result['排名'] = result['总销售额'].rank(ascending=False, method='min').astype(int)
print(result.head())

输出示例

        总销售额  平均成本  订单数  排名
部门
技术部  1250000  2450.5   32   2
销售部  2100000  3100.8   45   1
行政部   580000  1800.2   18   3

关键点

agg()函数支持传入字典或元组列表，可同时做多种统计
使用rename()可重命名聚合后的列名
聚合后可用sort_values()排序

实战案例二：多维度分组与自定义聚合

场景描述

统计不同季度、不同产品类别的销售额和利润（销售额-成本）,并计算每个季度内各类别的销售额占比。

代码实现

# 创建日期字段的季度信息
df['季度'] = pd.to_datetime(df['交易日期']).dt.quarter
# 多维度分组
pivot = df.groupby(['季度', '产品类别']).agg(
    总销售额 = ('销售额', 'sum'),
    总成本 = ('成本', 'sum')
).reset_index()
# 自定义聚合：计算利润
pivot['利润'] = pivot['总销售额'] - pivot['总成本']
# 计算每个季度内各类别销售额占比
pivot['季度内占比'] = pivot.groupby('季度')['总销售额'].transform(lambda x: x / x.sum() * 100)
print(pivot)

输出示例

   季度 产品类别  总销售额   总成本   利润  季度内占比
0   1   电子  50000  35000  15000  40.0
1   1   服装  75000  50000  25000  60.0
2   2   电子  62000  40000  22000  55.0
3   2   服装  48000  32000  16000  45.0

进阶技巧

transform()返回与原DataFrame长度相同的值，适合计算比例
使用pd.Grouper(key='日期列', freq='M')可快速按月/季度分组

常见问题答疑

Q1：聚合后数据出现NaN怎么办？
A：NaN通常因分组键为NaN或统计函数对空值敏感导致，可用dropna()先移除缺失分组键，或用groupby(..., dropna=False)保留NaN组，再通过fillna(0)处理统计结果。

Q2：我想同时用两种不同的聚合函数（比如sum和mean）处理不同列，怎么写最简洁？
A：使用agg({ '列名1': 'sum', '列名2': ['mean', 'std'] })，pandas会自动展开多级列索引，如果想改成平坦结果：使用.pipe()或.reset_index()调整。

Q3：大数据量时groupby很慢，如何优化？
A：