Python案例如何统计数组元素个数？

wen python案例 2026-06-07 74

Python案例详解：如何高效统计数组元素个数？——从基础到进阶的完整指南

目录导读

为什么需要统计数组元素个数？
Python统计数组元素个数的5种核心方法
- 使用len()函数——最基础
- 使用count()方法——统计特定值
- 使用collections.Counter——一键统计频率
- 使用numpy——针对大型数组
- 使用pandas——处理结构化数据
实战案例对比：哪种方法最快？
常见错误与避坑指南
问答环节——解决你的高频疑惑
总结与最佳实践

为什么需要统计数组元素个数？

在数据处理、日志分析、科学计算等场景中，统计数组中每个元素出现的次数几乎是每天都会遇到的需求。

Python案例如何统计数组元素个数？

电商数据分析：统计某商品被购买的频率
文本分析：统计一篇文章中每个单词出现的次数
传感器数据：统计某个数值区间内的读数数量

Python提供了多种实现方式,但不同方法在性能、可读性、适用场景上差异很大，本文将从底层原理到实际案例，帮你彻底搞懂。

Python统计数组元素个数的5种核心方法

使用`len()`函数——最基础

len()返回数组的总长度，即包含的元素个数。

arr = [1, 2, 3, 4, 5, 1, 2, 3]
total_count = len(arr)
print(total_count)  # 输出：8

适用场景：只需要知道数组包含多少个元素，无论重复与否。
局限性：无法统计每个元素的出现次数。

使用`count()`方法——统计特定值

list.count(x)返回元素x在列表中出现的次数。

arr = [1, 2, 3, 4, 5, 1, 2, 3]
count_1 = arr.count(1)
count_2 = arr.count(2)
print(count_1, count_2)  # 输出：2 2

优点：直观、代码简单。
缺点：如果要统计所有元素，需要多次调用count()，时间复杂度为O(n²)，效率极低。

使用`collections.Counter`——一键统计频率

这是Python标准库中最推荐的方案,只需一行代码即可得到字典形式的频率统计结果。

from collections import Counter
arr = [1, 2, 3, 4, 5, 1, 2, 3]
counter = Counter(arr)
print(counter)  # 输出：Counter({1: 2, 2: 2, 3: 2, 4: 1, 5: 1})
print(counter[1])  # 输出：2

原理：Counter继承自字典，底层使用哈希表，统计过程的时间复杂度为O(n)。
扩展功能：

获取出现最多的前N个元素：counter.most_common(2)
合并多个Counter：counter1 + counter2

使用`numpy`——针对大型数组

如果数据量巨大（例如百万级），原生Python列表的遍历效率很低，此时应使用numpy的unique()函数。

import numpy as np
arr = np.array([1, 2, 3, 4, 5, 1, 2, 3])
unique, counts = np.unique(arr, return_counts=True)
result = dict(zip(unique, counts))
print(result)  # 输出：{1: 2, 2: 2, 3: 2, 4: 1, 5: 1}

性能优势：底层用C语言实现，对数值型数组的统计速度远超Counter。
注意：仅适用于同类型数值数组，不支持混合类型（如字符串+数字）。

使用`pandas`——处理结构化数据

当数据包含多列、缺失值、时间序列等复杂结构时，pandas的value_counts()是最佳选择。

import pandas as pd
series = pd.Series([1, 2, 3, 4, 5, 1, 2, 3])
counts = series.value_counts()
print(counts)
# 输出：
# 3    2
# 2    2
# 1    2
# 5    1
# 4    1
# dtype: int64

独特优势：

自动忽略缺失值（NaN）
支持按频率排序（默认降序）
可直接用于DataFrame列

实战案例对比：哪种方法最快？

我们做一个简单的性能测试：统计一个包含100万个随机整数的数组中，每个元素的出现次数。

import time
import random
from collections import Counter
import numpy as np
data = [random.randint(1, 1000) for _ in range(1_000_000)]
# 方法一：Counter
start = time.time()
c1 = Counter(data)
print(f"Counter耗时：{time.time() - start:.3f}秒")
# 方法二：numpy（需转换成array）
start = time.time()
arr = np.array(data)
unique, counts = np.unique(arr, return_counts=True)
print(f"numpy耗时：{time.time() - start:.3f}秒")
# 方法三：手动循环（最慢，仅供对比）
start = time.time()
d = {}
for x in data:
    d[x] = d.get(x, 0) + 1
print(f"手动循环耗时：{time.time() - start:.3f}秒")

测试结果（示例）：

Counter：0.23秒
numpy：0.08秒
手动循环：0.35秒

数据量大且为数值型时,优先用numpy；数据为字符串或混合类型时，用Counter。

常见错误与避坑指南

错误1：对嵌套列表使用len()误以为得到元素个数
```
arr = [[1,2], [3,4], [5,6]]
print(len(arr))  # 输出3，而不是6
```
正确做法：sum(len(sub) for sub in arr)
错误2：用count()在循环中统计所有元素，导致性能灾难
```
# 错误示例：O(n²)
for x in set(arr):
    print(x, arr.count(x))
```
错误3：在numpy数组中混入字符串，导致类型错误
解决方案：先用numpy.char或pandas处理字符串数组。

问答环节

Q1：统计数组中某个元素个数时，count()和Counter哪个更快？
A：count()在每次调用时都会遍历整个列表，而Counter只遍历一次，因此如果需要统计多个元素，Counter更快；如果只统计一个元素，count()稍快但差异不大。

Q2：统计字典中的值（数组）的重复次数，用哪种方法？
A：可以将所有字典值提取出来组成一个列表，再用Counter。

my_dict = {'a': [1,2], 'b': [1,2], 'c': [3,4]}
from collections import Counter
counts = Counter(tuple(v) for v in my_dict.values())  # 注意列表不可哈希，需转为元组

Q3：统计结果如何按次数降序排列？
A：Counter自带most_common()方法；pandas的value_counts()默认降序；numpy的结果可以通过sorted()排序。

Q4：统计时要不要考虑缺失值？
A：如果数据来自外部文件，建议用pandas的value_counts(dropna=False)来包含缺失值统计。

总结与最佳实践

场景	推荐方法	理由
小数组（<1万），仅求总个数	`len()`	最快最简洁
小数组，统计某个元素	`list.count()`	直接直观
通用场景，统计所有元素频率	`collections.Counter`	平衡性能与易用性
大型数值数组（>10万）	`numpy.unique`	性能碾压
数据含缺失值、多列结构化	`pandas.value_counts`	功能最全面