掌握 NumPy `repeat()`：提升数据处理效率

在数据科学和机器学习领域，高效地处理和操作大型数据集是至关重要的。NumPy，作为 Python 中用于科学计算的核心库，提供了大量高性能的数组操作函数。其中，numpy.repeat() 是一个强大而灵活的工具，能够有效地重复数组元素，从而显著提升数据处理的效率。

本文将深入探讨 numpy.repeat() 函数的用法、参数以及它如何帮助我们更高效地进行数据操作。

`numpy.repeat()` 简介

numpy.repeat() 函数用于沿着指定的轴重复数组中的元素。它的主要优点在于，与使用 Python 原生循环相比，numpy.repeat() 内部是用 C 语言实现的，这使得它在处理大型数组时具有显著的速度优势。

基本语法：

python numpy.repeat(a, repeats, axis=None)

参数解释：

a：要重复元素的输入数组。
repeats：一个整数或整数数组。
- 如果是一个整数，表示 a 中每个元素或每个切片要重复的次数。
- 如果是一个数组，它必须与 a 的形状兼容（具体取决于 axis 参数），指定每个元素或切片各自的重复次数。
axis：可选参数，指定沿着哪个轴重复。
- None（默认值）：在展平（flatten）数组后进行重复。结果将是一个一维数组。
- 整数：沿着指定的轴重复。

基本用法：单一重复次数

当 repeats 是一个整数时，数组中的每个元素（或在指定轴上的每个切片）都将重复相同的次数。

示例 1：一维数组

“`python
import numpy as np

arr = np.array([1, 2, 3])
repeated_arr = np.repeat(arr, 3)
print(repeated_arr)

输出: [1 1 1 2 2 2 3 3 3]

“`

在这个例子中，数组 arr 中的每个元素都被重复了 3 次。

示例 2：多维数组，axis=None

“`python
import numpy as np

arr_2d = np.array([[1, 2], [3, 4]])
repeated_arr_flat = np.repeat(arr_2d, 2, axis=None)
print(repeated_arr_flat)

输出: [1 1 2 2 3 3 4 4]

“`

当 axis=None 时，数组首先被展平（即变成一维），然后每个元素重复 repeats 次。

沿着指定轴重复 (`axis` 参数)

axis 参数是 numpy.repeat() 最强大的功能之一，它允许我们控制重复发生的方向。

示例 3：沿着行重复 (axis=0)

“`python
import numpy as np

arr_2d = np.array([[1, 2], [3, 4]])
repeated_rows = np.repeat(arr_2d, 2, axis=0)
print(repeated_rows)

输出:

[[1 2]

[1 2]

[3 4]

[3 4]]

“`

当 axis=0 时，整个行（索引为 0 的维度）被重复。这里，第一行 [1, 2] 被重复了 2 次，然后第二行 [3, 4] 也被重复了 2 次。

示例 4：沿着列重复 (axis=1)

“`python
import numpy as np

arr_2d = np.array([[1, 2], [3, 4]])
repeated_cols = np.repeat(arr_2d, 3, axis=1)
print(repeated_cols)

输出:

[[1 1 1 2 2 2]

[3 3 3 4 4 4]]

“`

当 axis=1 时，沿着列（索引为 1 的维度）重复。这意味着数组中的每个元素在水平方向上被重复。第一行的 1 被重复 3 次，2 被重复 3 次，形成 [1 1 1 2 2 2]。第二行同理。

非均匀重复次数 (`repeats` 为数组)

repeats 参数也可以是一个数组，允许我们为输入数组中每个对应的元素或切片指定不同的重复次数。

示例 5：一维数组的非均匀重复

“`python
import numpy as np

arr = np.array([1, 2, 3])
repeats_per_element = np.array([1, 4, 2])
repeated_uneven = np.repeat(arr, repeats_per_element)
print(repeated_uneven)

输出: [1 2 2 2 2 3 3]

“`

这里，1 重复 1 次，2 重复 4 次，3 重复 2 次。repeats 数组的长度必须与 arr 的长度匹配。

示例 6：多维数组在指定轴上的非均匀重复

当 axis 参数被指定且 repeats 是一个数组时，repeats 数组的长度必须与 a 在 axis 维度上的大小相同。

“`python
import numpy as np

arr_2d = np.array([[1, 2], [3, 4]])
repeats_for_rows = np.array([1, 3]) # 第一行重复1次，第二行重复3次
repeated_rows_uneven = np.repeat(arr_2d, repeats_for_rows, axis=0)
print(repeated_rows_uneven)

输出:

[[1 2]

[3 4]

[3 4]]

“`

这里，repeats_for_rows 的长度是 2，与 arr_2d 在 axis=0（行数）上的大小（也是 2）相匹配。

提升数据处理效率

numpy.repeat() 相比于 Python 列表推导式或循环具有显著的效率优势，尤其是在处理大型数据集时。

考虑以下场景：你需要将一个包含 1000 个元素的一维数组的每个元素重复 100 次。

使用 Python 列表推导式 (效率较低):

“`python
import time

my_list = list(range(1000))
start_time = time.time()
result_list = [item for item in my_list for _ in range(100)]
end_time = time.time()
print(f”Python list comprehension time: {end_time – start_time:.6f} seconds”)
“`

使用 numpy.repeat() (效率高):

“`python
import numpy as np
import time

my_array = np.arange(1000)
start_time = time.time()
result_array = np.repeat(my_array, 100)
end_time = time.time()
print(f”NumPy repeat() time: {end_time – start_time:.6f} seconds”)
“`

在实际测试中，numpy.repeat() 会比列表推导式快几个数量级，因为它避免了 Python 解释器的开销，并利用了底层 C 语言的优化。

实际应用场景

numpy.repeat() 在许多数据处理任务中都非常有用：

数据扩增 (Data Augmentation)：在机器学习中，可能需要通过重复现有数据点来增加训练集的大小，尤其是在处理类别不平衡问题时。
特征工程 (Feature Engineering)：
- 创建多项式特征：将现有特征重复并与其他特征组合。
- 对齐数据：在合并或连接不同形状的数组时，可能需要重复某些行或列以使其维度匹配。
模式生成：生成重复的序列或图案数组。
可视化准备：为绘制图表或图像处理准备数据，例如将图像的每个像素重复以放大图像。

总结

numpy.repeat() 是 NumPy 库中一个功能强大且高效的函数，用于重复数组元素。通过灵活使用 repeats 和 axis 参数，我们可以实现各种复杂的重复模式，无论是均匀的还是非均匀的，无论是展平后重复还是沿着特定维度重复。掌握 numpy.repeat() 能够显著提高你在 Python 中进行数据操作的效率和灵活性，尤其是在处理大规模数组时。将其纳入你的数据处理工具箱，将帮助你编写更简洁、更快速的代码。

掌握 NumPy repeat()：提升数据处理效率

numpy.repeat() 简介

基本用法：单一重复次数

输出: [1 1 1 2 2 2 3 3 3]

输出: [1 1 2 2 3 3 4 4]

沿着指定轴重复 (axis 参数)

输出:

[[1 2]

[1 2]

[3 4]

[3 4]]

输出:

[[1 1 1 2 2 2]

[3 3 3 4 4 4]]

非均匀重复次数 (repeats 为数组)

输出: [1 2 2 2 2 3 3]

输出:

[[1 2]

[3 4]

[3 4]

[3 4]]

提升数据处理效率

实际应用场景

总结

掌握 NumPy `repeat()`：提升数据处理效率

`numpy.repeat()` 简介

沿着指定轴重复 (`axis` 参数)

非均匀重复次数 (`repeats` 为数组)