redis scan 命令详解：高效遍历 Redis 数据

Redis `SCAN` 命令详解：高效遍历 Redis 数据

在 Redis 中，遍历数据库中的键是常见的操作。传统上，我们可能会想到使用 KEYS 命令。然而，KEYS 命令在数据量庞大时会带来显著的性能问题，因为它会一次性返回所有匹配的键，从而阻塞服务器。为了解决这一问题，Redis 引入了 SCAN 命令家族，提供了一种基于游标的增量式迭代方式，确保了高效且无阻塞的数据遍历。

为什么选择 `SCAN` 而非 `KEYS`？

KEYS 命令虽然简单直观，但在生产环境中却是一个“危险”的命令。当 Redis 实例中存储了成千上万甚至上亿的键时，执行 KEYS * 会导致：

服务器阻塞： KEYS 命令是一个同步操作，会遍历所有键空间。这意味着在命令执行期间，Redis 无法处理其他请求，导致服务中断。
内存占用： 一次性返回所有键可能会消耗大量内存，尤其是在键数量巨大的情况下。

相比之下，SCAN 命令则完美规避了这些问题：

增量迭代： 每次只返回少量元素，避免了长时间阻塞服务器。
非阻塞： 即使在迭代大型数据集时，也不会对服务器性能造成显著影响。
低内存占用： 每次只传输少量数据，降低了客户端和服务器的内存压力。

`SCAN` 命令的基本语法

SCAN 命令的基本语法如下：

SCAN cursor [MATCH pattern] [COUNT count] [TYPE type]

参数详解

cursor (游标)
- 这是一个无符号 64 位整数，表示迭代的起始位置。
- 要开始一次新的迭代，cursor 必须设置为 0。
- 每次 SCAN 命令执行后，Redis 会返回一个新的游标。客户端需要将这个新游标作为下一次 SCAN 命令的 cursor 参数，直到返回的游标为 0，表示迭代完成。这个循环往复的过程就是增量迭代的核心。
MATCH pattern (匹配模式)
- 这是一个可选参数，用于过滤返回的键。它支持 glob 风格的模式匹配，例如：
  - *: 匹配任意数量的字符。
  - ?: 匹配单个字符。
  - [abc]: 匹配字符 a、b 或 c。
- 重要提示： MATCH 过滤是在 Redis 检索到元素之后应用的。这意味着即使使用了 MATCH 模式，SCAN 命令在某些迭代中也可能返回空结果，因为匹配的元素可能位于当前批次之外。客户端必须继续迭代直到游标为 0 才能确保遍历所有潜在匹配项。
COUNT count (数量提示)
- 这是一个可选参数，作为 Redis 在每次迭代中尝试返回的元素数量的提示。
- COUNT 只是一个提示，Redis 不保证每次调用都会返回精确数量的元素，甚至可能返回零个元素。
- 默认的 COUNT 值为 10。
- 调整 COUNT 值可以影响每次迭代的耗时：
  - 较高的 COUNT 值可能导致单次调用返回更多元素，但可能增加单次调用的阻塞时间。
  - 较低的 COUNT 值则相反，有助于减少单次调用的延迟，但可能需要更多次的 SCAN 调用才能完成整个迭代。
TYPE type (类型过滤)
- 这是一个可选参数，仅在 Redis 6.0 及更高版本中可用，用于将结果限制为指定类型的键。例如，TYPE string 将只返回字符串类型的键。
- 与 MATCH 类似，TYPE 过滤也是在 Redis 检索到元素之后应用的。它不会减少服务器为完成完整迭代所需的工作量，只是在返回给客户端之前进行了过滤。

返回值

SCAN 命令返回一个包含两个元素的数组：

新的游标 (cursor)：一个字符串表示的无符号 64 位整数。客户端应该将此游标作为下一次 SCAN 命令的 cursor 参数。当此游标为 "0" 时，表示迭代完成，没有更多元素可供遍历。
元素列表 (elements)：一个包含当前批次键的数组。

客户端迭代逻辑示例 (伪代码)

为了正确使用 SCAN 命令，客户端需要实现一个循环，不断调用 SCAN 并更新游标，直到游标返回 0：

“`
current_cursor = “0”
all_keys = []

do {
// 执行 SCAN 命令，例如：SCAN current_cursor MATCH “user:” COUNT 100
// 假设 redis_client.scan 返回一个包含 [新游标, 键列表] 的数组
response = redis_client.scan(current_cursor, match=”user:“, count=100)

new_cursor = response[0] // 获取新的游标
keys_in_batch = response[1] // 获取当前批次的键

all_keys.extend(keys_in_batch) // 将当前批次的键添加到总列表中

current_cursor = new_cursor // 更新游标

// 处理 keys_in_batch，例如打印或进一步操作
for key in keys_in_batch:
    print(f"Found key: {key}")

} while (current_cursor != “0”)

print(f”Total keys found: {len(all_keys)}”)
“`

`SCAN` 命令家族：遍历数据结构内部

除了 SCAN 用于遍历所有键之外，Redis 还提供了针对特定数据结构内部元素的迭代命令，它们的工作方式与 SCAN 类似，但需要指定一个键作为参数：

SSCAN key cursor [MATCH pattern] [COUNT count]: 迭代集合 (Set) 中所有元素。
HSCAN key cursor [MATCH pattern] [COUNT count]: 迭代哈希 (Hash) 中所有字段和值对。
ZSCAN key cursor [MATCH pattern] [COUNT count]: 迭代有序集合 (Sorted Set) 中所有成员和分数对。

这些命令在需要遍历大型集合、哈希或有序集合而不阻塞 Redis 实例时非常有用。

迭代保证与注意事项

尽管 SCAN 命令提供了高效的遍历机制，但了解其迭代保证和特性至关重要：

完整迭代保证：
- 一次完整的 SCAN 迭代（从游标 0 开始，直到再次返回 0）保证会返回在迭代开始时存在且在迭代结束时仍然存在于集合中的所有元素。
- 这意味着，如果一个元素在迭代开始时存在，但在迭代过程中被删除了，它可能不会被返回。如果一个元素在迭代过程中被添加，它可能会被返回，也可能不会。
非快照特性：
- SCAN 命令不提供快照功能。在迭代过程中，如果集合中的元素被添加、修改或删除，这些变化可能会影响迭代结果。
- 重复返回： 在某些情况下，由于哈希表内部结构的变化（例如 rehash），同一个元素可能会在不同的迭代批次中被返回多次。客户端需要自行处理重复项（例如，使用 Set 结构存储已处理的键）。
- 遗漏： 极少数情况下，在迭代过程中进行大规模的增删操作，可能会导致某些元素被遗漏。
时间复杂度：
- 每次 SCAN 调用都是 O(1) 的时间复杂度，因为每次操作只处理一小部分数据。
- 一次完整的迭代，包括所有必要的命令调用直到游标返回 0，其时间复杂度为 O(N)，其中 N 是集合中的元素数量。这意味着 SCAN 仍然需要遍历所有元素，只是将工作分散到了多次调用中。

总结

Redis SCAN 命令是遍历 Redis 数据库键或大型数据结构内部元素的推荐方式。它通过增量式、非阻塞的迭代机制，避免了 KEYS 命令可能导致的性能问题。虽然需要客户端实现循环逻辑并处理可能出现的重复项，但 SCAN 命令的优点使其成为生产环境中安全、高效的数据遍历解决方案。理解其工作原理、参数和注意事项，将有助于您更好地管理和维护 Redis 实例。

为什么选择 SCAN 而非 KEYS？

SCAN 命令的基本语法

参数详解

返回值

客户端迭代逻辑示例 (伪代码)

SCAN 命令家族：遍历数据结构内部

迭代保证与注意事项

总结