Regex：一篇搞定核心概念与常用技巧

正则表达式（Regular Expression，简称Regex）是计算机科学中一个强大的工具，用于在文本中查找、匹配和操作符合特定模式的字符串。无论你是开发者、数据分析师还是系统管理员，掌握Regex都将极大地提升你处理文本的效率。本文将从核心概念讲起，带你一步步掌握Regex的常用技巧。

核心概念

最基本的正则表达式就是由普通字符组成的。例如，cat这个表达式会匹配文本中出现的”cat”这个单词。

元字符是Regex中具有特殊含义的字符，它们是构建复杂模式的关键。

字符类定义了一组可以匹配的字符。

为了方便，Regex提供了一些预定义的字符类：

量词用于指定前面的元素（字符、字符类或组）必须出现的次数。

贪婪与非贪婪匹配 (Greedy vs. Lazy)

默认情况下，量词是“贪婪的”，它们会尽可能多地匹配文本。在量词后加上?可以使其变为“非贪婪”或“懒惰”模式，即尽可能少地匹配。

锚点用于匹配字符串中的特定位置，而不是字符本身。

Regex在表单验证中非常有用，可以确保用户输入的数据格式正确。

一个相对简单的邮箱验证Regex：

regex ^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

regex ^1[3-9]\d{9}$

使用Regex可以轻松地查找和替换文本。

示例： 将所有Markdown标题（如 # 标题）替换为HTML的 <h1> 标签。

这里的 $1 是一个反向引用（backreference），它指向第一个捕获组 (.*) 匹配到的内容（即标题文本）。

从大段文本中提取特定信息是Regex的另一个强大应用。

示例： 从HTML代码中提取所有链接的URL。

html <a href="https://example.com">Link 1</a> <a href="http://test.org/page">Link 2</a>

可以使用以下Regex来提取 href 属性的值：

regex href="([^"]*)"

正则表达式是一个功能极其丰富的工具，初学时可能会觉得有些复杂。但通过理解其核心概念，并从简单的模式开始实践，你会慢慢发现它的强大之处。希望本文能为你打开Regex世界的大门，让你在处理文本时更加得心应手。建议使用在线Regex测试工具（如 regex101.com）来练习和调试你的表达式。