PHP 字符串提取：从基础函数到高级正则表达式的全面指南57

```html

在 PHP 编程中，字符串处理无疑是最常见也最核心的任务之一。无论是解析用户输入、处理数据库查询结果，还是分析日志文件，我们都频繁地需要从一个较长的字符串中“提取”出我们想要的那部分信息。PHP 提供了一系列强大而灵活的内置函数，用于实现各种字符串提取需求，从简单的位置截取到复杂的模式匹配。本文将作为一份全面的指南，深入探讨 PHP 中用于提取字符串的各种函数，包括它们的使用场景、参数详解、代码示例、性能考量以及最佳实践。

一、基础篇：基于位置和长度的提取

最直接的字符串提取方式是根据其在字符串中的起始位置和长度来截取。PHP 的 `substr()` 函数是实现这一目标的核心工具。

1.1 `substr()`：精准截取字符串片段

`substr()` 函数用于返回字符串的子串。它的语法非常直观：

substr(string $string, int $start, ?int $length = null): string|false

`$string`: 要处理的源字符串。
`$start`: 子字符串的起始位置。

如果为正数，则从字符串的开头算起（第一个字符是 0）。
如果为负数，则从字符串的末尾算起（-1 表示最后一个字符）。

`$length`: 可选参数，子字符串的长度。

如果为正数，则返回指定长度的子串。
如果为负数，则表示从 `$start` 位置开始，到字符串末尾倒数 `$length` 个字符为止。
如果省略，则返回从 `$start` 位置到字符串末尾的所有字符。

示例：

$text = "Hello, PHP World!";
// 从索引 0 开始，长度为 5
echo substr($text, 0, 5); // 输出: Hello
// 从索引 7 开始，到字符串末尾
echo substr($text, 7); // 输出: PHP World!
// 从末尾倒数 6 个字符开始
echo substr($text, -6); // 输出: World!
// 从索引 7 开始，到末尾倒数 7 个字符为止
echo substr($text, 7, -7); // 输出: PHP
// 负数起始位置和正数长度
echo substr($text, -12, 3); // 从 "PHP World!" 的 'P' 开始，取3个字符，输出: PHP

注意事项： `substr()` 默认是按字节处理的，对于多字节字符集（如 UTF-8 中的汉字），这会导致截取错误。遇到多字节字符时，应使用其多字节版本 `mb_substr()`。

二、查找与定位：基于子串的提取

在很多情况下，我们不知道要提取的字符串的具体位置，但我们知道它前面或后面会跟着特定的子串（“分隔符”或“标记”）。PHP 提供了一系列函数来查找这些子串并基于它们进行提取。

2.1 `strpos()` 和 `stripos()`：查找子串的首次出现位置

这两个函数用于查找子串在主字符串中首次出现的位置。

strpos(string $haystack, string $needle, int $offset = 0): int|false
stripos(string $haystack, string $needle, int $offset = 0): int|false // 不区分大小写

`$haystack`: 源字符串（大海）。
`$needle`: 要查找的子字符串（针）。
`$offset`: 可选参数，从哪个位置开始搜索。

它们返回 `needle` 在 `haystack` 中首次出现的位置（从 0 开始），如果未找到则返回 `false`。

重要提示：由于 `strpos()` 可能会返回 `0` (表示在字符串开头找到)，这在布尔上下文中会被解释为 `false`。因此，判断是否找到子串时，务必使用严格比较 `=== false` 或 `!== false`。

示例：

$url = "/path/to/";
$pos = strpos($url, ".com"); // 查找 ".com" 的位置
if ($pos !== false) {
echo "'.com' 首次出现在索引 " . $pos . ""; // 输出: '.com' 首次出现在索引 18
// 提取域名部分
echo substr($url, strpos($url, "://") + 3, $pos - (strpos($url, "://") + 3)) . ""; // 输出:
}
$email = "user@";
$atPos = strpos($email, "@");
$dotPos = strpos($email, ".", $atPos); // 从 @ 后面开始查找 .
if ($atPos !== false && $dotPos !== false) {
echo "用户名: " . substr($email, 0, $atPos) . ""; // 输出: user
echo "域名: " . substr($email, $atPos + 1, $dotPos - ($atPos + 1)) . ""; // 输出: example
}

2.2 `strrpos()` 和 `strripos()`：查找子串的最后出现位置

与 `strpos()` 类似，但它们从字符串的末尾开始向前查找，返回子串最后出现的位置。

strrpos(string $haystack, string $needle, int $offset = 0): int|false
strripos(string $haystack, string $needle, int $offset = 0): int|false // 不区分大小写

示例：提取文件扩展名

$filename = "";
$lastDotPos = strrpos($filename, ".");
if ($lastDotPos !== false) {
echo "文件扩展名: " . substr($filename, $lastDotPos + 1) . ""; // 输出: pdf
}

2.3 `strstr()` 和 `stristr()`：从子串处开始提取

这两个函数在找到子字符串后，会返回从该子字符串到原字符串末尾的部分。

strstr(string $haystack, string $needle, bool $before_needle = false): string|false
stristr(string $haystack, string $needle, bool $before_needle = false): string|false // 不区分大小写

`$before_needle`: 可选参数，如果设置为 `true`，则返回 `needle` 之前的部分。

示例：

$email = "name@";
// 提取域名部分（从 @ 开始到末尾）
echo strstr($email, '@') . ""; // 输出: @
// 提取用户名部分（@ 之前）
echo strstr($email, '@', true) . ""; // 输出: name
$fullUrl = "localhost/my-app/?param=value";
// 提取协议部分
echo stristr($fullUrl, "://", true) . ""; // 输出: http

三、分割与重组：基于分隔符的提取

当字符串由明确的分隔符隔开时，将其分割成数组是提取各个部分的有效方法。

3.1 `explode()`：按分隔符分割字符串

`explode()` 函数将字符串按照指定的分隔符拆分成一个数组。

explode(string $separator, string $string, int $limit = PHP_INT_MAX): array

`$separator`: 分隔符。
`$string`: 要分割的字符串。
`$limit`: 可选参数，限制返回数组的元素数量。

如果为正数，则最多返回 `$limit` 个元素，最后一个元素将包含字符串剩余的部分。
如果为负数，则返回除了最后 `-limit` 个元素以外的所有元素。
如果为 0，则返回一个包含一个元素的数组。

示例：

$data = "apple,banana,orange,grape";
// 分割所有水果
$fruits = explode(",", $data);
print_r($fruits);
/*
Array
(
[0] => apple
[1] => banana
[2] => orange
[3] => grape
)
*/
// 限制分割数量
$limitedFruits = explode(",", $data, 3);
print_r($limitedFruits);
/*
Array
(
[0] => apple
[1] => banana
[2] => orange,grape
)
*/
$path = "/usr/local/bin/php";
$parts = explode("/", $path);
print_r($parts);
/*
Array
(
[0] =>
[1] => usr
[2] => local
[3] => bin
[4] => php
)
*/
// 注意：如果字符串以分隔符开头，第一个元素会是空字符串。

`explode()` 是处理 CSV 数据、路径、URL 参数等结构化字符串的利器。

3.2 `strtok()`：逐步提取令牌（不常用但了解）

`strtok()` 函数可以将字符串分解成一系列更小的字符串（令牌）。每次调用时，它会返回一个令牌，并在内部维护一个指向原始字符串当前位置的指针。

strtok(string $string, string $token): string|false // 首次调用
strtok(string $token): string|false // 后续调用

示例：

$string = "This is a simple example.";
$token = strtok($string, " "); // 第一次调用，传入整个字符串
while ($token !== false) {
echo $token . "";
$token = strtok(" "); // 后续调用，只传入分隔符
}
/*
输出:
This
is
a
simple
example.
*/

`strtok()` 在处理固定格式的日志或协议字符串时可能有用，但由于其内部状态管理，通常不如 `explode()` 直观和常用。

四、高级篇：正则表达式提取

当需要提取的字符串片段没有固定的位置，也不是由简单的字符分隔，而是遵循某种复杂的模式时，正则表达式（Regular Expressions）就成为了最强大的工具。PHP 提供了 PCRE (Perl Compatible Regular Expressions) 函数来实现这一功能。

4.1 `preg_match()`：查找第一个匹配项

`preg_match()` 函数执行一个正则表达式匹配，如果找到匹配项，则返回 1，否则返回 0。匹配到的内容可以存储在一个数组中。

preg_match(string $pattern, string $subject, array &$matches = null, int $flags = 0, int $offset = 0): int|false

`$pattern`: 要搜索的正则表达式模式。
`$subject`: 要搜索的字符串。
`$matches`: 可选参数，一个数组，用于存储匹配到的所有结果。

`$matches[0]` 包含完整匹配的字符串。
`$matches[1]` 包含第一个捕获组的匹配。
依此类推。

`$flags`: 可选参数，控制匹配行为。常用的有 `PREG_OFFSET_CAPTURE` (捕获匹配文本以及其在 subject 中偏移量) 和 `PREG_UNMATCHED_AS_NULL` (未匹配的捕获组返回 NULL)。
`$offset`: 可选参数，从 subject 字符串的哪个位置开始搜索。

示例：提取电子邮件地址的用户名和域名

$email = "contact@";
$pattern = "/^(\w+)@([\w\.-]+)$/"; // 匹配用户名@域名
if (preg_match($pattern, $email, $matches)) {
echo "完整匹配: " . $matches[0] . ""; // 输出: contact@
echo "用户名: " . $matches[1] . ""; // 输出: contact
echo "域名: " . $matches[2] . ""; // 输出:
} else {
echo "电子邮件格式不匹配。";
}
// 提取 HTML 标签的属性值
$html = '<a href="/products" title="商品列表">';
$pattern = '/href="([^"]+)"/'; // 匹配 href 属性值
if (preg_match($pattern, $html, $matches)) {
echo "链接地址: " . $matches[1] . ""; // 输出: /products
}

4.2 `preg_match_all()`：查找所有匹配项

`preg_match_all()` 函数执行全局正则表达式匹配，找到所有符合模式的匹配项。

preg_match_all(string $pattern, string $subject, array &$matches, int $flags = 0, int $offset = 0): int|false

参数与 `preg_match()` 类似，但 `$matches` 数组的结构略有不同，因为它要存储多个匹配。

`$flags`:

`PREG_PATTERN_ORDER` (默认)：`$matches[0]` 包含所有完整匹配，`$matches[1]` 包含所有第一个捕获组的匹配，以此类推。
`PREG_SET_ORDER`: `$matches[0]` 包含第一个完整匹配及其捕获组，`$matches[1]` 包含第二个完整匹配及其捕获组，以此类推。

示例：从一段文本中提取所有链接

$text = "访问 <a href="">Google</a> 或 <a href="">Baidu</a> 进行搜索。";
$pattern = '/href="([^"]+)"/'; // 匹配 href 属性的值
// 使用 PREG_PATTERN_ORDER (默认)
preg_match_all($pattern, $text, $matches, PREG_PATTERN_ORDER);
print_r($matches);
/*
Array
(
[0] => Array // 所有完整匹配
(
[0] => href=""
[1] => href=""
)
[1] => Array // 所有第一个捕获组的匹配 (即链接地址)
(
[0] =>
[1] =>
)
)
*/
echo "所有链接:";
foreach ($matches[1] as $link) {
echo "- " . $link . "";
}
// 使用 PREG_SET_ORDER
preg_match_all($pattern, $text, $matches_set_order, PREG_SET_ORDER);
print_r($matches_set_order);
/*
Array
(
[0] => Array // 第一个匹配及其捕获组
(
[0] => href=""
[1] =>
)
[1] => Array // 第二个匹配及其捕获组
(
[0] => href=""
[1] =>
)
)
*/
echo "所有链接 (PREG_SET_ORDER):";
foreach ($matches_set_order as $match) {
echo "- " . $match[1] . "";
}

正则表达式非常强大，但学习曲线较陡峭。它适用于复杂、非结构化的文本提取。

五、多字节字符串处理：`mb_` 系列函数

在处理包含非 ASCII 字符（如中文、日文、韩文或其他 UTF-8 字符）的字符串时，标准的 PHP 字符串函数可能会因为按字节而非字符进行操作而导致错误。例如，一个中文字符通常占用 3 个字节。

PHP 提供了 `mb_`（Multibyte String）系列函数来解决这个问题。它们的使用方式与标准字符串函数类似，但在内部会考虑字符编码。

`mb_substr()` 代替 `substr()`
`mb_strpos()` 代替 `strpos()`
`mb_stripos()` 代替 `stripos()`
`mb_strrpos()` 代替 `strrpos()`
`mb_strripos()` 代替 `strripos()`
`mb_strlen()` 代替 `strlen()`
`mb_strstr()` 代替 `strstr()`
`mb_stristr()` 代替 `stristr()`

使用 `mb_` 函数时，通常需要设置内部字符编码，或者在函数调用时指定编码：

mb_internal_encoding("UTF-8"); // 设置内部编码，推荐在项目启动时设置
// 或者
// mb_substr($string, $start, $length, 'UTF-8'); // 函数调用时指定编码

示例：截取中文字符串

mb_internal_encoding("UTF-8");
$chineseText = "你好，PHP 世界！";
echo mb_substr($chineseText, 0, 2); // 输出: 你好
echo "";
echo substr($chineseText, 0, 2); // 可能输出乱码或不完整字符，因为按字节截取
echo "";
echo mb_substr($chineseText, 4, 3); // 输出: 世界！

对于任何涉及国际化或可能包含非 ASCII 字符的项目，强烈建议使用 `mb_` 系列函数。

六、常见场景的字符串提取实践

结合上述函数，我们可以实现各种复杂的字符串提取需求。

6.1 提取两个特定字符串之间的内容

6.2 从 URL 中提取域名、路径或查询参数

虽然可以使用 `strpos`/`substr` 组合或正则表达式，但 PHP 提供了更专业的 `parse_url()` 函数。

$url = "/path/to/?id=123&name=test#section";
$parts = parse_url($url);
print_r($parts);
/*
Array
(
[scheme] => https
[host] =>
[path] => /path/to/
[query] => id=123&name=test
[fragment] => section
)
*/
echo "协议: " . ($parts['scheme'] ?? 'N/A') . "";
echo "域名: " . ($parts['host'] ?? 'N/A') . "";
echo "路径: " . ($parts['path'] ?? 'N/A') . "";
// 进一步提取查询参数
if (isset($parts['query'])) {
parse_str($parts['query'], $queryParams);
print_r($queryParams);
/*
Array
(
[id] => 123
[name] => test
)
*/
}

七、性能考量与最佳实践

选择正确的字符串提取函数不仅关乎功能实现，也影响程序的性能和可维护性。

简单优先原则：
如果你的需求可以通过简单的 `substr()`、`strpos()` 或 `explode()` 来实现，优先使用它们。这些函数通常比正则表达式更快，因为它们不需要编译复杂的模式。

正则表达式的权衡：
正则表达式功能强大，但其匹配过程相对复杂，因此通常比简单函数慢。仅在模式无法用简单函数描述时才使用 `preg_match()` 或 `preg_match_all()`。

多字节字符处理：
对于任何可能包含非 ASCII 字符的字符串，始终使用 `mb_` 系列函数，并在脚本开始时设置 `mb_internal_encoding()`。这可以避免潜在的乱码和截断问题。

错误检查：
许多字符串函数在失败时返回 `false`。始终检查这些返回值，特别是 `strpos()` 返回 `0` 的情况，以确保代码的健壮性。使用 `=== false` 进行严格比较。

明确变量命名：
使用清晰的变量名（如 `$haystack`, `$needle`, `$startPos`）可以提高代码的可读性。

避免不必要的复杂性：
不要为了使用正则表达式而使用正则表达式。如果 `explode()` 就能解决问题，就不要写复杂的 `preg_split()`。

八、总结

PHP 提供了全面而强大的字符串提取工具集，涵盖了从基础的位置和长度截取到高级的模式匹配。`substr()` 提供精准的片段截取，`strpos()` 和 `strstr()` 帮助我们定位和提取特定标记前后的内容，`explode()` 则擅长将结构化字符串拆分为数组。当面对复杂的、非结构化的文本模式时，`preg_match()` 和 `preg_match_all()` 凭借正则表达式的强大能力成为首选。此外，为了确保代码的国际化支持，`mb_` 系列函数是处理多字节字符字符串的必备。

作为专业的程序员，理解这些函数的原理、使用场景和性能特点至关重要。熟练地选择和组合这些工具，将使您能够高效、准确地从任何字符串中提取出所需的信息，从而构建出更加健壮和灵活的 PHP 应用程序。
```

2025-10-30

上一篇：PHP字符串包含判断：从`strpos`到`str_contains`，掌握多种高效方法

下一篇：PHP数组条件筛选与截取：从基础到高效实战指南