PHP字符串截取完全指南：深入解析`substr`、`mb_substr`及高级应用141

在PHP编程中，字符串处理无疑是最常见也最基础的操作之一。无论是从用户输入中提取关键信息，对长文本进行截断显示，还是解析特定格式的数据，字符串截取都是一项核心技能。PHP提供了多种函数来满足不同场景下的字符串截取需求，从处理简单ASCII字符的`substr()`到处理多字节字符的`mb_substr()`，再到功能强大的正则表达式，掌握这些工具对于编写健壮高效的PHP应用至关重要。

本文将作为一份全面的指南，带你深入理解PHP中各种字符串截取方法，包括它们的基本用法、参数详解、适用场景、注意事项以及高级应用。我们将从最基础的函数开始，逐步探索更复杂、更强大的工具，并特别强调在处理不同字符编码（如UTF-8）时需要注意的关键点。

一、`substr()`：最常用且基础的字符串截取函数

`substr()`函数是PHP中用于截取字符串子串的最基本和最常用的函数。它的行为方式是基于字节的，这意味着它在处理单字节字符（如纯英文ASCII字符）时表现良好，但在处理多字节字符（如中文、日文、韩文等UTF-8编码字符）时可能会出现问题。

1.1 语法和参数详解

string substr ( string $string , int $start [, int $length = NULL ] )

`$string`: 必需。要从中截取子串的字符串。
`$start`: 必需。子串的起始位置。

如果为正数，则从字符串的开头算起，第一个字符的索引为0。
如果为负数，则从字符串的末尾算起。例如，-1 表示最后一个字符，-2 表示倒数第二个字符。

`$length`: 可选。要截取的子串的长度。

如果为正数，则截取指定长度的字符。
如果为负数，则表示从字符串末尾开始，到倒数第`$length`个字符之前的所有字符。
如果省略，则截取从`$start`位置到字符串末尾的所有字符。

1.2 `substr()` 示例

我们通过一系列示例来演示`substr()`的各种用法。
<?php
$string = "Hello, World!";
// 1. 基本截取：从索引0开始，截取5个字符
$sub1 = substr($string, 0, 5); // "Hello"
echo "示例1: " . $sub1 . "";
// 2. 从指定位置开始截取到末尾
$sub2 = substr($string, 7); // "World!"
echo "示例2: " . $sub2 . "";
// 3. 负数 $start：从字符串末尾开始计算，截取最后6个字符
$sub3 = substr($string, -6); // "World!"
echo "示例3: " . $sub3 . "";
// 4. 负数 $start 和正数 $length：从倒数第6个字符开始，截取5个字符
$sub4 = substr($string, -6, 5); // "World"
echo "示例4: " . $sub4 . "";
// 5. 正数 $start 和负数 $length：从索引7开始，截取到倒数第1个字符之前
$sub5 = substr($string, 7, -1); // "World"
echo "示例5: " . $sub5 . "";
// 6. $start 超出字符串长度：返回 false (在PHP 8+中返回空字符串)
$sub6 = substr($string, 100); // "" (PHP 8+) 或 false (PHP < 8)
echo "示例6: " . (is_string($sub6) ? '"' . $sub6 . '"' : 'false') . "";
// 7. $length 为0：返回空字符串
$sub7 = substr($string, 0, 0); // ""
echo "示例7: " . '"' . $sub7 . '"' . "";
// 8. 空字符串作为输入
$emptyString = "";
$sub8 = substr($emptyString, 0, 5); // ""
echo "示例8: " . '"' . $sub8 . '"' . "";
?>

1.3 `substr()` 在多字节字符上的缺陷

如前所述，`substr()`是基于字节操作的。这意味着对于UTF-8编码的字符串，一个字符可能由多个字节组成。如果`$length`或`$start`落在某个多字节字符的中间，`substr()`会将其截断，导致乱码。
<?php
$chineseString = "你好，世界！"; // 在UTF-8编码下，一个汉字通常占3个字节
// 尝试截取前两个汉字（期望“你好”）
// 理论上，“你”是3字节，“好”是3字节，一共6字节
$subChinese1 = substr($chineseString, 0, 6);
echo "使用 substr 截取前两个汉字 (期望“你好”): " . $subChinese1 . ""; // 实际可能是“你好”
// 尝试截取前1个汉字半（期望“你”并出现乱码）
// 理论上，“你”是3字节
$subChinese2 = substr($chineseString, 0, 4); // 截取4个字节，会截断第二个汉字
echo "使用 substr 截取1个半汉字 (期望乱码): " . $subChinese2 . ""; // 实际会乱码，如“你好�”或“你�”
?>

上面的示例清楚地展示了`substr()`在处理UTF-8编码的中文时可能遇到的问题。为了正确处理多字节字符串，我们需要使用`mb_substr()`。

二、`mb_substr()`：多字节字符串的救星

`mb_substr()`是PHP多字节字符串（MultiByte String）函数库的一部分，它专门设计用于正确处理各种多字节字符编码，如UTF-8、GBK、Shift-JIS等。当你需要在处理用户输入、国际化文本或任何非ASCII字符串时，`mb_substr()`是首选。

2.1 语法和参数详解

string mb_substr ( string $string , int $start [, int $length = NULL [, string $encoding = NULL ]] )

参数与`substr()`非常相似，但增加了一个关键的`$encoding`参数：
`$string`: 必需。要从中截取子串的字符串。
`$start`: 必需。子串的起始位置，以字符数而非字节数计算。

正数：从开头算起。
负数：从末尾算起。

`$length`: 可选。要截取的子串的长度，以字符数而非字节数计算。

正数：截取指定字符长度。
负数：从字符串末尾开始，到倒数第`$length`个字符之前的所有字符。
省略：截取从`$start`位置到字符串末尾的所有字符。

`$encoding`: 可选。要使用的字符编码。如果省略，则使用内部字符编码（由`mb_internal_encoding()`设置）。明确指定编码是一个好习惯，通常设置为`'UTF-8'`。

注意： `mb_substr()`函数依赖于`mbstring` PHP扩展。如果你的PHP环境中没有启用该扩展，你需要通过修改``或安装相应的软件包来启用它。

2.2 `mb_substr()` 示例

让我们用`mb_substr()`重新尝试之前的中文截取示例。
<?php
$chineseString = "你好，世界！"; // UTF-8编码
// 1. 明确指定编码为UTF-8，截取前两个字符
$subChinese1 = mb_substr($chineseString, 0, 2, 'UTF-8'); // "你好"
echo "使用 mb_substr 截取前两个汉字: " . $subChinese1 . "";
// 2. 截取从索引2（第三个字符）开始到末尾的字符
$subChinese2 = mb_substr($chineseString, 2, null, 'UTF-8'); // "，世界！"
echo "使用 mb_substr 从第三个字符开始截取: " . $subChinese2 . "";
// 3. 负数 $start：从末尾算起，截取最后3个字符
$subChinese3 = mb_substr($chineseString, -3, null, 'UTF-8'); // "世界！"
echo "使用 mb_substr 截取最后3个字符: " . $subChinese3 . "";
// 4. 负数 $start 和负数 $length：从倒数第4个字符开始，到倒数第2个字符之前
$subChinese4 = mb_substr($chineseString, -4, -1, 'UTF-8'); // "，世界"
echo "使用 mb_substr 负数 start 和 length: " . $subChinese4 . "";
// 5. 混合字符串示例
$mixedString = "Hello 你好 World 世界";
$subMixed = mb_substr($mixedString, 6, 4, 'UTF-8'); // 从第7个字符开始，截取4个字符。
// 它是从 '你' 开始，截取 '你好 W'
echo "使用 mb_substr 处理混合字符串: " . $subMixed . ""; // "你好 W"
?>

通过上面的示例，我们可以看到`mb_substr()`能够准确地按照字符数进行截取，避免了乱码问题。这是在处理多语言或用户输入内容时不可或缺的功能。

三、辅助函数：结合`strpos`、`strrpos`等定位子串

很多时候，我们并不是简单地截取固定长度的子串，而是根据某个分隔符或特定字符的位置来截取。PHP提供了一系列函数来查找子串的位置，这些函数可以与`substr()`或`mb_substr()`结合使用，实现更灵活的截取操作。

3.1 `strpos()` 和 `strrpos()`：查找子串第一次/最后一次出现的位置

`strpos(string $haystack, mixed $needle [, int $offset = 0 ])`: 查找`$needle`在`$haystack`中第一次出现的位置（区分大小写）。如果未找到，返回`false`。
`strrpos(string $haystack, mixed $needle [, int $offset = 0 ])`: 查找`$needle`在`$haystack`中最后一次出现的位置（区分大小写）。如果未找到，返回`false`。

同样，它们也有多字节版本：`mb_strpos()`和`mb_strrpos()`，用于处理多字节字符串。
<?php
$url = "/path/to/?id=123&name=test";
// 1. 提取文件扩展名
$lastDotPos = strrpos($url, '.');
if ($lastDotPos !== false) {
$fileExtension = substr($url, $lastDotPos + 1); // php?id=123&name=test
echo "文件扩展名 (不完全): " . $fileExtension . "";
// 更精确地提取，如果路径中有问号
$questionMarkPos = strpos($fileExtension, '?');
if ($questionMarkPos !== false) {
$fileExtension = substr($fileExtension, 0, $questionMarkPos);
}
echo "文件扩展名 (精确): " . $fileExtension . "";
}
// 2. 提取域名
$protocolEnd = strpos($url, '://');
if ($protocolEnd !== false) {
$domainStart = $protocolEnd + 3;
$nextSlashPos = strpos($url, '/', $domainStart);
if ($nextSlashPos !== false) {
$domain = substr($url, $domainStart, $nextSlashPos - $domainStart);
} else {
// 没有路径，整个是域名
$domain = substr($url, $domainStart);
}
echo "域名: " . $domain . "";
}
// 3. 多字节字符查找
$text = "欢迎来到我的网站！这是一个测试。";
$pos = mb_strpos($text, "网站", 0, 'UTF-8'); // 查找“网站”第一次出现的位置
if ($pos !== false) {
$sub = mb_substr($text, $pos, null, 'UTF-8'); // 从“网站”开始截取
echo "从'网站'开始截取: " . $sub . ""; // "网站！这是一个测试。"
}
?>

3.2 `strstr()` / `strchr()` 和 `strrchr()`：获取分隔符前后的子串

`strstr(string $haystack, mixed $needle [, bool $before_needle = FALSE ])` / `strchr()`: 查找`$needle`在`$haystack`中第一次出现的位置，并返回从该位置到字符串结尾的子串。如果`$before_needle`为`true`，则返回`$needle`之前的部分。
`strrchr(string $haystack, mixed $needle)`: 查找`$needle`在`$haystack`中最后一次出现的位置，并返回从该位置到字符串结尾的子串。

同样，它们也有多字节版本：`mb_strstr()`和`mb_strrchr()`。
<?php
$email = "user@";
// 1. 获取邮箱用户名 ( @ 之前的部分)
$username = strstr($email, '@', true); // user
echo "邮箱用户名: " . $username . "";
// 2. 获取邮箱域名 ( @ 及之后的部分)
$domain = strstr($email, '@'); // @
echo "邮箱域名 (包含@): " . $domain . "";
// 3. 获取邮箱域名 (不包含@)
$domainWithoutAt = substr(strstr($email, '@'), 1); //
echo "邮箱域名 (不包含@): " . $domainWithoutAt . "";
$path = "/var/www/html/";
// 4. 获取文件名 (最后一个 / 之后的部分)
$filename = strrchr($path, '/'); // /
echo "文件名 (包含/): " . $filename . "";
$filenameWithoutSlash = substr(strrchr($path, '/'), 1); //
echo "文件名 (不包含/): " . $filenameWithoutSlash . "";
?>

3.3 `explode()` 和 `implode()`：通过分隔符拆分与合并

当你需要将字符串按照某个分隔符拆分成多个部分，并将其作为数组进行处理时，`explode()`函数非常有用。虽然它本身不直接“截取”子串，但可以将字符串分解为多个逻辑上的子串，从而间接达到截取的效果。
`explode(string $delimiter, string $string [, int $limit = PHP_INT_MAX ])`: 使用`$delimiter`将`$string`分割成一个字符串数组。
`implode(string $separator, array $array)`: 将数组元素用`$separator`连接成一个字符串。

<?php
$csvLine = "apple,banana,orange,grape";
// 1. 将CSV行拆分成数组
$fruits = explode(',', $csvLine); // ["apple", "banana", "orange", "grape"]
echo "水果列表:<pre>";
print_r($fruits);
echo "</pre>";
// 2. 截取前两个水果 (从数组中获取)
$firstTwoFruits = array_slice($fruits, 0, 2);
echo "前两个水果:<pre>";
print_r($firstTwoFruits);
echo "</pre>";
// 3. 将数组的前两个元素再拼接起来
$rejoinedFruits = implode(' and ', $firstTwoFruits); // "apple and banana"
echo "拼接的前两个水果: " . $rejoinedFruits . "";
// 4. 使用limit参数
$path = "/var/www/html/";
$parts = explode('/', $path, 3); // 限制分割为3部分
echo "路径分割 (limit 3):<pre>";
print_r($parts); // ["", "var", "www/html/"]
echo "</pre>";
?>

四、正则表达式：高级灵活的字符串截取

当需要从字符串中提取符合特定复杂模式的子串时，正则表达式（Regular Expressions）是无与伦比的强大工具。PHP通过PCRE（Perl Compatible Regular Expressions）扩展提供了正则表达式功能，主要函数包括`preg_match()`、`preg_match_all()`、`preg_split()`和`preg_replace()`。

4.1 `preg_match()`：匹配并提取第一个符合模式的子串

int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]] )

`$pattern`: 必需。要搜索的正则表达式模式。
`$subject`: 必需。输入字符串。
`$matches`: 可选。一个数组，用于存储所有匹配结果。`$matches[0]`包含整个匹配到的字符串，`$matches[1]`包含第一个捕获组匹配到的字符串，依此类推。

4.2 `preg_match_all()`：匹配并提取所有符合模式的子串

`preg_match_all()`与`preg_match()`类似，但它会查找所有匹配项，并将它们组织到`$matches`数组中。
<?php
$logEntry = "ERROR [2023-10-27 10:30:05] User 'admin' failed login from IP 192.168.1.100. ID: 456.";
// 1. 提取日期时间
// 模式：匹配方括号中的日期时间格式
if (preg_match('/\[(\d{4}-\d{2}-\d{2} \d{2}:d{2}:d{2})\]/', $logEntry, $matches)) {
$datetime = $matches[1]; // 2023-10-27 10:30:05
echo "提取的日期时间: " . $datetime . "";
}
// 2. 提取IP地址
// 模式：匹配IP地址格式
if (preg_match('/\b(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\b/', $logEntry, $matches)) {
$ipAddress = $matches[1]; // 192.168.1.100
echo "提取的IP地址: " . $ipAddress . "";
}
// 3. 提取所有数字ID
$textWithIds = "Order ID: 123, Transaction ID: 456, User ID: 789.";
// 模式：匹配一个或多个数字
if (preg_match_all('/\bID:s*(\d+)\b/', $textWithIds, $matchesAll)) {
echo "提取的所有ID:<pre>";
print_r($matchesAll[1]); // [123, 456, 789]
echo "</pre>";
}
// 4. 从HTML中提取所有H1标签的内容
$html = "<h1>标题一</h1>一些内容<h1>第二个标题</h1>";
if (preg_match_all('/<h1>([^<]+?)<\/h1>/u', $html, $h1Matches)) { // /u 标志用于UTF-8匹配
echo "提取的所有H1标题:<pre>";
print_r($h1Matches[1]); // ["标题一", "第二个标题"]
echo "</pre>";
}
?>

正则表达式的强大之处在于其灵活性，可以处理各种复杂的匹配规则，但它的学习曲线相对陡峭，并且在处理简单任务时性能可能不如直接的字符串函数。

五、性能与最佳实践

在选择字符串截取方法时，除了功能需求外，性能和代码可维护性也是重要的考量因素。
优先使用原生字符串函数：对于简单的ASCII字符串截取，`substr()`通常是性能最好的选择，因为它在底层直接操作字节。`strpos()`、`strstr()`等也是如此。
多字节字符串务必使用`mb_*`函数：如果你的应用程序需要处理非ASCII字符（如中文、日文、韩文、表情符号等），或者输入来源不确定，请务必使用`mb_substr()`、`mb_strpos()`等`mbstring`函数。这是避免乱码和保证国际化兼容性的关键。始终明确指定编码（如`'UTF-8'`）。
正则表达式是最后的选择：只有当模式非常复杂，无法通过简单的字符串函数组合实现时，才考虑使用正则表达式。正则表达式功能强大但相对较慢，而且模式编写和调试也更复杂。对于简单的截取，避免过度使用正则。
注意函数返回值：像`strpos()`这类函数，如果未找到子串，会返回`false`，而不是`0`。在条件判断时，应使用严格比较`!== false`，而不是`!= false`，因为`0`在非严格比较下会被视为`false`。
错误处理：在截取前，检查字符串是否为空或长度是否足够，以避免不必要的错误或空结果。
性能考虑：在大量字符串处理的场景下，尤其是在循环中，选择最高效的方法至关重要。例如，在一个大字符串中查找某个字符的所有位置，使用`strpos()`结合循环可能比每次都创建一个新正则对象更高效。

六、总结

字符串截取是PHP开发中的基本功。PHP提供了丰富且功能互补的函数来完成这项任务：
对于纯ASCII字符串，`substr()`、`strpos()`、`strrpos()`、`strstr()`等原生函数高效且易用。
对于包含多字节字符（如UTF-8编码的中文）的字符串，务必使用`mb_substr()`、`mb_strpos()`等`mbstring`系列函数，并明确指定字符编码，以避免乱码问题。
当需要根据复杂模式或多个条件来提取子串时，正则表达式（`preg_match()`、`preg_match_all()`）提供了无与伦比的灵活性。
`explode()`和`implode()`则适用于基于固定分隔符进行字符串的拆分和组合。

作为一名专业的程序员，理解这些函数的区别、适用场景以及潜在的陷阱（尤其是字符编码问题），能够帮助你编写出更健壮、更高效、更国际化的PHP应用程序。选择最合适的工具，并遵循最佳实践，将使你的代码更加优雅和可靠。

2025-11-17

上一篇：PHP数组函数高级封装：构建高效、可维护的集合操作库

下一篇：Dreamweaver与PHP协同开发：从文件管理到高效调试的全方位指南