PHP字符串截取完全指南：从基础substr到UTF-8兼容的mb_substr与高级实践130

在Web开发中，对字符串进行截取是一项极其常见的操作。无论是为了在列表页展示文章摘要、限制用户输入字数、还是优化页面布局，字符串截取都是不可或缺的。然而，这项看似简单的任务在PHP中却可能因为编码问题而变得复杂，尤其是在处理多字节字符（如中文、日文、韩文等）时。本文将作为一份专业的指南，深入探讨PHP中字符串截取的各种方法，从基础的`substr()`函数到处理多字节字符的`mb_substr()`，并涵盖高级实践，如保持单词完整性、处理HTML标签以及性能考量，旨在帮助开发者写出健壮、高效且兼容多语言的代码。

一、字符串截取的基石：`substr()`函数

PHP提供了一个基础的字符串截取函数`substr()`。它的语法简洁明了，易于理解和使用：
string substr ( string $string , int $start [, int $length ] )

`$string`: 待截取的原始字符串。
`$start`: 截取起始位置。可以是正数（从字符串开头计数，0表示第一个字符）、负数（从字符串末尾计数）、或0。
`$length`: 可选参数，截取的长度。如果省略，则截取从`$start`到字符串末尾的所有字符。

1.1 `substr()`的基本用法示例

让我们通过几个例子来理解`substr()`的用法：
$text = "Hello, world! This is a test string.";
// 从0开始，截取前5个字符
echo substr($text, 0, 5); // Output: Hello
// 从第7个字符开始，截取到末尾
echo substr($text, 7); // Output: world! This is a test string.
// 从倒数第6个字符开始，截取3个字符
echo substr($text, -6, 3); // Output: tri

1.2 `substr()`的陷阱：字节与字符的差异

尽管`substr()`用起来很方便，但它有一个致命的弱点：它处理的是字节（bytes）而不是字符（characters）。对于单字节字符编码（如ASCII），一个字节对应一个字符，`substr()`工作正常。然而，当处理UTF-8等多字节字符编码时，一个字符可能由多个字节组成（例如，一个中文字符通常占用3个字节）。此时，使用`substr()`进行截取就可能导致乱码或截取不准确。

以下示例展示了`substr()`在处理中文字符时的乱码问题：
$chinese_text = "你好，世界！这是一串测试字符串。";
echo "原始字符串长度（字节）：" . strlen($chinese_text) . ""; // 约50+字节 (UTF-8)
// 尝试截取前5个字符
echo "使用substr截取前5个字符（字节）：" . substr($chinese_text, 0, 5) . "";
// 预期输出：你好， (但实际可能输出：你好� 或乱码，因为“，世”被截断在字节边界)

上面的代码中，`substr()`截取了前5个字节。如果一个中文字符是3个字节，那么5个字节可能只包含一个完整的中文字符和一个不完整的字符，从而产生乱码。这是在PHP开发中一个非常常见的“坑”。

二、多字节字符串处理的利器：`mb_substr()`函数

为了解决`substr()`在处理多字节字符时的局限性，PHP提供了`mb_substr()`函数，它是`mbstring`扩展的一部分。`mb_substr()`的核心优势在于它能够根据指定的字符编码正确地处理字符串中的字符，而不是字节。
string mb_substr ( string $string , int $start [, int $length = NULL [, string $encoding = NULL ]] )

`$string`: 待截取的原始字符串。
`$start`: 截取起始位置（字符数）。
`$length`: 可选参数，截取的长度（字符数）。
`$encoding`: 可选参数，指定字符编码。如果省略，则使用内部字符编码（由`mb_internal_encoding()`设置）。强烈建议显式指定编码，通常是`'UTF-8'`。

2.1 `mb_substr()`的基本用法与编码设置

在使用`mb_substr()`之前，确保你的PHP环境已经启用了`mbstring`扩展（在``中找到`extension=mbstring`并取消注释）。

为了保证`mb_substr()`正确工作，通常需要设置内部编码，或者在每次调用时显式指定编码：
// 推荐在应用入口处设置内部编码为UTF-8
mb_internal_encoding("UTF-8");
$chinese_text = "你好，世界！这是一串测试字符串。";
// 使用mb_strlen获取字符长度
echo "原始字符串长度（字符）：" . mb_strlen($chinese_text, 'UTF-8') . ""; // Output: 18
// 截取前5个字符
echo "使用mb_substr截取前5个字符：" . mb_substr($chinese_text, 0, 5) . ""; // Output: 你好，世界
// 从第3个字符开始，截取2个字符
echo "从第3个字符开始截取2个字符：" . mb_substr($chinese_text, 2, 2) . ""; // Output: 世界
// 显式指定编码
echo "显式指定UTF-8编码截取：" . mb_substr($chinese_text, 0, 3, 'UTF-8') . ""; // Output: 你好，

可以看到，`mb_substr()`能够准确地按照字符数进行截取，不会出现乱码问题，这使得它成为处理多语言内容的标准选择。

三、高级字符串截取实践与封装

仅仅截取字符串往往不能满足实际需求。在很多场景下，我们还需要额外处理，例如添加省略号、避免截断单词、甚至处理HTML标签。为了代码的复用性和健壮性，通常我们会将这些功能封装成独立的函数。

3.1 添加省略号（`...`）

当字符串被截断时，通常会通过添加省略号来提示用户内容未显示完全。
/
* 安全地截取字符串，并可添加省略号。
* 兼容多字节字符（UTF-8）。
*
* @param string $string 原始字符串
* @param int $maxLength 最大字符长度
* @param string $suffix 截取后添加的后缀，默认为省略号
* @return string 截取后的字符串
*/
function safeTruncate($string, $maxLength, $suffix = '...') {
if (mb_strlen($string, 'UTF-8')

2025-10-18

上一篇：PHP获取对象属性值：从基础到高级，掌握对象键值操作

下一篇：PHP 字符串字符统计：深度解析、性能优化与最佳实践