PHP 字符串截取深度解析：告别乱码，实现精准字符截取383

在Web开发中，字符串截取是一个极其常见但又常常被忽视其复杂性的操作。无论是展示文章摘要、限制用户输入字数，还是生成固定长度的标题，我们都离不开字符串截取。然而，对于PHP开发者而言，简单地使用substr()函数可能会在处理包含中文、日文、韩文等非ASCII字符（即多字节字符）时遭遇“乱码”问题，导致用户体验不佳。本文将作为一名资深PHP程序员的视角，深入探讨PHP中字符串按字符截取的奥秘，剖析传统方法的弊端，并为您提供一套健壮、高效且能够完美处理多字节字符的解决方案。

传统截取方式的陷阱：`substr()` 与字节编码

PHP中最早且最基础的字符串截取函数是substr()。它的使用方法非常直观：substr(string $string, int $start, ?int $length = null): string。$string是要截取的字符串，$start是起始位置，$length是截取长度。
$str_en = "Hello World!";
echo substr($str_en, 0, 5); // 输出：Hello (正确)
$str_number = "1234567890";
echo substr($str_number, 2, 4); // 输出：3456 (正确)

然而，substr()函数有一个根本性的特点：它按照字节（Byte）而非字符（Character）进行截取。对于ASCII字符集（如英文、数字、基本符号），一个字符通常只占用一个字节，因此substr()能够完美工作。但当我们面对UTF-8编码的中文或其他多字节字符时，问题就来了。

以UTF-8编码为例，一个中文字符通常占用3个字节。如果您尝试使用substr()截取一个中文字符的一部分，PHP会将其视为字节流，从中间“切断”一个字符的字节序列，从而导致乱码的出现，通常表现为一个或多个问号（�）或其他不可识别的字符。
$str_zh_utf8 = "你好世界，PHP！"; // 假设为UTF-8编码
echo "原字符串长度（字节）：" . strlen($str_zh_utf8) . "
"; // 大约21字节（7个中文字符 * 3字节/字符）
echo "原字符串长度（字符）：" . mb_strlen($str_zh_utf8, 'UTF-8') . "
"; // 7个字符
echo "使用substr截取前4个字节：" . substr($str_zh_utf8, 0, 4) . "
";
// 预期输出：你� (因为第一个中文字符'你'占3字节，第四个字节是第二个字符'好'的一部分，被截断)
// 实际输出可能因环境而异，但肯定不是"你好"或可读的字符组合。
echo "使用substr截取前6个字节（2个中文字符）：" . substr($str_zh_utf8, 0, 6) . "
";
// 预期输出：你好 (因为'你'3字节+'好'3字节=6字节，刚好截取两个完整字符)

从上面的例子可以看出，substr()在处理多字节字符时需要我们精确地知道每个字符占用的字节数，这在实际开发中几乎是不可能或极不方便的。因此，为了实现真正意义上的“按字符截取”，我们需要引入更专业的工具。

告别乱码的利器：`mb_substr()`

为了解决多字节字符的截取问题，PHP引入了多字节字符串函数（Multibyte String Functions），这通常通过mbstring扩展提供。其中，与substr()对应的多字节函数是mb_substr()。它的核心优势在于能够根据指定的字符编码（如UTF-8）来识别和处理多字节字符，从而实现真正的按字符截取。

mb_substr()的函数签名如下：mb_substr(string $string, int $start, ?int $length = null, ?string $encoding = null): string。
$string：要截取的字符串。
$start：起始字符位置（0表示第一个字符）。
$length：要截取的字符数量。
$encoding：关键参数！指定字符串的字符编码，例如'UTF-8'、'GBK'等。如果省略，则使用内部字符编码。

$str_zh_utf8 = "你好世界，PHP！";
echo "使用mb_substr截取前4个字符（UTF-8）：" . mb_substr($str_zh_utf8, 0, 4, 'UTF-8') . "
";
// 输出：你好世界 (正确，截取了四个完整的字符)
echo "使用mb_substr从第三个字符开始截取2个字符：" . mb_substr($str_zh_utf8, 2, 2, 'UTF-8') . "
";
// 输出：世界 (正确，从'世'开始截取'世界')

通过mb_substr()，我们不再需要担心字符占用的字节数，只需关注字符的逻辑位置和数量，它会智能地处理底层字节编码的细节，确保截取结果的准确性。

`mb_substr()` 最佳实践与注意事项

虽然mb_substr()解决了核心问题，但在实际使用中，仍有一些最佳实践和注意事项可以帮助我们编写更健壮的代码。

1. 总是显式指定编码

这是最重要的一点。尽管mb_substr()允许省略$encoding参数，从而使用mb_internal_encoding()设置的内部编码，但为了代码的鲁棒性和可移植性，强烈建议在每次调用mb_substr()时都显式指定字符串的编码，通常是'UTF-8'。这可以避免因服务器或环境配置差异导致的编码不一致问题。
// 不推荐：依赖内部编码
mb_internal_encoding("UTF-8");
echo mb_substr($str_zh_utf8, 0, 4);
// 推荐：显式指定编码
echo mb_substr($str_zh_utf8, 0, 4, 'UTF-8');

2. 检查 `mbstring` 扩展是否启用

mb_substr()函数属于mbstring扩展。在某些PHP环境中，这个扩展可能没有默认启用。在生产环境中，您应该确保该扩展已启用。在代码中，您也可以通过function_exists()进行检查，并提供备用方案（尽管通常不推荐在有多字节字符时回退到substr()）。
if (!function_exists('mb_substr')) {
trigger_error("mbstring extension is not enabled. Cannot perform multi-byte string operations.", E_USER_WARNING);
// 可以在此处实现一个简陋的备用方案或直接报错
}

3. 使用 `mb_strlen()` 获取字符长度

与substr()配合使用strlen()获取字节长度类似，mb_substr()应该与mb_strlen()配合使用来获取字符串的字符长度。这对于判断字符串是否需要截取以及计算截取范围非常有用。
$str_zh_utf8 = "这是一个很长的中文字符串，需要截取！";
$max_length = 10; // 最大字符数
if (mb_strlen($str_zh_utf8, 'UTF-8') > $max_length) {
$truncated_str = mb_substr($str_zh_utf8, 0, $max_length, 'UTF-8') . '...';
} else {
$truncated_str = $str_zh_utf8;
}
echo $truncated_str; // 输出：这是一个很长的中文字符串...

4. 编码一致性

确保您的字符串、文件编码、数据库编码和页面编码都保持一致，通常全部使用UTF-8。编码不一致是导致乱码的根本原因，即使使用了mb_substr()，如果源字符串的编码与您指定的编码不符，也可能出现问题。

进阶应用：打造更智能的字符串截取函数

在实际项目中，简单的截取往往不能满足需求。一个“专业”的字符串截取函数通常需要具备以下特性：
自动添加省略号（...）。
在截取前可选地移除HTML标签。
在截取前可选地解码HTML实体。
处理空字符串或长度不足的情况。

下面我们来构建一个功能更完善的字符串截取函数：
<?php
/
* 安全地按字符截取字符串，支持多字节字符、HTML标签移除和省略号。
*
* @param string $string 要截取的原始字符串。
* @param int $length 要保留的最大字符数。
* @param string $suffix 截取后添加的后缀（如“...”），如果为null则不添加。
* @param bool $strip_html 是否在截取前移除HTML标签。
* @param bool $decode_html 是否在截取前解码HTML实体（如&）。
* @param string $encoding 字符串的字符编码，默认为'UTF-8'。
* @return string 截取后的字符串。
*/
function safe_mb_truncate(
string $string,
int $length = 100,
?string $suffix = '...',
bool $strip_html = false,
bool $decode_html = false,
string $encoding = 'UTF-8'
): string {
// 1. 处理空字符串
if (empty($string)) {
return '';
}
// 2. 解码HTML实体 (例如把 & 变成 &)
if ($decode_html) {
$string = html_entity_decode($string, ENT_QUOTES | ENT_HTML5, $encoding);
}
// 3. 移除HTML标签
if ($strip_html) {
$string = strip_tags($string);
}
// 获取字符串的实际字符长度
$current_length = mb_strlen($string, $encoding);
// 如果字符串本身就比目标长度短或相等，则直接返回原字符串
if ($current_length