PHP高效截取汉语字符串：避免乱码和字符截断的最佳实践398

PHP处理中文字符串时，经常会遇到截取字符串的需求。然而，由于汉字的Unicode编码和字符宽度问题，简单的字符串截取函数（如`substr`）很容易导致汉字截断，出现乱码，影响用户体验。本文将深入探讨PHP中截取汉语字符串的各种方法，并着重介绍如何避免乱码和字符截断，最终提供高效且可靠的解决方案。

问题：为什么简单的`substr()`不可靠？

PHP的内置函数`substr()`基于字节长度进行截取。一个英文字母通常占用一个字节，而一个汉字通常占用三个字节（UTF-8编码）。如果直接使用`substr()`截取汉字，当截取位置落在汉字的中间字节时，就会导致汉字显示不完整或出现乱码。例如：

解决方案：基于字符长度的截取

为了避免上述问题，我们需要基于字符长度而不是字节长度进行截取。我们可以使用`mb_substr()`函数，该函数支持多字节字符编码，可以准确地截取汉字。

这里`mb_substr()`的第四个参数指定了字符编码，必须与实际字符串编码一致，否则仍然可能出现乱码。通常情况下，我们使用UTF-8编码。

处理省略号(...)

截取字符串后，通常需要在末尾添加省略号(...)来表示字符串被截断。我们可以结合`mb_strlen()`函数来实现：

这个函数`mb_str_cut()` 更加实用，它首先判断字符串长度是否超过指定长度，如果未超过，则直接返回原字符串，避免不必要的截取操作，提高效率。

处理全角和半角字符

在处理包含全角和半角字符混合的字符串时，需要额外注意。全角字符（例如中文标点符号）通常占用两个字节，而半角字符（例如英文标点符号）占用一个字节。如果直接使用`mb_substr()`，可能会导致截取结果不符合预期。一个更稳妥的做法是先将全角字符转换为半角字符，再进行截取。

性能优化

对于需要处理大量字符串的场景，性能优化至关重要。避免在循环中重复调用`mb_substr()`或`mb_strlen()`函数。可以预先计算字符串长度，或者使用更底层的字符串处理方法来提高效率，但是这通常会增加代码复杂度，需要根据实际情况权衡。