PHP 字符串去重：高效方法与最佳实践387

在日常的PHP编程中，我们经常会遇到需要处理字符串数据的场景。其中一个常见而又基础的需求便是“去除字符串中重复的字符”，即确保字符串中的每个字符都是唯一的，同时可能需要保持其原始顺序。这个操作在数据清洗、生成唯一标识、文本处理等多个领域都有广泛应用。本文将作为一份专业的指南，深入探讨PHP中实现字符串去重的多种方法，包括从基础循环到利用内置函数及正则表达式，并详细分析它们的原理、性能特点、适用场景，尤其会强调对多字节字符（如UTF-8）的处理，最终提供最佳实践建议。

一、为什么需要字符串去重？

字符串去重不仅仅是为了让字符串看起来“整洁”，它在实际开发中具有多种实用价值：
数据清洗： 在处理用户输入或外部数据时，有时会出现意外的重复字符，去重可以规范数据格式。
生成唯一标识： 某些情况下，需要从一个字符串中提取所有唯一的字符来构建另一个短小且唯一的标识符。
优化存储与传输： 尽管对于单个字符的去重效果不明显，但在大规模文本处理中，减少重复字符可以间接优化存储空间和网络传输。
算法与逻辑实现： 许多算法（如字谜游戏、字符统计等）可能需要首先获得字符串中的唯一字符集。

二、基础方法：循环遍历与条件判断

这是最直观、最容易理解的方法，通过遍历原字符串的每一个字符，然后将其添加到一个新的结果字符串中，但前提是该字符尚未出现在结果字符串中。

2.1 实现原理

创建一个空字符串作为结果。遍历原始字符串的每个字符。对于每个字符，检查它是否已经存在于结果字符串中。如果不存在，则将其添加到结果字符串的末尾。

2.2 代码示例（单字节字符）

<?php
function removeDuplicateCharsLoop($str) {
$result = '';
$length = strlen($str);
for ($i = 0; $i < $length; $i++) {
$char = $str[$i];
if (strpos($result, $char) === false) { // 检查字符是否已存在
$result .= $char;
}
}
return $result;
}
$testString = "hellooworld";
echo "原字符串: " . $testString . " "; // 输出: hellooworld
echo "去重后: " . removeDuplicateCharsLoop($testString) . " "; // 输出: helowrd
$testString2 = "programming";
echo "原字符串: " . $testString2 . " "; // 输出: programming
echo "去重后: " . removeDuplicateCharsLoop($testString2) . " "; // 输出: progamin
?>

2.3 优点与局限性

优点： 代码逻辑清晰，易于理解和实现，能保持字符的原始相对顺序。

局限性：

性能问题： 内部的 `strpos` 操作在每次循环中都需要遍历 `result` 字符串。对于较长的字符串，这会导致 O(N^2) 的时间复杂度，效率较低。
多字节字符问题： `strlen` 和 `$str[$i]` 默认按字节处理，对于UTF-8等多字节字符会截断或错误识别，导致乱码。

三、利用PHP内置函数：高效且简洁

PHP提供了丰富的字符串和数组处理函数，我们可以巧妙地组合它们来实现更高效的去重。

3.1 方法一：`str_split()` + `array_unique()` + `implode()`

这是PHP中最常用且推荐的去重方法之一，它利用了数组的去重能力。

3.1.1 实现原理

首先，使用 `str_split()` 函数将字符串拆分成单个字符组成的数组。然后，利用 `array_unique()` 函数去除数组中的重复元素。最后，使用 `implode()` 函数将去重后的字符数组重新组合成一个字符串。

3.1.2 代码示例（单字节字符）

<?php
function removeDuplicateCharsArrayUnique($str) {
$chars = str_split($str); // 拆分成字符数组
$uniqueChars = array_unique($chars); // 去除数组中的重复字符
return implode('', $uniqueChars); // 重新组合成字符串
}
$testString = "hellooworld";
echo "原字符串: " . $testString . " "; // 输出: hellooworld
echo "去重后: " . removeDuplicateCharsArrayUnique($testString) . " "; // 输出: helowrd
$testString2 = "programming";
echo "原字符串: " . $testString2 . " "; // 输出: programming
echo "去重后: " . removeDuplicateCharsArrayUnique($testString2) . " "; // 输出: progamin
?>

3.1.3 优点与局限性

优点： 代码简洁，易于理解和维护。效率通常比手动循环方法高，`array_unique`在底层经过优化。能保持字符的原始相对顺序。

局限性：

多字节字符问题： `str_split()` 同样按字节拆分，不适用于UTF-8等多字节字符。
内存消耗： 对于非常长的字符串，转换为数组会占用更多的内存。

3.2 方法二：`count_chars()`（更专业）

`count_chars()` 函数是PHP专门为字符统计和处理设计的，它提供了一种非常高效的方式来获取字符串中的唯一字符。

3.2.1 实现原理

`count_chars()` 函数根据 `mode` 参数的不同，有多种用法。当 `mode` 设置为 `3` 时，它会返回一个包含所有在字符串中使用到的唯一字符的新字符串。这是通过底层的C语言实现，效率极高。

3.2.2 代码示例（单字节字符）

<?php
function removeDuplicateCharsCountChars($str) {
return count_chars($str, 3); // 模式3：返回包含所有唯一字符的字符串
}
$testString = "hellooworld";
echo "原字符串: " . $testString . " "; // 输出: hellooworld
echo "去重后: " . removeDuplicateCharsCountChars($testString) . " "; // 输出: helowrd
$testString2 = "programming";
echo "原字符串: " . $testString2 . " "; // 输出: programming
echo "去重后: " . removeDuplicateCharsCountChars($testString2) . " "; // 输出: progamin
?>

3.2.3 优点与局限性

优点： 这是PHP处理单字节字符去重效率最高的内置函数之一，代码极其简洁。

局限性：

多字节字符问题： `count_chars()` 严格按照字节处理，不适用于UTF-8等多字节字符。如果尝试用于包含UTF-8字符的字符串，结果将是错误的乱码，因为它会把一个多字节字符拆分为多个字节进行统计和返回。
字符顺序： `count_chars(..., 3)` 返回的字符是按照它们的ASCII/字节值排序的，而不是它们在原始字符串中首次出现的顺序。这在某些需要保持原始顺序的场景下可能不适用。

四、正则表达式（Regex）方法：灵活且强大

正则表达式以其强大的模式匹配能力，在字符串处理中占有重要地位。虽然实现字符串去重可能不如内置函数直观，但其灵活性使其能处理更复杂的去重逻辑。

4.1 实现原理

我们可以使用 `preg_replace()` 函数结合一个巧妙的正则表达式。核心思想是：匹配任何字符（`(` `.` `)`），并使用一个正向先行断言（`?=`）来检查这个字符是否在字符串的后面再次出现。如果它再次出现，我们就将其替换为空字符串，从而移除重复的字符，但保留第一次出现的字符。

4.2 代码示例

<?php
function removeDuplicateCharsRegex($str) {
// 正则表达式解释：
// ( . ) : 匹配并捕获任何一个字符 (除了换行符)。这是第一个捕获组。
// (?= : 正向先行断言。它要求其内部的模式必须匹配，但不会消耗字符串中的字符。
// .* : 匹配任意数量的任何字符 (除了换行符)。
// \1 : 反向引用，指代前面捕获组1 (即第一个点号匹配到的字符)。
// ) : 结束先行断言。
// /u : UTF-8 模式修饰符，确保正则表达式能正确处理多字节字符。
// 整个表达式的含义是：查找一个字符，如果它后面还有相同的字符，则匹配这个字符。
// 然后将这个被匹配的字符替换为空，从而只保留第一次出现的字符。
return preg_replace('/(.)(?=.*\1)/us', '', $str);
}
$testString = "hellooworld";
echo "原字符串: " . $testString . " "; // 输出: hellooworld
echo "去重后: " . removeDuplicateCharsRegex($testString) . " "; // 输出: helowrd
$testString2 = "编程编程语言语言"; // 包含中文的多字节字符串
echo "原字符串: " . $testString2 . " "; // 输出: 编程编程语言语言
echo "去重后: " . removeDuplicateCharsRegex($testString2) . " "; // 输出: 编程语言
?>

4.3 优点与局限性

优点： 代码简洁，高度灵活，能够原生支持多字节字符（通过 `u` 修饰符），且能保持字符的原始相对顺序。对于复杂的匹配规则，正则表达式是最佳选择。

局限性： 正则表达式的理解和编写相对复杂，对于不熟悉正则的开发者来说学习曲线较陡。性能上，通常不如直接使用 `count_chars` 或 `array_unique` (在单字节场景下)，但对于多字节字符，它的性能表现通常优于手动循环。

五、处理多字节字符（UTF-8）的挑战与解决方案

在PHP中，字符串是字节流。这意味着像 `strlen()`、`str_split()`、`strpos()` 等函数在处理UTF-8等多字节字符时，会将其视为多个独立的字节，而非一个完整的字符。这会导致上述许多方法在处理中文、日文、韩文等字符时出现错误。

5.1 挑战

`strlen("你好")` 返回 6 (UTF-8编码下，一个汉字通常占3个字节)。
`$str[0]` 可能只获取到一个多字节字符的第一个字节。
`str_split("你好")` 可能会得到 `['�', '�', '�', '�', '�', '�']` 的乱码数组。
`count_chars()` 直接用于UTF-8字符串会返回乱码或不正确的结果。

5.2 解决方案

PHP提供了多字节字符串函数（`mb_` 系列函数）来解决这个问题。

5.2.1 针对 `str_split()` + `array_unique()` 方法的改进

使用 `mb_str_split()` (PHP 7.4+) 或 `preg_split()` 代替 `str_split()`。

<?php
function removeDuplicateCharsMb($str, $encoding = 'UTF-8') {
// PHP 7.4+ 可以直接使用 mb_str_split()
if (function_exists('mb_str_split')) {
$chars = mb_str_split($str, 1, $encoding);
} else {
// 对于 PHP 7.4 之前的版本，使用 preg_split()
$chars = preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY);
}

$uniqueChars = array_unique($chars);
return implode('', $uniqueChars);
}
$testString = "编程编程语言语言Hello";
echo "原字符串: " . $testString . " "; // 输出: 编程编程语言语言Hello
echo "去重后 (mb_): " . removeDuplicateCharsMb($testString) . " "; // 输出: 编程语言Helo
$testString2 = "你好世界，世界真美好";
echo "原字符串: " . $testString2 . " "; // 输出: 你好世界，世界真美好
echo "去重后 (mb_): " . removeDuplicateCharsMb($testString2) . " "; // 输出: 你好世界，真美好
?>

注意： `preg_split('//u', $str, -1, PREG_SPLIT_NO_EMPTY)` 是在PHP 7.4以前将多字节字符串拆分为字符数组的推荐方法。其中的 `u` 修饰符至关重要。

5.2.2 针对循环遍历方法的改进

使用 `mb_strlen()` 获取字符数，使用 `mb_substr()` 获取单个字符。

<?php
function removeDuplicateCharsLoopMb($str, $encoding = 'UTF-8') {
$result = '';
$length = mb_strlen($str, $encoding);
$seen = []; // 使用哈希表（关联数组）来记录已出现的字符，比mb_strpos快
for ($i = 0; $i < $length; $i++) {
$char = mb_substr($str, $i, 1, $encoding);
if (!isset($seen[$char])) {
$seen[$char] = true;
$result .= $char;
}
}
return $result;
}
$testString = "编程编程语言语言Hello";
echo "原字符串: " . $testString . " ";
echo "去重后 (loop_mb): " . removeDuplicateCharsLoopMb($testString) . " ";
$testString2 = "你好世界，世界真美好";
echo "原字符串: " . $testString2 . " ";
echo "去重后 (loop_mb): " . removeDuplicateCharsLoopMb($testString2) . " ";
?>

这里，我们不再使用 `mb_strpos`，而是使用一个 `seen` 数组（哈希表）来 O(1) 地检查字符是否已经出现过，这大大优化了循环方法的性能。

5.2.3 正则表达式方法对UTF-8的原生支持

如前所述，只要在正则表达式模式中加入 `u` 修饰符，`preg_replace()` 就能原生支持UTF-8多字节字符，无需额外处理，这是其一大优势。

六、性能对比与最佳实践

不同的方法在性能上存在差异，尤其是在处理长字符串和多字节字符时。以下是一个大致的性能评估和最佳实践建议：

6.1 性能考量

`count_chars($str, 3)` (单字节字符)：通常是最快的，因为它是在C语言层面实现的，高度优化。但它不保留原始顺序，且不适用于多字节字符。
`preg_replace('/(.)(?=.*\1)/us', '', $str)` (单字节/多字节字符)：性能优秀，尤其在多字节场景下非常推荐。代码简洁且强大。
`mb_str_split()` / `preg_split()` + `array_unique()` + `implode()` (多字节字符)：性能良好，代码可读性高。但在极长字符串时，数组转换和操作可能会带来一定的内存开销。
带 `seen` 数组的循环遍历 (`mb_strlen`/`mb_substr`) (多字节字符)：性能不错，与 `array_unique` 方法相近，但代码稍显冗长。
基础循环 (`strlen`/`$str[$i]`/`strpos`) (单字节字符)：性能最差，时间复杂度高，不推荐用于生产环境。

6.2 最佳实践建议

优先考虑字符编码： 在PHP中处理字符串时，第一步永远是明确字符串的编码。对于现代Web应用，UTF-8是标准。

单字节（ASCII）字符串去重：

如果不需要保持原始字符顺序，且字符串只包含ASCII字符，`count_chars($str, 3)` 是最快、最简洁的选择。
如果需要保持原始字符顺序，`str_split()` + `array_unique()` + `implode()` 组合是平衡性能和可读性的好选择。

多字节（UTF-8）字符串去重：

推荐： `preg_replace('/(.)(?=.*\1)/us', '', $str)`。它代码简洁，性能良好，并且原生支持UTF-8字符处理，同时能保持原始字符顺序。
备选： 使用 `mb_str_split()` (PHP 7.4+) 或 `preg_split('//u', ...)` 结合 `array_unique()` 和 `implode()`。这种方法可读性强，性能也不错。
手动循环： 结合 `mb_strlen()`、`mb_substr()` 和一个 `seen` 数组来实现，性能尚可，但代码相对冗长，在有更好的内置方案时通常不首选。

考虑字符串长度： 对于非常长的字符串，即使是高效的方法也可能消耗更多内存。在极端情况下，可能需要考虑分块处理或流式处理。

代码可读性与维护性： 在选择方法时，除了性能，代码的可读性和维护性也同样重要。通常，利用内置函数或清晰的正则表达式会比复杂的自定义循环更易于理解。

七、总结

PHP中去除字符串相同字符的需求可以通过多种方式实现，从基础的循环到利用内置函数，再到强大的正则表达式。面对这些选择，一个专业的程序员应该根据具体的业务场景、字符串编码（尤其是多字节字符处理）和性能要求来做出明智的决策。对于常见的UTF-8字符串去重并保持顺序的需求，`preg_replace` 正则表达式方法和 `mb_str_split` (或 `preg_split`) + `array_unique` 组合方法是两个非常优秀的解决方案。

理解每种方法的底层原理和优缺点，能够帮助我们编写出更加健壮、高效且适应性强的PHP代码。

2025-09-29

上一篇：PHP 类型判断：深入探讨如何准确检测变量是否为字符串

下一篇：PHP 获取毫秒级时间：从基础到高阶实践与应用