掌握PHP字符串去重：从基础字符到复杂场景的最佳实践395

```html

在PHP开发中，字符串处理是一项核心且频繁的任务。其中，字符串去重（或称去除重复）是一个非常常见的需求，它可能涉及到从一个字符串中移除重复的字符、单词、行，或者从一个字符串数组中去除重复的字符串。无论是为了数据清洗、优化存储、提高显示效率，还是为了确保数据的唯一性，掌握各种字符串去重技巧对于任何PHP开发者来说都至关重要。本文将作为一份详尽的指南，深入探讨PHP中字符串去重的各种方法，从基础概念到复杂场景，并分析其性能特点和最佳实践。

一、理解字符串去重的不同维度

在开始具体方法之前，我们需要明确“字符串去重”可能涉及的不同含义：
字符去重： 指的是在一个字符串内部，移除重复出现的单个字符。例如，“banana”去重后变为“ban”。
单词/子串去重： 指的是在一个由特定分隔符（如空格、逗号）连接的字符串中，移除重复出现的单词或子串。例如，“apple orange apple”去重后变为“apple orange”。
行去重： 指的是在一个包含多行的字符串中，移除重复出现的整行内容。例如，日志文件或配置文件的去重。
字符串数组去重： 指的是在一个包含多个字符串的数组中，移除重复的字符串元素。例如，['red', 'green', 'red'] 去重后变为 ['red', 'green']。

我们将针对这四种主要场景，逐一介绍PHP提供的解决方案。

二、去除字符串中的重复字符

这是最基础的去重场景，目标是将字符串“aabbcdeff”处理成“abcdef”。PHP提供了多种方法来实现这一点，其中最常用且推荐的是结合str_split()、array_unique()和implode()函数。

方法一：使用 `str_split()`、`array_unique()` 和 `implode()`

这种方法的核心思想是将字符串拆分成字符数组，利用数组去重函数处理，然后再将处理后的字符数组重新组合成字符串。
function removeDuplicateCharacters(string $str): string
{
// 1. 将字符串拆分成字符数组
$characters = str_split($str);

// 2. 使用 array_unique() 去除数组中的重复字符
// array_unique() 默认会保留第一个出现的元素，并移除后续重复的元素
$uniqueCharacters = array_unique($characters);

// 3. 将去重后的字符数组重新组合成字符串
return implode('', $uniqueCharacters);
}
$string1 = "programming"; // 预期输出: progamin
$string2 = "hello world"; // 预期输出: helo wrd
$string3 = "banana"; // 预期输出: ban
$string4 = "Mississippi"; // 预期输出: Misp
echo "Original: $string1, Unique: " . removeDuplicateCharacters($string1) . "";
echo "Original: $string2, Unique: " . removeDuplicateCharacters($string2) . "";
echo "Original: $string3, Unique: " . removeDuplicateCharacters($string3) . "";
echo "Original: $string4, Unique: " . removeDuplicateCharacters($string4) . "";

解释：

str_split($str)：将字符串分割成单个字符的数组。例如，"banana" 会变成 `['b', 'a', 'n', 'a', 'n', 'a']`。
array_unique($characters)：从数组中移除重复的值。对于 `['b', 'a', 'n', 'a', 'n', 'a']`，它会返回 `['b', 'a', 'n']`。注意，它会保留原始键名，但通常在使用 `implode` 时这并不重要。
implode('', $uniqueCharacters)：将数组元素连接成一个字符串，此处使用空字符串作为连接符，将字符数组组合回字符串。

优点： 代码简洁，易于理解和实现，性能良好。

缺点： 对于处理多字节字符（如UTF-8编码的中文、日文等），str_split()默认按字节分割，可能会导致问题。此时应使用mb_str_split()（如果PHP版本 >= 7.4）或手动遍历。

方法二：使用循环和已见字符集

这种方法适用于需要更精细控制或兼容旧版本PHP的场景，特别是在处理多字节字符时可以更灵活。
function removeDuplicateCharactersManual(string $str): string
{
$seenCharacters = [];
$result = '';

// 针对UTF-8，使用 mb_strlen 和 mb_substr
$length = mb_strlen($str, 'UTF-8');
for ($i = 0; $i < $length; $i++) {
$char = mb_substr($str, $i, 1, 'UTF-8');
if (!isset($seenCharacters[$char])) {
$result .= $char;
$seenCharacters[$char] = true;
}
}

return $result;
}
$string1 = "你好世界你好"; // 预期输出: 你好世界
$string2 = "apple"; // 预期输出: aple
echo "Original: $string1, Unique: " . removeDuplicateCharactersManual($string1) . "";
echo "Original: $string2, Unique: " . removeDuplicateCharactersManual($string2) . "";

解释：

我们维护一个 `$seenCharacters` 关联数组（或哈希表），以字符作为键。
遍历字符串的每个字符（使用mb_strlen和mb_substr来正确处理UTF-8字符）。
如果当前字符不在 `$seenCharacters` 中，则将其添加到结果字符串 `$result` 和 `$seenCharacters` 中。

优点： 适用于多字节字符，提供了更底层的控制。避免了中间数组创建和销毁的开销（对于极长字符串可能略有优势）。

缺点： 代码相对繁琐，不如方法一简洁。

三、去除字符串中的重复单词/子串

当字符串由一系列单词或子串组成，并通过特定分隔符连接时，我们需要针对这些“单元”进行去重。例如，“PHP,JavaScript,PHP,Python”去重后变为“PHP,JavaScript,Python”。

方法一：使用 `explode()`、`array_unique()` 和 `implode()`

这是处理单词或子串去重最常用且有效的方法，与字符去重的方法类似，只是分隔符不同。
function removeDuplicateWords(string $str, string $delimiter = ' '): string
{
// 1. 将字符串按分隔符拆分成单词数组
$words = explode($delimiter, $str);

// 2. 去除数组中的重复单词
$uniqueWords = array_unique($words);

// 3. 将去重后的单词数组重新组合成字符串
return implode($delimiter, $uniqueWords);
}
// 示例1：空格分隔
$sentence1 = "apple orange banana apple grape"; // 预期输出: apple orange banana grape
echo "Original: '$sentence1', Unique: '" . removeDuplicateWords($sentence1) . "'";
// 示例2：逗号分隔（注意逗号后面是否有空格）
$list1 = "PHP,JavaScript,PHP,Python"; // 预期输出: PHP,JavaScript,Python
echo "Original: '$list1', Unique: '" . removeDuplicateWords($list1, ',') . "'";
// 示例3：带有大小写敏感性的问题
$sentence2 = "Apple apple Orange orange"; // 预期输出: Apple apple Orange orange (默认大小写敏感)
echo "Original: '$sentence2', Unique: '" . removeDuplicateWords($sentence2) . "'";

处理大小写不敏感： 如果需要大小写不敏感的去重，可以在 array_unique() 之前对数组元素进行转换（例如全部转为小写）。
function removeDuplicateWordsCaseInsensitive(string $str, string $delimiter = ' '): string
{
$words = explode($delimiter, $str);

// 将所有单词转换为小写进行比较，但保留原始单词用于结果
$uniqueWords = [];
$seenWordsLower = [];

foreach ($words as $word) {
$lowerWord = strtolower($word);
if (!isset($seenWordsLower[$lowerWord])) {
$uniqueWords[] = $word; // 添加原始单词
$seenWordsLower[$lowerWord] = true;
}
}

return implode($delimiter, $uniqueWords);
}
$sentence3 = "Apple apple Orange orange Banana APPLE"; // 预期输出: Apple Orange Banana
echo "Original: '$sentence3', Unique (case-insensitive): '" . removeDuplicateWordsCaseInsensitive($sentence3) . "'";

解释：

explode($delimiter, $str)：根据指定分隔符将字符串分割成数组。
array_unique($words)：对单词数组进行去重。
implode($delimiter, $uniqueWords)：将去重后的单词数组重新用分隔符连接。
对于大小写不敏感处理，我们手动遍历，利用一个辅助数组存储小写形式的单词，判断是否已出现，并保留原始大小写的单词。

优点： 简单直观，对于大多数场景非常高效。

缺点： explode() 只能使用单个字符或固定字符串作为分隔符。如果分隔符本身是正则表达式，则需要使用 preg_split()。

方法二：使用正则表达式 `preg_split()` 和 `preg_replace_callback()` (更高级)

当分隔符复杂（如多个空格、标点符号），或者需要在去重过程中进行更复杂的匹配和替换时，正则表达式是更强大的工具。
function removeDuplicateWordsRegex(string $str): string
{
// 1. 使用正则表达式分割字符串，并过滤空字符串
// \s+ 匹配一个或多个空白字符作为分隔符
$words = preg_split('/\s+/', $str, -1, PREG_SPLIT_NO_EMPTY);

// 2. 去重
$uniqueWords = array_unique($words);

// 3. 重新组合
return implode(' ', $uniqueWords);
}
$sentence4 = " This is a test sentence. This sentence is a test. "; // 预期输出: This is a test sentence.
echo "Original: '$sentence4', Unique: '" . removeDuplicateWordsRegex($sentence4) . "'";

解释：

preg_split('/\s+/', $str, -1, PREG_SPLIT_NO_EMPTY)：使用正则表达式 /\s+/（匹配一个或多个空白字符）作为分隔符来分割字符串。PREG_SPLIT_NO_EMPTY 标志确保不会创建空字符串元素，这对于处理多个连续分隔符或字符串开头/结尾的分隔符非常有用。

优点： 极大的灵活性，可以处理各种复杂的分隔符模式。

缺点： 正则表达式相对复杂，对于不熟悉的人来说可能难以理解和调试，且性能可能略低于简单的 explode()。

四、处理多行字符串中的重复行

在处理日志文件、配置文件或任何以换行符分隔的数据时，去除重复的行是常见的需求。

方法：使用 `explode()`（或 `preg_split()`）、`array_unique()` 和 `implode()`

与单词去重类似，只需将分隔符设置为换行符即可。
function removeDuplicateLines(string $multiLineStr): string
{
// 1. 使用正则表达式分割字符串，以处理不同操作系统的换行符 (\r 或 )
$lines = preg_split("/\r?/", $multiLineStr, -1, PREG_SPLIT_NO_EMPTY);

// 2. 去除重复的行
$uniqueLines = array_unique($lines);

// 3. 将去重后的行重新组合，使用标准换行符
return implode("", $uniqueLines);
}
$logData = "ERROR: Failed to connect.INFO: User logged in.ERROR: Failed to connect.WARNING: Disk space low.INFO: User logged in.";
echo "Original Log:" . $logData . "";
echo "Unique Log:" . removeDuplicateLines($logData) . "";

解释：

preg_split("/\r?/", $multiLineStr, -1, PREG_SPLIT_NO_EMPTY)：使用正则表达式 /\r?/ 匹配Windows (`\r`) 和 Unix/Linux (``) 两种换行符，并将其作为分隔符。PREG_SPLIT_NO_EMPTY 同样用于避免空行。
array_unique($lines)：去重行。
implode("", $uniqueLines)：将去重后的行用 `` 连接起来。

优点： 简单高效，同时兼容不同操作系统的换行符。

五、从字符串数组中去重

当您已经有一个字符串数组，并且需要移除其中重复的字符串元素时，PHP的 array_unique() 函数是最佳选择。

方法：直接使用 `array_unique()`

function removeDuplicateStringsFromArray(array $arr): array
{
// array_unique() 会返回一个新数组，其中所有重复值都被移除
// 默认保留第一个出现的元素
return array_unique($arr);
}
$colors = ['red', 'green', 'blue', 'red', 'yellow', 'green']; // 预期输出: ['red', 'green', 'blue', 'yellow']
$uniqueColors = removeDuplicateStringsFromArray($colors);
echo "Original Array: " . implode(', ', $colors) . "";
echo "Unique Array: " . implode(', ', $uniqueColors) . "";
$caseSensitiveNames = ['John', 'john', 'Doe', 'John']; // 预期输出: ['John', 'john', 'Doe']
$uniqueNames = removeDuplicateStringsFromArray($caseSensitiveNames);
echo "Original Names: " . implode(', ', $caseSensitiveNames) . "";
echo "Unique Names (Case-Sensitive): " . implode(', ', $uniqueNames) . "";

处理大小写不敏感： 如果需要大小写不敏感的数组去重，可以先将所有字符串转换为统一大小写再进行去重。
function removeDuplicateStringsFromArrayCaseInsensitive(array $arr): array
{
$processed = [];
$result = [];

foreach ($arr as $item) {
$lowerItem = strtolower($item);
if (!in_array($lowerItem, $processed)) {
$processed[] = $lowerItem;
$result[] = $item; // 保留原始大小写的字符串
}
}
return $result;
}
$caseInsensitiveNames = ['John', 'john', 'Doe', 'JOHN', 'doe']; // 预期输出: ['John', 'Doe']
$uniqueCaseInsensitiveNames = removeDuplicateStringsFromArrayCaseInsensitive($caseInsensitiveNames);
echo "Original Names: " . implode(', ', $caseInsensitiveNames) . "";
echo "Unique Names (Case-Insensitive): " . implode(', ', $uniqueCaseInsensitiveNames) . "";

解释：

array_unique($arr)：这是最直接、最高效的方法。它会返回一个新数组，其中移除了所有重复的值。默认情况下，它会保留每个重复值第一次出现时的元素，并移除后续重复的元素。
对于大小写不敏感的去重，我们通过一个循环和辅助数组 $processed 来实现，确保最终结果中只包含原始字符串中首次出现的唯一值。

优点： PHP内置函数，高度优化，性能卓越，代码简洁。

缺点： 默认情况下是大小写敏感的。若需大小写不敏感，需额外处理。

六、性能考虑与最佳实践

在选择去重方法时，除了功能的实现，还应考虑性能和代码的可读性。
对于字符、单词、行去重：

优先使用 explode() / str_split() + array_unique() + implode() 的组合。这是PHP处理此类任务的“惯用方式”，通常性能良好且易于理解。
处理多字节字符时，务必使用 mb_str_split() 或 mb_substr() 配合循环，以避免字符截断问题。
只有在遇到极其复杂的分隔符模式时，才考虑使用 preg_split()，并注意正则表达式的性能开销。

对于字符串数组去重：

直接使用 array_unique() 是最高效的方法。
如果需要大小写不敏感去重，自定义循环虽然可以实现，但对于大型数组，性能可能不如先用 array_map('strtolower', $arr) 转换为小写后再 array_unique()，最后再进行映射回原始大小写（如果需要保留）。但通常保留原始大小写在去重时会带来额外的复杂度。

内存使用： 对于非常长的字符串或包含大量元素的数组，中间创建的临时数组可能会占用大量内存。在极端情况下，如果内存成为瓶颈，可能需要考虑流式处理或分块处理数据，但这超出了本文的基础范畴。
清晰度和可维护性： 始终选择最简单、最清晰、最容易维护的代码。PHP内置函数通常经过高度优化，比手动实现的循环更可靠。

七、总结

PHP提供了丰富而强大的字符串和数组处理函数，使得字符串去重在不同场景下都能得到高效优雅的解决。无论您是需要去除单个字符串中的重复字符、单词，还是处理多行文本中的重复行，亦或是对字符串数组进行去重，总有一种或多种内置方法能够满足您的需求。

核心思想通常是：“分割 -> 去重 -> 合并”。通过 str_split()、explode()、preg_split() 等函数将字符串分割成数组，利用 array_unique() 函数进行去重，最后通过 implode() 函数将处理后的数组重新组合成字符串。在处理多字节字符和大小写敏感性时，需要特别注意使用相应的多字节函数或额外的逻辑。

作为专业的程序员，我们应当时刻权衡解决方案的效率、可读性、可维护性以及对边缘情况（如编码、大小写）的处理能力，从而选择最适合当前项目和性能要求的去重策略。```

2026-03-30

上一篇：PHP与数据库：构建动态Web应用的基石与深度实践

下一篇：PHP高效获取CSV文件行数：从小型文件到海量数据的最佳实践与性能优化