PHP字符串操作：全面判断指定字符是否存在及位置查找135

在PHP编程中，字符串处理是日常开发任务中最常见也最重要的一环。无论是数据验证、内容解析、信息提取还是日志分析，我们都离不开对字符串的精细操作。其中，“判断字符串中是否包含指定字符或子字符串”是一个核心且频繁的需求。本文将作为一名专业的程序员，深入剖析PHP中实现这一目标所提供的各种函数和方法，从基础的内置函数到强大的正则表达式，再到多字节字符（UTF-8）的处理，并结合性能考量和最佳实践，为您提供一份全面且实用的指南。

一、为什么判断字符或子字符串如此重要？

在深入技术细节之前，我们先来理解这个操作的重要性：
数据验证：检查用户输入是否包含非法字符（如SQL注入尝试的单引号、脚本注入的`<script>`标签），或者是否包含特定格式要求的字符（如邮箱地址中的`@`）。
内容解析：从长文本中查找特定分隔符、关键字或标记，以便进行进一步的数据提取或结构化。
URL处理：判断URL中是否包含查询参数（`?`）、哈希值（`#`）或特定路径段。
文件路径操作：检查路径中是否包含目录分隔符（`/`或`\`）。
安全性：过滤或检测潜在的恶意代码片段。

PHP提供了多种函数来处理这些场景，每种函数都有其独特的优点和适用范围。选择合适的工具不仅能提高代码效率，还能确保程序的健壮性。

二、PHP内置函数：高效且直观的判断方法

PHP标准库中包含了一系列用于字符串搜索的函数。它们通常比手动循环或正则表达式更快，尤其适用于简单的字符或子字符串查找。

1. `str_contains()` - PHP 8+ 最简洁的布尔判断

自PHP 8.0起，`str_contains()` 函数成为了判断字符串是否包含子字符串的最直接、最推荐的方式。它返回一个布尔值：如果找到了子字符串则返回 `true`，否则返回 `false`。<?php
$text = "Hello, world!";
$search_char = "o";
$search_word = "world";
$not_found = "PHP";
if (str_contains($text, $search_char)) {
echo "'$text' 包含字符 '$search_char'."; // 输出：'Hello, world!' 包含字符 'o'.
}
if (str_contains($text, $search_word)) {
echo "'$text' 包含子字符串 '$search_word'."; // 输出：'Hello, world!' 包含子字符串 'world'.
}
if (!str_contains($text, $not_found)) {
echo "'$text' 不包含子字符串 '$not_found'."; // 输出：'Hello, world!' 不包含子字符串 'PHP'.
}
// 区分大小写
$text_case = "Apple";
if (str_contains($text_case, "apple")) {
echo "'$text_case' 包含 'apple'."; // 不会输出
} else {
echo "'$text_case' 不包含 'apple' (区分大小写)."; // 输出
}
?>

优点：语法简洁，易于理解，专为布尔判断设计，性能优秀。

缺点：仅适用于PHP 8.0及更高版本，区分大小写。

2. `strpos()` / `stripos()` - 查找子字符串首次出现的位置

`strpos()` 是PHP中最常用的字符串查找函数之一。它返回子字符串在原字符串中首次出现的位置（索引），如果没有找到则返回 `false`。<?php
$text = "Hello, world! Hello PHP.";
$char = "o";
$word = "Hello";
$not_found = "Java";
$pos1 = strpos($text, $char); // 4 (索引从0开始)
$pos2 = strpos($text, $word); // 0
$pos3 = strpos($text, $not_found); // false
echo "'$char' 首次出现位置: " . ($pos1 !== false ? $pos1 : "未找到") . ""; // 输出：'o' 首次出现位置: 4
echo "'$word' 首次出现位置: " . ($pos2 !== false ? $pos2 : "未找到") . ""; // 输出：'Hello' 首次出现位置: 0
echo "'$not_found' 首次出现位置: " . ($pos3 !== false ? $pos3 : "未找到") . ""; // 输出：'Java' 首次出现位置: 未找到
// 注意：0 是一个有效位置，因此必须使用 === false 来判断是否未找到
if (strpos($text, $word) !== false) {
echo "'$text' 包含子字符串 '$word'."; // 输出
}
// `stripos()` 是 `strpos()` 的不区分大小写版本
$text_case = "Apple pie";
$pos_case_insensitive = stripos($text_case, "apple"); // 0
echo "'$text_case' 中 'apple' 的不区分大小写位置: " . ($pos_case_insensitive !== false ? $pos_case_insensitive : "未找到") . ""; // 输出：0
?>

`strpos()` 注意事项：
`strpos()` 返回的索引是基于0的。
如果子字符串出现在字符串的开头，`strpos()` 会返回 `0`。
非常重要：由于 `0` 是一个有效的索引，而 `false` 表示未找到，因此在判断是否存在时，必须使用全等运算符 `===` 或 `!==` 来区分 `0` 和 `false`。例如 `strpos(...) !== false`。

优点：能够获取子字符串的精确位置，适用于需要进一步处理子字符串的场景，性能良好。

缺点：需要注意 `0` 和 `false` 的区别，区分大小写（`strpos`）。

3. `strrpos()` / `strripos()` - 查找子字符串最后一次出现的位置

`strrpos()` 的行为与 `strpos()` 类似，但它从字符串的末尾开始向前查找，返回子字符串最后一次出现的位置。<?php
$text = "Hello, world! Hello PHP.";
$char = "o";
$word = "Hello";
$last_pos_char = strrpos($text, $char); // 13 (第二个'o'的位置)
$last_pos_word = strrpos($text, $word); // 14 (第二个'Hello'的H的位置)
echo "'$char' 最后一次出现位置: " . ($last_pos_char !== false ? $last_pos_char : "未找到") . ""; // 输出：'o' 最后一次出现位置: 13
echo "'$word' 最后一次出现位置: " . ($last_pos_word !== false ? $last_pos_word : "未找到") . ""; // 输出：'Hello' 最后一次出现位置: 14
// `strripos()` 是 `strrpos()` 的不区分大小写版本
$text_case = "apple Pie apple";
$last_pos_case_insensitive = strripos($text_case, "apple"); // 10
echo "'$text_case' 中 'apple' 的不区分大小写最后一次出现位置: " . ($last_pos_case_insensitive !== false ? $last_pos_case_insensitive : "未找到") . ""; // 输出：10
?>

优点：获取子字符串最后一次出现的位置，在处理文件路径（如获取扩展名）、URL等场景中非常有用。

缺点：同样需要注意 `0` 和 `false` 的区别，区分大小写（`strrpos`）。

4. `strstr()` / `stristr()` / `strchr()` - 查找并返回子字符串

`strstr()`（`strchr()` 是其别名）函数查找子字符串的首次出现，并返回从该子字符串开始到字符串结尾的部分。如果没有找到，则返回 `false`。<?php
$email = "user@";
$domain = strstr($email, "@"); // "@"
$user = strstr($email, "@", true); // "user" (PHP 5.3+ 可选第三个参数before_needle)
$not_found = strstr($email, "."); // ".com"
echo "邮箱域名: " . ($domain !== false ? $domain : "未找到") . ""; // 输出：邮箱域名: @
echo "邮箱用户: " . ($user !== false ? $user : "未找到") . ""; // 输出：邮箱用户: user
echo "点号之后: " . ($not_found !== false ? $not_found : "未找到") . ""; // 输出：点号之后: .com
// 判断是否存在：
if (strstr($email, "@") !== false) {
echo "'$email' 包含 '@' 字符."; // 输出
}
// `stristr()` 是 `strstr()` 的不区分大小写版本
$text_case = "PHP is fun";
$result_case_insensitive = stristr($text_case, "php"); // "PHP is fun"
echo "不区分大小写查找 'php': " . ($result_case_insensitive !== false ? $result_case_insensitive : "未找到") . ""; // 输出：PHP is fun
?>

优点：不仅能判断存在性，还能直接获取或截取子字符串之后（或之前）的部分。

缺点：如果只是判断存在性，`str_contains()` 或 `strpos()` 会更直接高效。

5. `substr_count()` - 统计子字符串出现次数

如果你需要知道一个子字符串在一个大字符串中出现了多少次，`substr_count()` 是最简单的方法。<?php
$text = "one two three one four one";
$count = substr_count($text, "one"); // 3
$count_char = substr_count($text, "e"); // 4
echo "子字符串 'one' 出现了 $count 次."; // 输出：子字符串 'one' 出现了 3 次.
echo "字符 'e' 出现了 $count_char 次."; // 输出：字符 'e' 出现了 4 次.
?>

优点：简单高效地统计出现次数。

缺点：不支持正则表达式，不区分大小写，且在计算重叠子字符串时有特定行为（不计算重叠部分）。

三、正则表达式：处理复杂模式的利器

当需要查找的不仅仅是固定字符或子字符串，而是具有某种模式（例如，查找所有数字、所有英文字母、特定格式的日期或邮箱）时，正则表达式（Regular Expressions, Regex）是不可替代的强大工具。

1. `preg_match()` - 检查模式是否匹配

`preg_match()` 函数用于执行正则表达式匹配。如果找到了匹配项，它返回 `1`；如果没有找到，返回 `0`；如果发生错误，返回 `false`。<?php
$text = "Today is 2023-10-27, my email is user@.";
// 查找是否包含数字
if (preg_match('/\d/', $text)) {
echo "'$text' 包含数字."; // 输出
}
// 查找是否包含特定格式的日期 (YYYY-MM-DD)
if (preg_match('/\d{4}-\d{2}-\d{2}/', $text, $matches)) {
echo "'$text' 包含日期: " . $matches[0] . ""; // 输出：包含日期: 2023-10-27
}
// 查找是否包含邮箱地址 (更复杂的模式)
if (preg_match('/[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}/', $text, $matches_email)) {
echo "'$text' 包含邮箱地址: " . $matches_email[0] . ""; // 输出：包含邮箱地址: user@
}
// 不区分大小写匹配
$text_case = "Php programming";
if (preg_match('/php/i', $text_case)) { // '/i' 模式修饰符表示不区分大小写
echo "'$text_case' 包含 'php' (不区分大小写)."; // 输出
}
?>

优点：极其灵活，能够处理几乎所有复杂的模式匹配需求。

缺点：学习曲线较陡峭，对于简单的字符查找可能不如内置函数性能高，代码可读性相对较低。

2. `preg_match_all()` - 查找所有匹配项

如果需要找到所有符合正则表达式的匹配项，并不仅仅是判断是否存在或找到第一个，那么 `preg_match_all()` 是你的选择。它会将所有匹配结果填充到一个数组中。<?php
$text = "The numbers are 10, 20, and 30.";
preg_match_all('/\d+/', $text, $matches);
print_r($matches[0]);
// Output: Array ( [0] => 10 [1] => 20 [2] => 30 )
$html = "First paragraph.Second paragraph.";
preg_match_all('/.*?<\/p>/', $html, $paragraphs);
print_r($paragraphs[0]);
// Output: Array ( [0] => First paragraph. [1] => Second paragraph. )
?>

优点：能够提取所有符合模式的子字符串。

缺点：相比 `preg_match()` 有更高的开销。

四、多字节字符（UTF-8）处理

在处理包含非ASCII字符（如中文、日文、韩文或特殊符号）的字符串时，标准的 `str*` 函数可能会出现问题，因为它们通常是基于字节进行操作的，而不是基于字符。一个UTF-8字符可能由多个字节组成，这会导致 `strpos()` 等函数给出错误的位置或判断。

为了正确处理多字节字符串，PHP提供了多字节字符串函数库（`mb_*` 函数）。

1. `mb_str_contains()` (PHP 8.0+)

与 `str_contains()` 类似，但可以正确处理多字节字符串。<?php
$text_mb = "你好世界，Hello World！";
$char_mb = "界";
if (mb_str_contains($text_mb, $char_mb)) {
echo "'$text_mb' 包含字符 '$char_mb' (多字节)."; // 输出
} else {
echo "'$text_mb' 不包含字符 '$char_mb' (多字节).";
}
?>

2. `mb_strpos()` / `mb_stripos()` / `mb_strrpos()` / `mb_strripos()`

这些函数是 `strpos()` 系列的多字节版本，它们接受一个额外的参数来指定字符编码（通常是 `'UTF-8'`）。<?php
$text_mb = "你好世界，Hello World！";
$char_mb = "世";
$encoding = "UTF-8";
$pos_mb = mb_strpos($text_mb, $char_mb, 0, $encoding); // 2 (中文'世'在索引2)
echo "'$char_mb' 在 '$text_mb' 中的位置: " . ($pos_mb !== false ? $pos_mb : "未找到") . ""; // 输出：'世' 在 '你好世界，Hello World！' 中的位置: 2
// 如果使用 strpos()，结果会是错误的字节位置
$pos_wrong = strpos($text_mb, $char_mb); // 6 (因为一个中文字符通常占3个字节)
echo "'$char_mb' 在 '$text_mb' 中的错误字节位置 (strpos): " . ($pos_wrong !== false ? $pos_wrong : "未找到") . ""; // 输出：'世' 在 '你好世界，Hello World！' 中的错误字节位置 (strpos): 6
// 不区分大小写的多字节查找
$text_mixed = "AbcDefGhi";
$search_mb_case_insensitive = "def";
$pos_mb_case_insensitive = mb_stripos($text_mixed, $search_mb_case_insensitive, 0, $encoding);
echo "'$search_mb_case_insensitive' 在 '$text_mixed' 中的不区分大小写位置: " . ($pos_mb_case_insensitive !== false ? $pos_mb_case_insensitive : "未找到") . ""; // 输出：'def' 在 'AbcDefGhi' 中的不区分大小写位置: 3
// `mb_substr_count()` 也是多字节版本
$count_mb = mb_substr_count($text_mb, "界", $encoding); // 1
echo "字符 '界' 出现了 $count_mb 次 (多字节)."; // 输出：字符 '界' 出现了 1 次 (多字节).
?>

重要提示：在处理任何包含非ASCII字符的字符串时，请务必使用 `mb_*` 函数，并指定正确的编码（通常是 `UTF-8`）。您也可以通过 `mb_internal_encoding("UTF-8");` 来设置脚本的内部编码，这样许多 `mb_*` 函数在不指定编码参数时会默认使用内部编码。

五、性能考量与选择指南

虽然大多数情况下函数选择对性能影响不大，但在处理海量数据或高并发场景时，选择最合适的函数可以带来显著的性能提升。
最快：`str_contains()` (PHP 8+)：如果只是简单判断存在性，且您的PHP版本支持，这是首选，性能最佳。
次之：`strpos()` / `stripos()`：对于简单查找，它们的性能也非常好，并且能提供位置信息。
中等：`strstr()` / `strchr()`：如果您不仅要判断存在，还需要获取或截取子字符串，它们很方便，但如果只做判断则稍显冗余。
稍慢：`preg_match()` / `preg_match_all()`：正则表达式引擎有其固有的开销。只有当你的查找模式无法通过简单的字符串函数实现时，才应该使用正则表达式。对于简单查找，性能远不如 `strpos` 等函数。
多字节函数 (`mb_*`)：它们通常比对应的 `str*` 函数慢，因为它们需要处理复杂的编码逻辑。但对于多字节字符，它们是必要的，性能上的牺牲是值得的。

总结选择策略：
PHP 8.0+ 简单存在判断： `str_contains()`
PHP < 8.0 简单存在判断 / 需要位置 / 区分大小写： `strpos($string, $needle) !== false`
PHP < 8.0 简单存在判断 / 需要位置 / 不区分大小写： `stripos($string, $needle) !== false`
需要查找最后位置： `strrpos()` / `strripos()`
需要统计出现次数： `substr_count()`
处理多字节字符（中文等）：优先使用 `mb_str_contains()` (PHP 8+) 或 `mb_strpos()` / `mb_stripos()`，并指定编码。
查找复杂模式： `preg_match()` / `preg_match_all()`

六、最佳实践与注意事项

为了编写高质量、健壮的PHP字符串处理代码，请遵循以下最佳实践：
严格判断 `false`：使用 `=== false` 而不是 `!= false` 或 `== false` 来判断 `strpos()` 等函数的未找到结果，因为 `0` 是一个有效的位置。
始终考虑字符编码：如果你的应用会处理非ASCII字符，务必使用 `mb_*` 系列函数，并统一使用 `UTF-8` 编码。在脚本开头设置 `mb_internal_encoding("UTF-8");` 是一个好习惯。
选择合适的工具：避免杀鸡用牛刀。简单的存在判断，用 `str_contains()` 或 `strpos()`；复杂模式匹配，才考虑正则表达式。
性能优化：在性能敏感的代码中，优先使用内置的 `str*` 函数，它们通常是用C语言实现的，效率极高。
输入验证与安全性：在处理用户输入时，任何字符串查找和操作都应与输入验证和过滤结合，以防止安全漏洞（如XSS、SQL注入）。
代码可读性：虽然正则表达式强大，但复杂的正则表达式会降低代码可读性。在可能的情况下，使用更易懂的字符串函数。

判断PHP字符串中是否存在指定字符或子字符串是PHP开发中的基石。PHP提供了从简单到复杂的多种解决方案：`str_contains()` 提供最简洁的布尔判断（PHP 8+）；`strpos()` 及其变体可以获取精确的位置信息，并支持大小写敏感/不敏感和正向/反向查找；`substr_count()` 用于统计出现次数；而 `preg_match()` 系列函数则能应对任何复杂的模式匹配需求。此外，对于多字节字符（如UTF-8），`mb_*` 函数系列是不可或缺的。作为专业的程序员，我们应当熟练掌握这些工具，并根据具体需求、性能要求和代码可读性来选择最合适的方案，从而编写出高效、安全且易于维护的代码。

2025-10-20

上一篇：PHP文件引入乱码终极解决方案：深度解析与实战排查指南

下一篇：深入理解PHP数组类型约束：从原生支持到设计模式，构建更健壮的应用