PHP 字符串包含判断：从基础到高级，掌握多种高效检测方法320

```html

在现代Web开发中，PHP作为后端语言，字符串操作是日常工作中不可或缺的一部分。尤其是在处理用户输入、解析数据、内容过滤或URL路由时，我们经常需要判断一个字符串是否包含了特定的字符、子字符串或字符序列。本文将作为一份全面的指南，从PHP 8.0引入的最新函数到经典的字符串处理方法，再到强大的正则表达式，深入探讨在PHP中检测字符串包含的各种技术、其适用场景、性能考量以及最佳实践。

PHP 8+ 时代的最佳实践：str_contains()

PHP 8.0引入了一个令人期待且极大地简化代码的函数：str_contains()。在此之前，开发者通常需要依赖strpos()并结合严格的非false判断来检查字符串包含关系。str_contains()的出现，让这一操作变得直观且易读。

函数特点与用法：

直观的布尔返回值：如果haystack字符串包含needle，则返回true；否则返回false。
简洁明了：无需进行复杂的比较，代码可读性极高。
大小写敏感：默认情况下是大小写敏感的。
性能优异：针对这一特定目的进行了高度优化。

示例：

<?php
$text = "Hello, world! Welcome to PHP programming.";
$search1 = "world";
$search2 = "php"; // 注意大小写
$search3 = "PHP";
var_dump(str_contains($text, $search1)); // true
var_dump(str_contains($text, $search2)); // false (因为是 'PHP' 而不是 'php')
var_dump(str_contains($text, $search3)); // true
// 检查是否包含多个关键词中的任意一个（需要配合循环或逻辑操作）
$keywords = ['Hello', 'programming', 'Python'];
$found = false;
foreach ($keywords as $keyword) {
if (str_contains($text, $keyword)) {
$found = true;
break;
}
}
var_dump($found); // true
?>

适用场景：在PHP 8.0及更高版本中，对于任何简单的字符串包含检测，str_contains()都应该是首选。它不仅使代码更具可读性，而且性能也相当出色。

经典且强大的字符串函数：strpos() 和 strstr()

在PHP 8.0之前，以及在需要更精细控制（如查找位置或获取子字符串）的情况下，strpos()和strstr()系列函数是进行字符串包含判断和操作的主要工具。

1. strpos() 和 stripos()：查找子字符串首次出现的位置

这两个函数用于查找子字符串在主字符串中首次出现的位置。它们的区别在于是否区分大小写。
strpos(string $haystack, string $needle, int $offset = 0): int|false：大小写敏感。如果找到，返回子字符串的起始位置（从0开始）；如果未找到，返回false。
stripos(string $haystack, string $needle, int $offset = 0): int|false：大小写不敏感。

关键注意事项：这两个函数在子字符串位于主字符串开头时会返回0。由于0在布尔上下文中被视为false，因此在进行判断时，必须使用严格比较运算符!== false。

示例：

<?php
$url = "/products/view/123";
$domain = "";
$path_segment = "products";
$protocol = "http";
// strpos - 大小写敏感
if (strpos($url, $domain) !== false) {
echo "URL contains domain '{$domain}'"; // 输出此行
}
if (strpos($url, $protocol) !== false) {
echo "URL contains protocol '{$protocol}'"; // 不输出，因为是 'https'
}
// stripos - 大小写不敏感
if (stripos($url, $protocol) !== false) {
echo "URL contains protocol (case-insensitive) '{$protocol}'"; // 输出此行
}
// 检查子字符串是否在开头
$text = "PHP is great.";
if (strpos($text, "PHP") === 0) { // 严格等于 0
echo "Text starts with 'PHP'"; // 输出此行
}
// 查找从特定偏移量开始的位置
$email = "user@";
$atPos = strpos($email, '@');
if ($atPos !== false) {
$dotPos = strpos($email, '.', $atPos); // 从@之后开始查找.
if ($dotPos !== false) {
echo "Email looks valid (contains @ and . after @)"; // 输出此行
}
}
?>

适用场景：

在PHP 8.0以下版本中进行字符串包含判断。
需要知道子字符串首次出现的确切位置。
需要从特定偏移量开始搜索。
需要区分大小写（strpos）或不区分大小写（stripos）的判断。

2. strstr() 和 stristr()：获取子字符串之后的部分

这两个函数用于查找子字符串在主字符串中首次出现的位置，并返回从该位置到字符串末尾的部分。它们的区别同样在于是否区分大小写。
strstr(string $haystack, string $needle, bool $before_needle = false): string|false：大小写敏感。如果找到，返回从needle开始到haystack末尾的部分；如果$before_needle设置为true，则返回needle之前的部分。未找到返回false。
stristr(string $haystack, string $needle, bool $before_needle = false): string|false：大小写不敏感。

关键注意事项：与strpos()类似，如果未找到子字符串，它们会返回false，因此在判断时也需要严格比较!== false。

示例：

<?php
$path = "/var/www/html/";
$fileName = "";
$after_slash = strstr($path, '/html');
echo "After /html: " . ($after_slash !== false ? $after_slash : "Not found") . "";
// 输出: After /html: /html/
$before_dot = strstr($fileName, '.', true); // 获取 '.' 之前的部分
echo "Before dot: " . ($before_dot !== false ? $before_dot : "Not found") . "";
// 输出: Before dot: index
$email = "info@";
$domainPart = strstr($email, '@'); // 获取 '@' 之后的部分，包含 '@'
echo "Domain part (with @): " . ($domainPart !== false ? $domainPart : "Not found") . "";
// 输出: Domain part (with @): @
$domainPartClean = substr(strstr($email, '@'), 1); // 去掉 '@'
echo "Domain part (clean): " . ($domainPartClean !== false ? $domainPartClean : "Not found") . "";
// 输出: Domain part (clean):
// stristr - 大小写不敏感
$text = "My favourite color is Blue.";
$color = stristr($text, 'blue');
echo "Found color (case-insensitive): " . ($color !== false ? $color : "Not found") . "";
// 输出: Found color (case-insensitive): Blue.
?>

适用场景：

不仅需要判断是否包含，还需要获取子字符串之后（或之前）的其余部分。
例如，从URL中提取路径，或从电子邮件地址中提取域名。

3. substr_count()：计算子字符串出现的次数

这个函数用于计算子字符串在主字符串中出现的次数。如果返回结果大于0，则表示包含。
substr_count(string $haystack, string $needle, int $offset = 0, ?int $length = null): int：大小写敏感。返回needle在haystack中出现的次数。

示例：

<?php
$longText = "PHP is a popular general-purpose scripting language especially suited to web development. PHP is fast, flexible and pragmatic.";
$searchWord = "PHP";
$count = substr_count($longText, $searchWord);
echo "'{$searchWord}' appears {$count} times."; // 输出: 'PHP' appears 2 times.
if ($count > 0) {
echo "Text contains '{$searchWord}'."; // 输出此行
}
?>

适用场景：当需要知道子字符串出现的频率时，或者只是作为一种判断包含关系的方式，但通常不如str_contains()或strpos()直接。

正则表达式的强大：preg_match()

当需要进行更复杂的模式匹配时，例如检查字符串是否包含“数字和字母的组合”、“URL格式”、“多个关键词中的任意一个”或者“不包含特定字符”等，正则表达式（Regular Expressions）是首选工具。PHP通过PCRE（Perl Compatible Regular Expressions）扩展提供了强大的正则表达式功能，其中preg_match()是最常用的匹配函数。

函数特点与用法：

preg_match(string $pattern, string $subject, array &$matches = null, int $flags = 0, int $offset = 0): int|false：在subject中搜索与pattern匹配的内容。如果找到，返回1；未找到，返回0；出错，返回false。
灵活强大：可以匹配几乎任何复杂的模式。
性能考量：相比简单的字符串函数，正则表达式通常更耗费资源。对于简单包含判断，不建议使用。

示例：

<?php
$input = "The quick brown fox jumps over the lazy dog.";
// 1. 简单包含判断 (大小写不敏感)
if (preg_match('/fox/i', $input)) {
echo "Text contains 'fox' (case-insensitive)."; // 输出此行
}
// 2. 检查是否包含数字
if (preg_match('/\d/', $input)) {
echo "Text contains a digit."; // 不输出
} else {
echo "Text does not contain a digit."; // 输出此行
}
// 3. 检查是否包含多个关键词中的任意一个 (使用 | 运算符)
if (preg_match('/(fox|cat|dog)/i', $input)) {
echo "Text contains 'fox', 'cat' or 'dog' (case-insensitive)."; // 输出此行
}
// 4. 检查是否包含特定字符集中的任意一个 (使用字符类 [])
$specialChars = "@#$%^&*";
$password = "MyP@ssw0rd!";
if (preg_match('/[' . preg_quote($specialChars, '/') . ']/', $password)) {
echo "Password contains a special character."; // 输出此行
}
// 5. 检查是否符合URL格式 (一个简化示例)
$url = "";
if (preg_match('/^(https?:/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/', $url)) {
echo "'{$url}' appears to be a valid URL."; // 输出此行
}
?>

适用场景：

需要匹配复杂的模式，如电话号码、电子邮件地址、URL、特定的日期格式等。
需要检查字符串是否包含特定字符集中的任意一个（例如，是否包含特殊字符）。
需要进行不区分大小写的复杂匹配。
需要从字符串中提取匹配的子模式。

注意：在使用用户提供的字符串作为正则表达式模式时，务必使用preg_quote()函数来转义特殊字符，以避免潜在的正则表达式注入漏洞。

检查字符串是否以某个字符开头或结尾

PHP 8.0还引入了两个非常方便的函数，用于检查字符串的起始和结束部分，虽然不完全是“包含”，但在很多场景下非常有用。
str_starts_with(string $haystack, string $needle): bool：检查haystack是否以needle开头。
str_ends_with(string $haystack, string $needle): bool：检查haystack是否以needle结尾。

示例：

<?php
$filename = "";
$url = "/api/v1/users";
var_dump(str_starts_with($filename, "doc")); // true
var_dump(str_ends_with($filename, ".pdf")); // true
var_dump(str_starts_with($url, "/api")); // true
var_dump(str_ends_with($url, "/users")); // true
?>

适用场景：文件类型判断、路由匹配、URL前缀/后缀检查等。

处理多字节字符（UTF-8）

在处理包含中文、日文、韩文等非ASCII字符（UTF-8编码）的字符串时，原生的strpos()、strstr()等函数可能不会按预期工作，尤其是在涉及到字符串长度、截取或偏移量时。在这种情况下，你需要使用mb_string扩展提供的多字节字符串函数。

对于简单的字符串包含判断：

str_contains() (PHP 8+)： 对于 UTF-8 字符集，str_contains() 通常工作正常，因为它只是查找字节序列。
mb_strpos()：多字节版本的strpos()。
mb_stripos()：多字节版本的stripos()。
mb_strstr()：多字节版本的strstr()。
mb_stristr()：多字节版本的stristr()。

这些函数通常需要指定字符编码，例如'UTF-8'。

示例：

<?php
$chineseText = "你好世界，PHP是最好的编程语言。";
$searchWord = "世界";
$searchWordCaseInsensitive = "php";
// str_contains 在 PHP 8+ 中对 UTF-8 简单查找通常有效
var_dump(str_contains($chineseText, $searchWord)); // true
// 对于需要位置或截取时，mb_string 函数更安全
if (mb_strpos($chineseText, $searchWord, 0, 'UTF-8') !== false) {
echo "文本包含 '{$searchWord}' (使用 mb_strpos)."; // 输出此行
}
if (mb_stripos($chineseText, $searchWordCaseInsensitive, 0, 'UTF-8') !== false) {
echo "文本包含 '{$searchWordCaseInsensitive}' (使用 mb_stripos)."; // 输出此行
}
?>

建议：在处理任何可能包含多字节字符的字符串时，始终启用并使用mb_string扩展中的函数，并明确指定字符编码，以避免潜在的问题和错误。

性能与最佳实践

选择正确的字符串包含检测方法不仅影响代码的可读性，也可能影响应用程序的性能。以下是一些最佳实践和性能考量：
优先使用 str_contains() (PHP 8+)：

如果你的项目运行在PHP 8.0或更高版本，并且只需要简单的判断字符串是否包含另一个字符串，那么str_contains()是最佳选择。它最简洁、最快。
简单场景使用 strpos() / stripos()：

在PHP 8.0以下版本，或者你需要知道子字符串的起始位置时，使用strpos()（大小写敏感）或stripos()（大小写不敏感）。记住要使用严格比较!== false。
利用 str_starts_with() / str_ends_with() (PHP 8+)：

如果你的需求仅仅是判断字符串是否以特定子串开头或结尾，这两个函数比strpos()更具可读性和性能。
复杂模式匹配使用 preg_match()：

当需求涉及复杂的模式、多个关键词的“或”关系、字符集匹配或需要提取匹配的子模式时，正则表达式是不可替代的。但请注意，正则表达式通常比原生字符串函数更慢，应避免在可以简化的情况下使用。
处理多字节字符串：

对于非ASCII字符，如中文，始终推荐使用mb_string扩展中的函数（如mb_strpos()、mb_strlen()），并指定字符编码（通常是'UTF-8'），以确保正确处理。
避免不必要的正则表达式：

一个常见的错误是，即使strpos()可以解决的问题，也倾向于使用preg_match()。例如，检查字符串是否包含“foo”，str_contains($str, 'foo')或strpos($str, 'foo') !== false远比preg_match('/foo/', $str)高效。
安全性：

如果将用户提供的输入作为正则表达式的模式，务必使用preg_quote()函数对输入进行转义，以防止正则表达式注入攻击。

在PHP中，判断字符串是否包含某些字符是一个基础而多样的任务。随着PHP版本的演进，我们拥有了越来越好用的工具。PHP 8.0的str_contains()函数以其简洁和高效，成为日常开发的首选。而经典的strpos()和strstr()系列函数在需要位置或截取子串的场景下依然强大。对于复杂的模式匹配，正则表达式和preg_match()是无可匹敌的利器。同时，对于国际化应用，mb_string扩展提供的多字节函数是确保正确处理各种字符集的关键。作为专业的程序员，理解这些函数的特性、适用场景和性能差异，并根据具体需求选择最合适的工具，是编写高效、健壮和可维护代码的重要能力。```

2025-10-11

上一篇：PHP高效读取与分页显示大型文本文件：从原理到实践

下一篇：PHP高效获取在线用户列表：数据库与缓存方案详解