PHP 字符串截取：从入门到精通，高效获取特定分隔符前的子字符串150

在 PHP 开发中，字符串处理是一项极其常见的任务。无论是解析用户输入、处理 URL、分析文件路径、提取数据，还是格式化输出，我们都离不开对字符串的各种操作。其中，“截取字符前字符串”——即从一个较长的字符串中，根据某个特定的分隔符，提取出该分隔符之前的所有内容，是日常开发中频繁遇到的需求。本文将作为一篇专业的指南，深入探讨 PHP 中实现这一功能的多种方法，从基础函数到高级技巧，并涵盖多字节字符处理、性能考量和最佳实践，旨在帮助您高效、健畅地完成字符串截取任务。

理解核心需求：截取特定分隔符前的字符串

“截取字符前字符串”这一表述，通常意味着我们需要找到一个字符串中的某个特定字符（或子字符串），然后获取该特定字符“首次出现”之前的所有内容。例如：
从邮箱地址 "user@" 中截取用户名 "user"。
从 URL "/path?param=value" 中截取协议和域名部分 "/path"。
从文件路径 "/home/user/" 中截取目录部分 "/home/user"。

针对这些场景，PHP 提供了多种强大且灵活的函数来满足我们的需求。

方法一：结合 `strpos()` 和 `substr()` - 最基础也是最灵活的组合

这是最基础也是最灵活的截取方式，它将查找分隔符的位置和截取字符串这两个步骤明确分开，便于我们进行更精细的控制。

1. `strpos()` 函数：查找分隔符的位置

strpos(string $haystack, string $needle, int $offset = 0): int|false

该函数用于查找 $needle（分隔符）在 $haystack（源字符串）中第一次出现的位置。如果找到，返回其起始位置（从 0 开始计数）；如果未找到，则返回 `false`。

2. `substr()` 函数：根据位置截取字符串

substr(string $string, int $offset, ?int $length = null): string|false

该函数用于从 $string 中截取一个子字符串。

$offset：开始截取的位置。
$length：要截取的长度。如果省略或为 null，则截取到字符串末尾。

组合示例：截取邮箱用户名

<?php
function get_string_before_delimiter(string $fullString, string $delimiter): string
{
$pos = strpos($fullString, $delimiter); // 查找分隔符的位置
if ($pos === false) {
// 如果分隔符不存在，则返回原字符串
return $fullString;
}
// 截取从字符串开头到分隔符位置的子字符串
return substr($fullString, 0, $pos);
}
$email = "@";
$username = get_string_before_delimiter($email, "@");
echo "用户名: " . $username; // 输出: 用户名:
echo " ";
$url = "/path/to/resource?id=123";
$base_url = get_string_before_delimiter($url, "?");
echo "基本 URL: " . $base_url; // 输出: 基本 URL: /path/to/resource
echo " ";
$no_delimiter = "justastring";
$result_no_delimiter = get_string_before_delimiter($no_delimiter, ":");
echo "无分隔符: " . $result_no_delimiter; // 输出: 无分隔符: justastring
?>

优点：

灵活性高：可以精确控制截取起始位置和长度。
性能良好：对于简单字符串操作，是效率较高的方法。

缺点：

需要两步操作：查找位置和截取，代码稍显冗长。
不直接支持多字节字符（如中文、日文等），在处理这些字符时可能出现乱码或截取不准确的问题。

方法二：使用 `strstr()` 或 `stristr()` - 更简洁的内置函数

PHP 提供了一个专门用于获取子字符串的函数 `strstr()`，它在某些场景下比 `strpos()` + `substr()` 组合更加简洁。

1. `strstr()` 函数：获取子字符串

strstr(string $haystack, string $needle, bool $before_needle = false): string|false

该函数查找 $needle 在 $haystack 中第一次出现的位置，并返回 $needle *及其之后* 的部分。但最重要的是，它的第三个参数 $before_needle 可以控制返回的行为：
如果 $before_needle 设置为 `true`，则返回 $needle *之前* 的部分。这正是我们所需要的！
如果未找到 $needle，则返回 `false`。

2. `stristr()` 函数：大小写不敏感的查找

stristr(string $haystack, string $needle, bool $before_needle = false): string|false

功能与 `strstr()` 相同，但查找过程是大小写不敏感的。

示例：使用 `strstr()` 截取字符串

<?php
function get_string_before_delimiter_strstr(string $fullString, string $delimiter): string
{
$result = strstr($fullString, $delimiter, true); // 设置第三个参数为 true
if ($result === false) {
// 如果分隔符不存在，返回原字符串
return $fullString;
}
return $result;
}
$email = "@";
$username = get_string_before_delimiter_strstr($email, "@");
echo "用户名 (strstr): " . $username; // 输出: 用户名 (strstr):
echo " ";
$path = "/usr/local/bin/php";
$dir = get_string_before_delimiter_strstr($path, "/php");
echo "目录 (strstr): " . $dir; // 输出: 目录 (strstr): /usr/local/bin
echo " ";
$data_str = "ID:12345;Name:Test";
$id_part = get_string_before_delimiter_strstr($data_str, ";");
echo "ID 部分 (strstr): " . $id_part; // 输出: ID 部分 (strstr): ID:12345
?>

优点：

代码更简洁：一步完成查找和截取。
直观易懂：专门设计用于此目的。

缺点：

同样不直接支持多字节字符。
如果分隔符是空字符串，`strstr()` 会返回 `false`。

方法三：使用 `explode()` - 分割字符串并取第一个元素

`explode()` 函数是一个非常强大的工具，可以将字符串按照指定的分隔符分割成一个数组。如果只需要分隔符前的部分，我们只需取出数组的第一个元素。

`explode()` 函数：按分隔符分割字符串

explode(string $separator, string $string, int $limit = PHP_INT_MAX): array

该函数使用 $separator（分隔符）将 $string（源字符串）分割成多个子字符串，并返回一个数组。`$limit` 参数可以限制返回数组的元素数量。

示例：使用 `explode()` 截取字符串

<?php
function get_string_before_delimiter_explode(string $fullString, string $delimiter): string
{
// 将字符串按分隔符分割成数组
// limit 为 2 表示最多分割成两部分，取第一部分即可
$parts = explode($fullString, $delimiter, 2);
// explode 返回的数组至少包含一个元素（原字符串本身），除非分隔符是空字符串
// 如果分隔符不存在，explode 也会返回包含原始字符串的数组
return $parts[0];
}
$file_path = "/var/www/html/";
$directory = get_string_before_delimiter_explode($file_path, "/");
echo "目录 (explode): " . $directory; // 输出: 目录 (explode): /var/www/html
echo " ";
$data = "name:Alice;age:30";
$name_part = get_string_before_delimiter_explode($data, ";");
echo "名称部分 (explode): " . $name_part; // 输出: 名称部分 (explode): name:Alice
echo " ";
$sentence = "Hello world";
$first_word = get_string_before_delimiter_explode($sentence, " ");
echo "第一个词 (explode): " . $first_word; // 输出: 第一个词 (explode): Hello
?>

优点：

代码简洁易懂，对于熟悉数组操作的开发者来说非常直观。
如果需要分隔符前后的所有部分，`explode()` 更加方便。

缺点：

对于仅需要分隔符前部分的情况，会创建整个数组，可能存在微小的性能开销（尽管对于大多数应用来说可以忽略不计）。
与 `strpos()` 和 `strstr()` 相同，不直接支持多字节字符。

处理多字节字符：`mb_*` 系列函数的重要性

上述所有函数（`strpos()`, `substr()`, `strstr()`, `explode()`）在处理包含中文、日文、韩文等非 ASCII 字符（即多字节字符）的 UTF-8 编码字符串时，可能会出现意想不到的错误，如乱码、截取位置不准确等。这是因为它们默认按照字节而非字符来操作。为了正确处理多字节字符，PHP 提供了 `mb_string` 扩展中的 `mb_*` 系列函数。

关键的多字节函数：

`mb_strpos()`: 多字节字符串查找位置。
`mb_substr()`: 多字节字符串截取。
`mb_strstr()`: 多字节字符串获取子串。
`mb_explode()`: (注意：PHP 标准库中没有 `mb_explode()` 函数，通常需要结合 `mb_strpos` 和 `mb_substr` 来模拟，或者在知道分隔符也是多字节的情况下，`explode()` 依然能工作，但 `substr` 后续处理仍需 `mb_substr`)。

在使用 `mb_*` 函数之前，通常需要设置内部字符编码，或者在函数调用时明确指定编码。<?php
// 建议在应用入口处设置内部字符编码，通常为 UTF-8
mb_internal_encoding("UTF-8");
function get_string_before_delimiter_mb(string $fullString, string $delimiter): string
{
$pos = mb_strpos($fullString, $delimiter); // 使用 mb_strpos
if ($pos === false) {
return $fullString;
}
return mb_substr($fullString, 0, $pos); // 使用 mb_substr
}
$chinese_title = "【新闻】全球经济论坛_最新报告解读.pdf";
$clean_title = get_string_before_delimiter_mb($chinese_title, "_");
echo "中文标题 (mb_*): " . $clean_title; // 输出: 中文标题 (mb_*): 【新闻】全球经济论坛
echo " ";
$korean_text = "안녕하세요@세계.com";
$korean_user = get_string_before_delimiter_mb($korean_text, "@");
echo "韩文用户名 (mb_*): " . $korean_user; // 输出: 韩文用户名 (mb_*): 안녕하세요
echo " ";
// mb_strstr 同样支持多字节
function get_string_before_delimiter_mb_strstr(string $fullString, string $delimiter): string
{
$result = mb_strstr($fullString, $delimiter, true);
if ($result === false) {
return $fullString;
}
return $result;
}
$japanese_path = "/ユーザー/ドキュメント/レポート.xlsx";
$japanese_dir = get_string_before_delimiter_mb_strstr($japanese_path, "/レポート.xlsx");
echo "日文目录 (mb_strstr): " . $japanese_dir; // 输出: 日文目录 (mb_strstr): /ユーザー/ドキュメント
?>

强烈建议： 只要您的应用可能处理非 ASCII 字符，就应该始终优先使用 `mb_*` 系列函数，以避免潜在的编码问题。

高级技巧：使用正则表达式 `preg_match()`

对于更复杂的字符串截取模式，或者当分隔符本身是一个需要通过模式匹配来确定的情况，正则表达式是终极武器。

`preg_match()` 函数：通过正则表达式匹配

preg_match(string $pattern, string $subject, array &$matches = null, int $flags = 0, int $offset = 0): int|false

该函数尝试对 $subject 执行一个正则表达式匹配。如果匹配成功，返回 1，并可选地将匹配到的子字符串存储在 $matches 数组中。

示例：使用 `preg_match()` 截取字符串

假设我们想截取一个字符串直到第一个数字出现为止：<?php
function get_string_before_pattern(string $fullString, string $pattern): string
{
// 匹配从字符串开头到模式第一次出现之前的所有内容
// ^ - 匹配字符串的开头
// (.*?) - 捕获组1：非贪婪匹配任意字符0次或多次
// $pattern - 期望匹配的模式 (这里我们将 $pattern 作为我们的分隔符)
if (preg_match("/^(.*?)(" . preg_quote($pattern, '/') . ")/u", $fullString, $matches)) {
return $matches[1]; // 返回捕获组1的内容
}
// 如果没有匹配到模式，返回原字符串
return $fullString;
}
$product_code = "ITEM_CODE_12345_COLOR_RED";
// 截取到第一个数字之前
$pre_num_part = get_string_before_pattern($product_code, '\d'); // \d 是正则表达式中匹配数字的元字符
echo "数字前部分: " . $pre_num_part; // 输出: 数字前部分: ITEM_CODE_
echo " ";
$log_entry = "[INFO] 2023-10-27 Message content here.";
// 截取到第一个 "[" 字符之前（这里实际上是空字符串，因为 "[" 是第一个字符）
$before_bracket = get_string_before_pattern($log_entry, '\['); // \[ 转义了方括号
echo "方括号前部分: '" . $before_bracket . "'"; // 输出: 方括号前部分: ''
echo " ";
$complex_string = "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36";
// 截取到第一个空格之前
$first_token = get_string_before_pattern($complex_string, ' ');
echo "第一个 token: " . $first_token; // 输出: 第一个 token: User-Agent:
?>

正则表达式的 `u` 修饰符： 在模式中使用 `u` 修饰符 (`/u`) 可以让正则表达式引擎正确处理 UTF-8 编码的多字节字符。

优点：

极度灵活：可以处理任何复杂的截取规则。
强大：能够匹配字符集、重复次数、边界等多种情况。

缺点：

性能开销相对较高：对于简单的截取任务，正则表达式的效率不如 `strpos()`/`substr()` 或 `strstr()`。
学习曲线陡峭：需要掌握正则表达式语法。
代码可读性可能降低：复杂的正则表达式难以理解和维护。

性能考量与最佳实践

在选择截取字符串的方法时，除了功能性，性能和可读性也是重要的考虑因素。

性能对比：

`strpos()` + `substr()` (或 `mb_strpos()` + `mb_substr()`):

通常是处理简单定界符截取的最快方法，因为它只进行一次查找和一次内存复制。在处理大量字符串时，其效率优势会非常明显。
`strstr()` (或 `mb_strstr()`):

与 `strpos()` + `substr()` 组合非常接近，通常也非常快。代码更简洁，可读性好。
`explode()`:

对于只取第一部分的情况，`explode()` 会创建并填充一个数组，即使这个数组只包含一个或两个元素。这会带来额外的内存和 CPU 开销。如果不需要数组的其余部分，效率略低于前两种方法。
`preg_match()`:

正则表达式引擎需要解析模式、构建状态机，然后进行匹配，开销相对较大。除非模式的复杂性使得其他方法无法实现，否则应避免在简单场景下使用正则表达式。

最佳实践：

优先使用 `mb_*` 函数： 除非您能百分之百确定字符串只包含 ASCII 字符，否则请始终使用 `mb_strpos()`、`mb_substr()`、`mb_strstr()` 等 `mb_string` 扩展中的函数，并确保设置了正确的内部编码 (`mb_internal_encoding("UTF-8");`)。
选择最简洁高效的方法：

对于简单的固定分隔符，优先考虑 `mb_strstr($string, $delimiter, true)` 或 `mb_strpos()` 结合 `mb_substr()`。
如果字符串可能不含分隔符，请务必处理 `false` 返回值，返回原字符串或空字符串，而不是导致错误。
如果需要根据更复杂的模式截取，再考虑 `preg_match()`。

封装常用功能： 将常用的截取逻辑封装成自定义函数，提高代码复用性和可读性，如本文中的示例函数。
考虑分隔符的性质：

如果分隔符是单个字符且总是存在，则方法选择范围广。
如果分隔符是子字符串，则 `strpos` + `substr` 和 `strstr` 是合适的。
如果分隔符可能不存在，务必进行 `false` 判断。
如果分隔符本身可能包含特殊字符（如正则表达式元字符），使用 `preg_quote()` 进行转义。

PHP 提供了多种灵活且高效的方式来截取字符串中特定分隔符之前的内容。从基础的 `strpos()` + `substr()` 组合，到更简洁的 `strstr()`，再到适用于复杂场景的 `preg_match()`，每种方法都有其适用范围和优缺点。核心在于理解这些函数的行为，并根据具体需求（是否涉及多字节字符、截取逻辑的复杂性、对性能的要求）选择最合适的方法。

在现代 Web 开发中，处理 UTF-8 编码的字符串是常态。因此，掌握并优先使用 `mb_*` 系列函数是专业 PHP 程序员的必备技能。通过合理的封装和选择，我们可以编写出既健壮、高效又易于维护的字符串处理代码。

2025-11-03

上一篇：PHP高效随机数据获取指南：从数组到大型数据库的实践与优化

下一篇：PHP 字符串中间字符删除与替换：深入解析多种高效实现方法