PHP 获取 Word 文档字数与字数统计：DOCX 解析与第三方库实战指南136

在日常的软件开发工作中，我们经常会遇到需要处理各种文件格式的需求。其中，Microsoft Word 文档（.doc 和 .docx）因其广泛的应用而占据重要地位。尤其是在内容管理系统、论文提交平台或任何需要对文档内容进行统计分析的场景中，如何准确、高效地获取 Word 文档的字数或字符数，成为了一个常见的挑战。本文将作为一名专业的程序员，深入探讨使用 PHP 获取 Word 文档字数和字符数的各种方法，从底层原理到第三方库的应用，并提供详尽的实战代码和注意事项。

一、理解 Word 文档格式：DOC 与 DOCX

在开始技术实现之前，我们必须首先理解 Word 文档的两种主要格式：
.doc (Word 97-2003 Document)：这是一种较旧的二进制文件格式，其内部结构复杂且不公开。直接通过 PHP 解析 .doc 文件几乎是不可能的任务，因为它需要深入理解 OLE 复合文档格式，通常需要借助 COM 组件（仅限 Windows 服务器）或外部转换工具（如 LibreOffice）来处理。
.docx (Word Open XML Document)：自 Microsoft Office 2007 以来引入的默认格式。这是基于 Open XML 标准的，其本质是一个 ZIP 压缩包，包含了大量的 XML 文件、媒体文件和关系文件。这种结构为我们使用 PHP 进行解析提供了极大的便利。

鉴于 .doc 文件的复杂性，本文的重点将放在如何处理更现代、更易于编程解析的 .docx 文件上。

二、手动解析 DOCX 文件获取字数（基于 PHP 内置功能）

由于 .docx 文件本质上是一个 ZIP 压缩包，我们可以利用 PHP 的 ZipArchive 类解压它，然后解析其内部的 XML 文件来提取文本内容。核心的文本内容通常存储在 word/ 文件中。

2.1 DOCX 文件结构解析

一个典型的 .docx 文件解压后，你会看到如下结构：
/
├── _rels/
├── docProps/
├── word/
│ ├── _rels/
│ ├── <-- 主要内容 XML
│ ├──
│ ├──
│ ├──
│ ├── theme/
│ │ └──
│ ├── media/ <-- 图片、媒体文件
│ ├──
│ ├──
│ ├── <-- 脚注
│ ├── <-- 尾注
│ ├── <-- 批注
│ ├── headers/ <-- 页眉
│ │ └──
│ └── footers/ <-- 页脚
│ └──
└── [Content_Types].xml

我们的目标是 word/。在这个 XML 文件中，主要的文本内容被包裹在 <w:t> 标签中。例如：
<w:p>
<w:r>
<w:t>这是文档的第一段文本。</w:t>
</w:r>
<w:r>
<w:t>它可能包含</w:t>
</w:r>
<w:r>
<w:rPr><w:b/></w:rPr>
<w:t>粗体</w:t>
</w:r>
<w:r>
<w:t>文本。</w:t>
</w:r>
</w:p>

我们需要提取所有 <w:t> 标签中的内容并拼接起来，然后计算字数。

2.2 PHP 实现步骤与代码示例

以下是使用 PHP 内置功能手动解析 DOCX 文件并统计字数的详细步骤和代码：
检查文件是否存在和可读。
使用 ZipArchive 打开 DOCX 文件。
从 ZIP 包中读取 word/ 的内容。
使用 DOMDocument 或 SimpleXMLElement 解析 XML。
遍历 XML，查找所有 <w:t> 标签，并提取其文本内容。
拼接所有提取到的文本，并进行必要的清理（如去除多余空格、换行符）。
使用 mb_strlen() 统计字符数（对多字节字符如中文友好）。
如果需要统计词数，可以使用 str_word_count()，但请注意其对中文的局限性。

<?php
/
* 获取 DOCX 文档的纯文本内容
*
* @param string $filePath DOCX 文件的路径
* @return string|false 纯文本内容或在失败时返回 false
*/
function getDocxTextContent(string $filePath)
{
if (!file_exists($filePath) || !is_readable($filePath)) {
error_log("文件不存在或不可读: " . $filePath);
return false;
}
$zip = new ZipArchive();
if ($zip->open($filePath) === TRUE) {
// 尝试读取主要的文件
$documentXml = $zip->getFromName('word/');
$zip->close();
if ($documentXml === false) {
error_log("无法从 DOCX 文件中读取 word/。");
return false;
}
$dom = new DOMDocument();
// 抑制可能出现的 XML 格式警告
libxml_use_internal_errors(true);
$dom->loadXML($documentXml);
libxml_clear_errors();
libxml_use_internal_errors(false);
$plainText = '';
// XPath 用于查找所有的 <w:t> 标签，这些标签通常包含文本内容
// w 是 WordprocessingML 的命名空间前缀
$xpath = new DOMXPath($dom);
$xpath->registerNamespace('w', '/wordprocessingml/2006/main');
$textNodes = $xpath->query('//w:t');
foreach ($textNodes as $textNode) {
$plainText .= $textNode->nodeValue;
}
// 清理文本：去除多余的空白字符和换行符，模拟 Word 的字数统计行为
$plainText = preg_replace('/\s+/u', '', $plainText); // 合并所有空白符
$plainText = trim($plainText); // 移除首尾空白
return $plainText;
} else {
error_log("无法打开 DOCX 文件: " . $filePath);
return false;
}
}
/
* 获取 DOCX 文档的字数和字符数统计
*
* @param string $filePath DOCX 文件的路径
* @return array|false 包含 'characters' (字符数) 和 'words' (词数) 的关联数组，或在失败时返回 false
*/
function getDocxCharacterAndWordCount(string $filePath)
{
$textContent = getDocxTextContent($filePath);
if ($textContent === false) {
return false;
}
$characters = mb_strlen($textContent, 'UTF-8'); // 统计字符数，对中文等多字节字符友好
// 统计词数，str_word_count() 对英文等以空格分隔的语言效果较好。
// 对于中文，一个汉字通常算一个字，而不是一个词，所以直接用字符数可能更符合“字数”的语境。
// 如果确实需要对中文进行分词统计，则需要更高级的分词库。
$words = str_word_count($textContent, 0, 'ÀÁÂÃÄÅàáâãäåÒÓÔÕÖØòóôõöøÈÉÊËèéêëÇçÌÍÎÏìíîïÙÚÛÜùúûüÿÑñ'); // 包含一些拉丁字符，可根据需要调整

// 对于中文语境，如果“字数”指的是汉字数量，那么 $characters 往往就是我们需要的。
// 可以考虑将 $words 设置为 $characters 或使用自定义的中文分词逻辑。
// 这里为了演示，我们依然使用 str_word_count，但请注意其局限性。
$wordsForChineseContext = $characters; // 假设中文语境下，一个字就是一个“词”
return [
'characters' => $characters,
'words_en_style' => $words, // 英文风格的词数统计
'words_zh_style' => $wordsForChineseContext // 中文语境下更符合“字数”的统计
];
}
// --- 使用示例 ---
$docxFile = 'path/to/your/'; // 替换为你的 DOCX 文件路径
if (file_exists($docxFile)) {
$counts = getDocxCharacterAndWordCount($docxFile);
if ($counts !== false) {
echo "DOCX 文档分析结果:";
echo "纯文本字符数 (characters): " . $counts['characters'] . "";
echo "英文风格词数 (words_en_style): " . $counts['words_en_style'] . "";
echo "中文语境字数 (words_zh_style): " . $counts['words_zh_style'] . "";
} else {
echo "分析 DOCX 文档失败。";
}
} else {
echo "请提供有效的 DOCX 文件路径。";
}
?>

2.3 局限性与高级考量

手动解析 DOCX 虽然可行，但存在以下局限性和需要高级处理的场景：
文本区域：上述方法仅提取 word/ 中的 <w:t> 标签。Word 文档中的文本还可能存在于页眉 (word/headers/*.xml)、页脚 (word/footers/*.xml)、脚注 (word/)、尾注 (word/)、批注 (word/)、文本框、形状等复杂结构中。如果需要包含这些内容，需要分别解析对应的 XML 文件。
隐藏文本： Word 允许设置隐藏文本。这些文本在 <w:r> 标签内可能有 <w:vanish/> 属性。手动解析时需要额外逻辑来识别和决定是否计入。
SmartArt/图表：嵌入的 SmartArt 或图表中的文本，其结构更为复杂，通常需要更深层次的 XML 解析。
修订和批注：用户修订（Track Changes）和批注文本的处理，需要识别并选择是否计入。
性能：对于非常大的 DOCX 文件，手动解压和解析 XML 可能会消耗较多内存和 CPU。
错误处理：容错性差，遇到格式不规范或损坏的 DOCX 文件可能直接失败。

三、使用第三方库：PHPWord (推荐方式)

鉴于手动解析 DOCX 的复杂性和潜在问题，强烈推荐使用成熟的第三方库，如。PHPWord 是 PhpOffice 项目的一部分，它提供了强大的功能来读写和处理 Word 文档，极大地简化了开发工作。

3.1 PHPWord 的优势

简化操作：封装了 DOCX 文件的内部结构，提供简洁的 API 来访问文档内容。
全面性：不仅能获取主文档文本，还能处理页眉、页脚、脚注、尾注、文本框等各种元素。
兼容性：更好地处理不同版本 Word 生成的 DOCX 文件差异。
社区支持：活跃的社区和持续的维护，确保库的稳定性和安全性。
不仅仅是读取： PHPWord 还能用于创建、修改和生成 Word 文档，功能非常强大。

3.2 安装 PHPWord

使用 Composer 进行安装：
composer require phpoffice/phpword

3.3 使用 PHPWord 获取 DOCX 字数与字符数

PHPWord 提供了方便的方法来加载文档并迭代其内容。获取文本内容的核心思路是加载文档后，遍历文档的各个 Section（节），再遍历每个 Section 中的 Element（元素），判断元素类型并提取文本。
<?php
require 'vendor/'; // 引入 Composer 的自动加载文件
use PhpOffice\PhpWord\IOFactory;
use PhpOffice\PhpWord\Element\TextRun;
use PhpOffice\PhpWord\Element\Text;
use PhpOffice\PhpWord\Element\Header;
use PhpOffice\PhpWord\Element\Footer;
use PhpOffice\PhpWord\Element\Field;
use PhpOffice\PhpWord\Element\TextBox;
use PhpOffice\PhpWord\Element\ListItem;
/
* 使用 PHPWord 获取 DOCX 文档的字数和字符数统计
* 该方法会尝试提取主文档、页眉、页脚中的所有文本。
*
* @param string $filePath DOCX 文件的路径
* @return array|false 包含 'characters' (字符数) 和 'words' (词数) 的关联数组，或在失败时返回 false
*/
function getDocxCountsWithPHPWord(string $filePath)
{
if (!file_exists($filePath) || !is_readable($filePath)) {
error_log("文件不存在或不可读: " . $filePath);
return false;
}
try {
// 尝试加载 Word 文档
$phpWord = IOFactory::load($filePath);
$fullText = '';
// 遍历文档的所有 Sections（节）
foreach ($phpWord->getSections() as $section) {
// 获取 Section 中的所有 Header
foreach ($section->getHeaders() as $header) {
// 页眉中的内容通常是一个 TextRun 或其他元素
if ($header instanceof Header) {
foreach ($header->getElements() as $element) {
$fullText .= extractTextFromElement($element);
}
}
}
// 获取 Section 中的所有 Footer
foreach ($section->getFooters() as $footer) {
// 页脚中的内容通常是一个 TextRun 或其他元素
if ($footer instanceof Footer) {
foreach ($footer->getElements() as $element) {
$fullText .= extractTextFromElement($element);
}
}
}
// 遍历 Section 中的所有元素（主文档内容）
foreach ($section->getElements() as $element) {
$fullText .= extractTextFromElement($element);
}
}
// 清理文本，去除多余空白，以便更准确地统计字数/字符数
$cleanedText = preg_replace('/\s+/u', '', $fullText); // 合并所有空白符
$cleanedText = trim($cleanedText); // 移除首尾空白
$characters = mb_strlen($cleanedText, 'UTF-8');
// str_word_count 对中文分词不准确，仅作为英文词数参考
$words_en_style = str_word_count($fullText, 0, 'ÀÁÂÃÄÅàáâãäåÒÓÔÕÖØòóôõöøÈÉÊËèéêëÇçÌÍÎÏìíîïÙÚÛÜùúûüÿÑñ');
$words_zh_style = $characters; // 中文语境下，字数通常指字符数
return [
'characters' => $characters,
'words_en_style' => $words_en_style,
'words_zh_style' => $words_zh_style
];
} catch (\PhpOffice\PhpWord\Exception\Exception $e) {
error_log("PHPWord 加载或处理文件时出错: " . $e->getMessage());
return false;
} catch (\Exception $e) {
error_log("发生未知错误: " . $e->getMessage());
return false;
}
}
/
* 辅助函数：从 PhpWord 元素中提取文本
*
* @param mixed $element PhpWord 文档元素
* @return string 提取到的文本
*/
function extractTextFromElement($element): string
{
$text = '';

// 文本块
if ($element instanceof TextRun) {
foreach ($element->getElements() as $subElement) {
$text .= extractTextFromElement($subElement);
}
} elseif ($element instanceof Text) {
$text .= $element->getText();
} elseif ($element instanceof Field) { // 字段，如页码等
$text .= $element->getText();
} elseif ($element instanceof ListItem) {
$text .= $element->getText();
} elseif ($element instanceof TextBox) { // 文本框
foreach ($element->getElements() as $subElement) {
$text .= extractTextFromElement($subElement);
}
}
// 还可以添加对表格、图像ALT文本等其他元素类型的处理
// 例如：
// elseif ($element instanceof \PhpOffice\PhpWord\Element\Table) {
// foreach ($element->getRows() as $row) {
// foreach ($row->getCells() as $cell) {
// foreach ($cell->getElements() as $cellElement) {
// $text .= extractTextFromElement($cellElement);
// }
// }
// }
// }
return $text;
}
// --- 使用示例 ---
$docxFile = 'path/to/your/'; // 替换为你的 DOCX 文件路径
if (file_exists($docxFile)) {
$counts = getDocxCountsWithPHPWord($docxFile);
if ($counts !== false) {
echo "使用 PHPWord 分析 DOCX 文档结果:";
echo "纯文本字符数 (characters): " . $counts['characters'] . "";
echo "英文风格词数 (words_en_style): " . $counts['words_en_style'] . "";
echo "中文语境字数 (words_zh_style): " . $counts['words_zh_style'] . "";
} else {
echo "使用 PHPWord 分析 DOCX 文档失败。";
}
} else {
echo "请提供有效的 DOCX 文件路径。";
}
?>

这个 PHPWord 示例中的 extractTextFromElement 辅助函数演示了如何递归地从不同类型的 Word 文档元素中提取文本。你需要根据实际需求，决定哪些元素（如表格内容、脚注、批注等）的文本需要被计入。

四、处理旧版 DOC 文件

对于旧版的 .doc 文件，如前所述，直接用 PHP 解析非常困难。可行的策略包括：
用户转换：最简单的方法是要求用户将 .doc 文件转换为 .docx 格式再上传。
外部转换服务：

LibreOffice/OpenOffice：在服务器上安装 LibreOffice 或 OpenOffice，并以无头模式 (headless mode) 运行，通过 shell_exec() 或 proc_open() 调用其命令行工具进行转换。例如：soffice --headless --convert-to docx "" --outdir "output_directory"。转换成功后再按 DOCX 格式处理。
专业的文档转换 API：使用第三方的云服务 API 进行转换，例如 Microsoft Graph API、Google Drive API 或其他文档转换服务。这通常涉及到文件上传、API 调用和结果下载。
COM 组件（仅 Windows）：如果你的 PHP 运行在 Windows 服务器上，并且安装了 Microsoft Word，可以利用 PHP 的 COM 扩展与 Word 应用程序进行交互，打开 .doc 文件并获取其内容。但这仅限于特定环境，不具跨平台性。

示例（使用 LibreOffice 转换）：
<?php
/
* 尝试使用 LibreOffice 将 .doc 文件转换为 .docx
* 需要服务器上安装 LibreOffice 并且其命令行工具在 PATH 环境变量中
*
* @param string $docFilePath .doc 文件的路径
* @param string $outputDir 转换后的 .docx 文件输出目录
* @return string|false 转换后的 .docx 文件路径，或在失败时返回 false
*/
function convertDocToDocxWithLibreOffice(string $docFilePath, string $outputDir)
{
if (!file_exists($docFilePath) || !is_readable($docFilePath)) {
error_log("文件不存在或不可读: " . $docFilePath);
return false;
}
if (!is_dir($outputDir) || !is_writable($outputDir)) {
error_log("输出目录不存在或不可写: " . $outputDir);
return false;
}
$fileName = pathinfo($docFilePath, PATHINFO_FILENAME);
$outputDocxPath = $outputDir . '/' . $fileName . '.docx';
// 假设 LibreOffice 的 soffice 命令可以在系统 PATH 中找到
// 对于 Linux/macOS: 'soffice'
// 对于 Windows: 'C:Program Files\LibreOffice\program\' (或类似路径)
$command = "soffice --headless --convert-to docx {$docFilePath} --outdir {$outputDir} 2>&1";
$output = [];
$returnValue = 0;
exec($command, $output, $returnValue);
if ($returnValue === 0 && file_exists($outputDocxPath)) {
return $outputDocxPath;
} else {
error_log("LibreOffice 转换失败，错误信息: " . implode("", $output));
return false;
}
}
// --- 使用示例 ---
$docFile = 'path/to/your/'; // 替换为你的 .doc 文件路径
$tempDir = sys_get_temp_dir(); // 使用系统临时目录存储转换后的文件
if (file_exists($docFile)) {
echo "尝试转换 .doc 文件...";
$convertedDocx = convertDocToDocxWithLibreOffice($docFile, $tempDir);
if ($convertedDocx) {
echo "转换成功: " . $convertedDocx . "";
// 现在可以使用 PHPWord 或手动解析方法处理这个 .docx 文件
$counts = getDocxCountsWithPHPWord($convertedDocx); // 假设使用 PHPWord
if ($counts !== false) {
echo "转换后 DOCX 文档分析结果:";
echo "纯文本字符数 (characters): " . $counts['characters'] . "";
echo "英文风格词数 (words_en_style): " . $counts['words_en_style'] . "";
echo "中文语境字数 (words_zh_style): " . $counts['words_zh_style'] . "";
} else {
echo "分析转换后的 DOCX 文档失败。";
}
// 清理临时文件
unlink($convertedDocx);
echo "已清理临时文件: " . $convertedDocx . "";
} else {
echo "转换 .doc 文件失败。";
}
} else {
echo "请提供有效的 .doc 文件路径。";
}
?>

请注意，使用 shell_exec() 或 exec() 执行外部命令存在安全风险，务必对输入参数进行严格的过滤和验证，防止命令注入。

五、总结与建议

获取 Word 文档的字数和字符数是一个看似简单实则复杂的任务，特别是考虑到 DOC 和 DOCX 两种格式的巨大差异。
对于.docx 文件：

推荐使用 PhpOffice/PHPWord 库。它封装了底层细节，提供了更稳定、更全面的 API，能够更好地处理文档的各种复杂元素（页眉、页脚、脚注、文本框等）。这是最专业、最省力的选择。
如果项目有严格的无外部库依赖要求，且只需提取主文档中的基础文本，可以考虑手动解析 word/，但需要自行处理各种边缘情况。

对于.doc 文件：

PHP 自身几乎无法直接解析。
最佳实践是引导用户上传 .docx 格式，或在服务器端通过 LibreOffice 等外部工具转换为 .docx 格式后再进行处理。
在 Windows 环境下，COM 扩展是一种选择，但会牺牲跨平台性。
利用云服务 API 进行转换也是一种现代且维护成本较低的方案。

在统计“字数”时，尤其是在处理中文文档时，请明确业务需求：是统计字符数（mb_strlen的结果，通常更符合中文语境）还是按照西方语言习惯的词数（str_word_count的结果，对中文支持不佳，需要额外分词库）。

希望这篇详细的文章能帮助你更好地理解和实现 PHP 获取 Word 文档字数和字符数的需求。

2025-11-07

上一篇：PHP 数组变量赋值：全面解析与实践指南

下一篇：PHP文件删除终极指南：从`unlink()`核心函数到安全实践与递归操作