php读取rtf文件能提取文本吗_php读取rtf纯文本提取法【步骤】

2026-02-01 00:00:00 作者:看不見的法師
PHP提取RTF纯文本可行但需借助正则、第三方库(如kornrunner/rtf)或系统工具(如unrtf);关键在剥离控制字、处理编码及嵌套结构,推荐类库方案兼顾UTF-8与稳定性。

可以,PHP 读取 RTF 文件并提取纯文本是可行的,但原生 PHP 不直接支持 RTF 解析,需借助正则解析、第三方库或系统工具辅助。关键在于剥离 RTF 控制字(如 \b\fs24)、转义符和格式块,保留可见字符内容。

方法一:用正则 + 字符串处理(轻量、适合简单 RTF)

适用于结构清晰、无嵌套表格/图片/Unicode 混排的 RTF(如 WordPad 生成的基础文档)。核心思路是跳过反斜杠开头的控制指令,过滤花括号、控制字、十六进制转义,提取普通 ASCII/UTF-8 文本。

  • 读取文件内容:$rtf = file_get_contents('doc.rtf');
  • 移除 RTF 头部声明(如 {\rtf1\ansi\ansicpg936...):$rtf = preg_replace('/^\{\\\\rtf[^\}]*\}/', '', $rtf);
  • 清除所有控制字及参数(如 \b0\par\cf1):$rtf = preg_replace('/\\\\[a-zA-Z]+[0-9]*([ \t\n\r\f]|$)/', ' ', $rtf);
  • 清除花括号与多余空格:$rtf = str_replace(['{', '}'], '', $rtf); $rtf = preg_replace('/\s+/', ' ', $rtf);
  • 处理十六进制转义(如 '\x20''\' followed by hex digits)可选增强:$rtf = preg_replace('/\\\\'[0-9A-Fa-f]{2}/', '', $rtf);(注意:实际 RTF 中常用 \'hh 形式)
  • 最终 trim 并输出:echo trim($rtf);

方法二:使用 rtf-to-text 类库(推荐,稳定支持 UTF-8)

更可靠的方式是引入成熟解析器,例如开源的 php-rtf 或封装良好的 rtf-html-php(可先转 HTML 再用 DOMDocument 提取文本)。

  • 通过 Composer 安装:composer require kornrunner/rtf(轻量解析器)
  • 代码示例:
    $rtf = new \Kornrunner\Rtf($content);
    $text = $rtf->getText(); // 自动处理编码、转义、段落
  • 若含中文等 UTF-8 内容,确认 RTF 声明为 \ansicpg936(GBK)或 \uc1 + Unicode 标记,类库会尝试自动检测;否则需手动指定编码转换:mb_convert_encoding($text, 'UTF-8', 'GBK')

方法三:调用系统命令(Linux/macOS 下兼容性高)

利用现成工具如 unrtf(需提前安装),它专为 RTF 转换设计,支持表格、字体、多语言,输出为纯文本或 HTML。

  • 安装:sudo apt install unrtf(Ubuntu/Debian)或 brew install unrtf(macOS)
  • PHP 中执行:$text = shell_exec("unrtf --text " . escapeshellarg('doc.rtf') . " 2>/dev/null");
  • 清理输出(unrtf 可能带页眉页脚):$text = preg_replace('/^.*?--- Page \d+ ---.*$/m', '', $text);
  • 优点:无需 PHP 解析逻辑,准确率高;缺点:依赖外部环境,Windows 需额外配置(如 WSL 或 Cygwin)

注意事项与避坑点

RTF 是格式复杂的老标准,实操中常见问题:

  • 编码混乱:RTF 中文常以 \'c4\'e3(GBK 十六进制)形式存储,正则无法直接还原,必须用 pack('H*', $hex) 转换再转码
  • 嵌套花括号:RTF 使用 {} 表示组,简单 str_replace 会破坏结构,建议用栈方式解析或交由专业库处理
  • 图片/OLE 对象残留:含图 RTF 的 \pict 块可能混入乱码,提取前应先用正则剔除:preg_replace('/\\\\pict[^\}]*\}/',

    '', $rtf)
  • 换行与段落:RTF 中 \par\line 应转为 \n,否则文本连成一片

猜你喜欢

联络方式:

400 9058 355

邮箱:8955556@qq.com

Q Q:8955556

微信二维码
在线咨询 拨打电话

电话

400 9058 355

微信二维码

微信二维码