0

0

php读取rtf文件能提取文本吗_php读取rtf纯文本提取法【步骤】

看不見的法師

看不見的法師

发布时间:2026-02-01 01:53:33

|

735人浏览过

|

来源于php中文网

原创

PHP提取RTF纯文本可行但需借助正则、第三方库(如kornrunner/rtf)或系统工具(如unrtf);关键在剥离控制字、处理编码及嵌套结构,推荐类库方案兼顾UTF-8与稳定性。

php读取rtf文件能提取文本吗_php读取rtf纯文本提取法【步骤】

可以,PHP 读取 RTF 文件并提取纯文本是可行的,但原生 PHP 不直接支持 RTF 解析,需借助正则解析、第三方库或系统工具辅助。关键在于剥离 RTF 控制字(如 \b\fs24)、转义符和格式块,保留可见字符内容。

方法一:用正则 + 字符串处理(轻量、适合简单 RTF)

适用于结构清晰、无嵌套表格/图片/Unicode 混排的 RTF(如 WordPad 生成的基础文档)。核心思路是跳过反斜杠开头的控制指令,过滤花括号、控制字、十六进制转义,提取普通 ASCII/UTF-8 文本。

  • 读取文件内容:$rtf = file_get_contents('doc.rtf');
  • 移除 RTF 头部声明(如 {\rtf1\ansi\ansicpg936...):$rtf = preg_replace('/^\{\\\\rtf[^\}]*\}/', '', $rtf);
  • 清除所有控制字及参数(如 \b0\par\cf1):$rtf = preg_replace('/\\\\[a-zA-Z]+[0-9]*([ \t\n\r\f]|$)/', ' ', $rtf);
  • 清除花括号与多余空格:$rtf = str_replace(['{', '}'], '', $rtf); $rtf = preg_replace('/\s+/', ' ', $rtf);
  • 处理十六进制转义(如 '\x20''\' followed by hex digits)可选增强:$rtf = preg_replace('/\\\\'[0-9A-Fa-f]{2}/', '', $rtf);(注意:实际 RTF 中常用 \'hh 形式)
  • 最终 trim 并输出:echo trim($rtf);

方法二:使用 rtf-to-text 类库(推荐,稳定支持 UTF-8)

更可靠的方式是引入成熟解析器,例如开源的 php-rtf 或封装良好的 rtf-html-php(可先转 HTML 再用 DOMDocument 提取文本)。

  • 通过 Composer 安装:composer require kornrunner/rtf(轻量解析器)
  • 代码示例:
    $rtf = new \Kornrunner\Rtf($content);
    $text = $rtf->getText(); // 自动处理编码、转义、段落
  • 若含中文等 UTF-8 内容,确认 RTF 声明为 \ansicpg936(GBK)或 \uc1 + Unicode 标记,类库会尝试自动检测;否则需手动指定编码转换:mb_convert_encoding($text, 'UTF-8', 'GBK')

方法三:调用系统命令(Linux/macOS 下兼容性高)

利用现成工具如 unrtf(需提前安装),它专为 RTF 转换设计,支持表格、字体、多语言,输出为纯文本或 HTML。

invideo AI
invideo AI

InVideo 使用现成的模板简化视频创建

下载

立即学习PHP免费学习笔记(深入)”;

  • 安装:sudo apt install unrtf(Ubuntu/Debian)或 brew install unrtf(macOS)
  • PHP 中执行:$text = shell_exec("unrtf --text " . escapeshellarg('doc.rtf') . " 2>/dev/null");
  • 清理输出(unrtf 可能带页眉页脚):$text = preg_replace('/^.*?--- Page \d+ ---.*$/m', '', $text);
  • 优点:无需 PHP 解析逻辑,准确率高;缺点:依赖外部环境,Windows 需额外配置(如 WSL 或 Cygwin)

注意事项与避坑点

RTF 是格式复杂的老标准,实操中常见问题:

  • 编码混乱:RTF 中文常以 \'c4\'e3(GBK 十六进制)形式存储,正则无法直接还原,必须用 pack('H*', $hex) 转换再转码
  • 嵌套花括号:RTF 使用 {} 表示组,简单 str_replace 会破坏结构,建议用方式解析或交由专业库处理
  • 图片/OLE 对象残留:含图 RTF 的 \pict 块可能混入乱码,提取前应先用正则剔除:preg_replace('/\\\\pict[^\}]*\}/', '', $rtf)
  • 换行与段落:RTF 中 \par\line 应转为 \n,否则文本连成一片

相关文章

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
composer是什么插件
composer是什么插件

Composer是一个PHP的依赖管理工具,它可以帮助开发者在PHP项目中管理和安装依赖的库文件。Composer通过一个中央化的存储库来管理所有的依赖库文件,这个存储库包含了各种可用的依赖库的信息和版本信息。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

155

2023.12.25

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

237

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

479

2024.03.01

require的用法
require的用法

require的用法有引入模块、导入类或方法、执行特定任务。想了解更多require的相关内容,可以阅读本专题下面的文章。

466

2023.11.27

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

340

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1503

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

625

2023.11.24

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PHP课程
PHP课程

共137课时 | 10.6万人学习

JavaScript ES5基础线上课程教学
JavaScript ES5基础线上课程教学

共6课时 | 11.2万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号