Php 如何获取原始形式的ms=word文件。由于粗体线条等原因,会显示一些额外的符号
我正在获取ms word文件。我能够正确地获取它,但现在此文件中出现了许多无法识别的字符。我想这是因为像粗体线,彩色线等,但我想我的文件是作为原始形式获取。应显示所有块线Php 如何获取原始形式的ms=word文件。由于粗体线条等原因,会显示一些额外的符号,php,Php,我正在获取ms word文件。我能够正确地获取它,但现在此文件中出现了许多无法识别的字符。我想这是因为像粗体线,彩色线等,但我想我的文件是作为原始形式获取。应显示所有块线 PERSONAL DETAILS: Name : Deepak Narwal Sex : Male Date of Birth : December 19, 1986 Nationality :
PERSONAL DETAILS:
Name : Deepak Narwal
Sex : Male
Date of Birth : December 19, 1986
Nationality : Indian
Languages Known : English and Hindi
DATE:
PLACE: Deepak Narwal
����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
这不是一项微不足道的任务。Word文档格式(在DOCX之前)是Microsoft拥有的专有格式,很难解析 如果您可以影响文档的创建方式,请使用另一种更易于在PHP中解析的开放格式:纯文本(将丢失所有格式)、RTF或PDF(您无法在PHP中使用它,但可以在web浏览器中显示) 如果需要从旧Word文档中提取文本并在PHP中解析文本(而不是仅显示文本),请考虑以下选项:
- 是一个免费的跨平台(WIndows和Linux)读字器,可以从Word文档中提取纯文本(这将破坏任何格式)。我使用过它,它可以灵活地设置非英语字符集,但工作正常。不过,我不知道Word 2003文档格式
- 如果您在安装了Word的Windows服务器上,最简单的方法可能是通过COM连接到Word,如中所述。应该可以使用它将word文档转换为纯文本文件。我从未尝试过这种方法,而且COM接口据说不是最稳定的,所以如果它是用于重载使用,则需要对其进行彻底测试