Php 如何获取原始形式的ms=word文件。由于粗体线条等原因,会显示一些额外的符号

Php 如何获取原始形式的ms=word文件。由于粗体线条等原因,会显示一些额外的符号,php,Php,我正在获取ms word文件。我能够正确地获取它,但现在此文件中出现了许多无法识别的字符。我想这是因为像粗体线,彩色线等,但我想我的文件是作为原始形式获取。应显示所有块线 PERSONAL DETAILS: Name : Deepak Narwal Sex : Male Date of Birth : December 19, 1986 Nationality :

我正在获取ms word文件。我能够正确地获取它,但现在此文件中出现了许多无法识别的字符。我想这是因为像粗体线,彩色线等,但我想我的文件是作为原始形式获取。应显示所有块线

PERSONAL DETAILS: 
    Name                :   Deepak Narwal
    Sex             :   Male
    Date of Birth       :   December 19, 1986
    Nationality         :   Indian 
    Languages Known :   English and Hindi



DATE:

PLACE:                              Deepak Narwal
����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

这不是一项微不足道的任务。Word文档格式(在DOCX之前)是Microsoft拥有的专有格式,很难解析

如果您可以影响文档的创建方式,请使用另一种更易于在PHP中解析的开放格式:纯文本(将丢失所有格式)、RTF或PDF(您无法在PHP中使用它,但可以在web浏览器中显示)

如果需要从旧Word文档中提取文本并在PHP中解析文本(而不是仅显示文本),请考虑以下选项:

  • 是一个免费的跨平台(WIndows和Linux)读字器,可以从Word文档中提取纯文本(这将破坏任何格式)。我使用过它,它可以灵活地设置非英语字符集,但工作正常。不过,我不知道Word 2003文档格式

  • 如果您在安装了Word的Windows服务器上,最简单的方法可能是通过COM连接到Word,如中所述。应该可以使用它将word文档转换为纯文本文件。我从未尝试过这种方法,而且COM接口据说不是最稳定的,所以如果它是用于重载使用,则需要对其进行彻底测试