如何使用PHP清除字符串中的垃圾文本?
我正在尝试解析word文档文件。我使用PHP上传文件,然后尝试使用文件_get_contents()获取内容;但问题是当它的前端显示大量垃圾代码时如何使用PHP清除字符串中的垃圾文本?,php,text-parsing,Php,Text Parsing,我正在尝试解析word文档文件。我使用PHP上传文件,然后尝试使用文件_get_contents()获取内容;但问题是当它的前端显示大量垃圾代码时 Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±��� &�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬����®��Ù��ã��ó��ô�
Æ�Ѐ¤d�¤d�[$\$gd®l±����„h¤d�¤d�[$\$^„hgd®l±���
&�F�¤d�¤d�[$\$gd3¡���gd3¡����„,¤d�¤d�[$\$^„,gd(E����¤d�¤d�[$\$gdÿ/��<��C��D��I��Å������O��P��‚��¡��¢��¬����®��Ù��ã��ó��ô�����
Æ�Ѐd�·d�[$\$gd®l±����„h·d�·d�[$\$^“hgd®l”���
&�F�·d�·d�[$\$gd3-$���gd3$����„,·d�·d�[$\$^¨,gd(E)����·d�·d�[$\$gdÿ/�� Word文档(如docx和doc)不是纯文本文件-它们实际上是专有文件类型,不只是字节0中的文本-这就是它们具有奇特格式和字体的原因。.docx文件实际上是包含大量XML和样式的存档(.zip文件)
你最好的选择是使用文本输入表单,或者在线查找代码,以便只提取文本。或者,将文档文件下载到你自己的计算机上,并使用你自己的MS word副本打开它。也许可以试一试