Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/linux/27.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用PHP-linux将doc、docx、pdf转换为HTML_Php_Linux_Pdf_Docx_Doc - Fatal编程技术网

使用PHP-linux将doc、docx、pdf转换为HTML

使用PHP-linux将doc、docx、pdf转换为HTML,php,linux,pdf,docx,doc,Php,Linux,Pdf,Docx,Doc,我运行一个求职网站,我需要在运行php的LinuxCentOS服务器上将doc、docx和pdf文件转换为HTML。人们将这些文件作为简历提交。到目前为止,我发现PHPDocx非常擅长将docx转换为html。但是我被doc/pdf卡住了。当我运行测试时,PDFTOHTML给出错误“坏颜色”。至于doc,我只找到了wvwave,它看起来很复杂,安装起来也很笨重 有人对如何轻松地将doc/pdf转换为HTML有什么想法吗?我唯一能想到的就是FPDF。 它用于在PHP中创建PDF文件,但也可以打开P

我运行一个求职网站,我需要在运行php的LinuxCentOS服务器上将doc、docx和pdf文件转换为HTML。人们将这些文件作为简历提交。到目前为止,我发现PHPDocx非常擅长将docx转换为html。但是我被doc/pdf卡住了。当我运行测试时,PDFTOHTML给出错误“坏颜色”。至于doc,我只找到了wvwave,它看起来很复杂,安装起来也很笨重


有人对如何轻松地将doc/pdf转换为HTML有什么想法吗?

我唯一能想到的就是FPDF。 它用于在PHP中创建PDF文件,但也可以打开PDF文件。 也许你可以以此为基础,为它开发一些toHTML函数

它完全免费使用,并且已经有了一些扩展。 这可能对你有帮助

编辑: 感谢您在给Pierre的评论中添加我的帖子:

您可以使用fpdi:但是输入的pdf就像一幅图像


到目前为止,我自己还没有看过它,但这可能会有所帮助。

至于.doc文件,试试OpenOffice/LibreOffice,比如:
lowriter-转换为html文档\u file.doc–


就PDF而言,如果PDF是文本的图形表示,那么你就不走运了,你最好尝试使用ImageMagick将其转换为图像,如果它是一个合适的文本,它应该可以轻松转换。

要轻松地将PDF转换为html,我建议哪种格式可以生成出色的html,并且在运行时转换速度足够快。您应该首先努力为您的系统进行优化和构建。项目链接中包含了简单的构建方式

已经有各种工具可以实现这一点,例如,(您已经尝试过)

看起来很有希望

或者,您可以在服务器上安装libreoffice的可移植版本,该版本允许命令行转换


我肯定会有教程(在libreoffice支持区)

我知道!但它也可以读取现有的PDF文件,我很高兴舒尔您可以开发一些东西,使用FPDF作为基类输出HTML+1因为不公平的用户1914292投了反对票,他没有读答案就投了反对票。但是Ch33f,你不能像预期的那样使用fdpf。你可以使用fpdi:但是输入的pdf就像一张图片。谢谢你的+1,也谢谢你在我的帖子中添加了它,我会将它包含在一个etid中。:)您是否有专用服务器或使用碎片托管?PDF到HTML:PDF到HTML基于Xpdf:
gs
可以将任何PDF(除非数据是嵌入图像)移植到XML;我猜是HTML。我不是把它作为一个答案,因为它在批处理模式下内存太重。不知道你是否找到了一个有效的解决方案?在这里分享可能会有帮助。。。