Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/269.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 如何从上传的PDF、Doc、Xls、Csv等文件中计算单词、字符或句子_Java_Php_Zend Framework - Fatal编程技术网

Java 如何从上传的PDF、Doc、Xls、Csv等文件中计算单词、字符或句子

Java 如何从上传的PDF、Doc、Xls、Csv等文件中计算单词、字符或句子,java,php,zend-framework,Java,Php,Zend Framework,如何使用PHP、Zend Framework或基于CLI的Java触发器从PDF、Doc、Xls、Csv等格式的上传文件中计算单词数?这里有一个第三方应用程序。您可以为它创建一个简单的包装器。就wc而言,这些文件类型并不准确。请看首先,您应该看看 它是用Java编写的,是免费的(Apache许可),可以将您提到的所有格式转换为文本。在那之后,字数应该是微不足道的 您还可以使用linux命令行实用程序转换为文本,并围绕它们编写一个简单的包装器 (由于缺乏声誉,我无法链接到这些。请使用您的Googl

如何使用PHP、Zend Framework或基于CLI的Java触发器从PDF、Doc、Xls、Csv等格式的上传文件中计算单词数?

这里有一个第三方应用程序。您可以为它创建一个简单的包装器。就wc而言,这些文件类型并不准确。请看

首先,您应该看看 它是用Java编写的,是免费的(Apache许可),可以将您提到的所有格式转换为文本。在那之后,字数应该是微不足道的

您还可以使用linux命令行实用程序转换为文本,并围绕它们编写一个简单的包装器

(由于缺乏声誉,我无法链接到这些。请使用您的Google fu。)

  • pdf:pdftotext(xpdf的一部分)。另请参见关于超级用户的问题#221359
  • 文档(x):abiword、catdoc、antiword、DocXtoText。。。另请参见关于超级用户的问题165978
  • xls(以及几乎所有内容,但需要OpenOffice):

csv很简单。所以你想要工具来逆向工程pdf,doc,xls…?编程解析pdf的任务不小。你最好使用第三方pdf阅读器,即使这些阅读器在字数排序方面也有问题,但如果你只需要字数统计,它们也非常有效。PDF的布局类似于拼贴。线没有严格的定义。对于你来说,看起来像一条完美的直线,从几何角度来说可能是一个巨大的混乱。$wc filename.pdf或任何给出这个>46 265 13025文件的东西。odt@pouncep,是的,在linux中我有这个,但这是终端示例中的错误计数器:$wc filename.pdf或filename.doc或filename.csv或filename。xls@P.Brian.Mackey:0.o哪一个对ZF和Java友好?没有开源框架或库吗?谢谢,Oops,这是针对windows平台的安装。CentOS或Fedora不适用?是的,这是事实,wc对于其他文件格式不准确。似乎在Linux平台下还有一个非常复杂的部分,用于计算单词等,用于实时或交互式解决方案开发。嗯,对于PDF部分,您可以保存为文本,并在普通文本文件上进行单词计数。有剧本。同样,对于word,我也不确定它在excel上的效果如何。我有11个(单词)它显示了10个,这是我们能达到的最大猜测吗?。前任: