Language agnostic 转换/编译multiple.pdf';s从数据库中拉入一个.pdf/text文件/html

Language agnostic 转换/编译multiple.pdf';s从数据库中拉入一个.pdf/text文件/html,language-agnostic,text,automation,Language Agnostic,Text,Automation,我的朋友在当地政府工作,他说他的办公室浪费了很多时间执行标题中描述的流程,即: 1.在数据库中查询名称。所讨论的数据库更像是ebscohost,而不是mysql。 2.从一系列.pdf中单独删除文本。 3.将这些结果粘贴/输出到单个文件中 我有限的背景是php、javascript、html等,我只是不认为他们有能力读取这样的文件类型,如果我错了,请纠正我。所以我想我“我只是在找一个。一种可能与我所学内容相吻合的语言或方法。2.说明这将是一项多大程度的承诺。我将尝试从他那里得到一些更精确的信息,

我的朋友在当地政府工作,他说他的办公室浪费了很多时间执行标题中描述的流程,即: 1.在数据库中查询名称。所讨论的数据库更像是ebscohost,而不是mysql。 2.从一系列.pdf中单独删除文本。 3.将这些结果粘贴/输出到单个文件中


我有限的背景是php、javascript、html等,我只是不认为他们有能力读取这样的文件类型,如果我错了,请纠正我。所以我想我“我只是在找一个。一种可能与我所学内容相吻合的语言或方法。2.说明这将是一项多大程度的承诺。我将尝试从他那里得到一些更精确的信息,当我得到这些信息时,我会补充这些信息。另外,我没有必要的代表将“.pdf”添加到标记中,似乎它适合。提前谢谢

可能有更好的工具,但您可以通过结合两个实用程序来实现您的目标:

  • 纯文本提取器(例如ApacheTika),用于从pdf文件中检索纯文本内容
  • 将html转换为PDF(您可以用html创建目标文档,并在准备就绪时将其转换为PDF)。wkhtmltopdf就是这样的工具之一(http://code.google.com/p/wkhtmltopdf/)
  • 首先从输入的PDF文件中提取纯文本,然后用html创建输出文档,将从PDF检索到的文本插入某种html模板中。然后将html转换为pdf文件。这样,您就不必接触pdf文档的内部内容,您只需处理纯文本