Language agnostic 转换/编译multiple.pdf'；s从数据库中拉入一个.pdf/text文件/html_Language Agnostic_Text_Automation

Language agnostic 转换/编译multiple.pdf'；s从数据库中拉入一个.pdf/text文件/html

language-agnostic text automation

Language agnostic 转换/编译multiple.pdf'；s从数据库中拉入一个.pdf/text文件/html,language-agnostic,text,automation,Language Agnostic,Text,Automation,我的朋友在当地政府工作，他说他的办公室浪费了很多时间执行标题中描述的流程，即： 1.在数据库中查询名称。所讨论的数据库更像是ebscohost，而不是mysql。 2.从一系列.pdf中单独删除文本。 3.将这些结果粘贴/输出到单个文件中我有限的背景是php、javascript、html等，我只是不认为他们有能力读取这样的文件类型，如果我错了，请纠正我。所以我想我“我只是在找一个。一种可能与我所学内容相吻合的语言或方法。2.说明这将是一项多大程度的承诺。我将尝试从他那里得到一些更精确的信息，

我的朋友在当地政府工作，他说他的办公室浪费了很多时间执行标题中描述的流程，即： 1.在数据库中查询名称。所讨论的数据库更像是ebscohost，而不是mysql。 2.从一系列.pdf中单独删除文本。 3.将这些结果粘贴/输出到单个文件中

我有限的背景是php、javascript、html等，我只是不认为他们有能力读取这样的文件类型，如果我错了，请纠正我。所以我想我“我只是在找一个。一种可能与我所学内容相吻合的语言或方法。2.说明这将是一项多大程度的承诺。我将尝试从他那里得到一些更精确的信息，当我得到这些信息时，我会补充这些信息。另外，我没有必要的代表将“.pdf”添加到标记中，似乎它适合。提前谢谢

可能有更好的工具，但您可以通过结合两个实用程序来实现您的目标：

纯文本提取器（例如ApacheTika），用于从pdf文件中检索纯文本内容

将html转换为PDF（您可以用html创建目标文档，并在准备就绪时将其转换为PDF）。wkhtmltopdf就是这样的工具之一(http://code.google.com/p/wkhtmltopdf/)

首先从输入的PDF文件中提取纯文本，然后用html创建输出文档，将从PDF检索到的文本插入某种html模板中。然后将html转换为pdf文件。这样，您就不必接触pdf文档的内部内容，您只需处理纯文本