通过任何编程语言从pdf中选择文本和图像

通过任何编程语言从pdf中选择文本和图像,pdf,web-applications,programming-languages,selection,Pdf,Web Applications,Programming Languages,Selection,我正在尝试开发一个工具/web应用程序,这样它将导入一个PDF文件,我需要选择PDF格式的文本和图像,方法是用鼠标单击它们,然后用按钮单击将它们标记为标题、内容和图像(3个不同的按钮)其中标记的内容和图像将复制到剪贴板或粘贴到word文档中,该文档将成为另一部分。那么,这可以用哪种编程语言来工作和进行呢?我可能会尝试使用和来研究纯浏览器端解决方案 否则,您仍然需要在浏览器中使用剪贴板API,服务器端实际上可能由任何编程语言提供支持,这些语言可以连接到web服务器,并具有用于解析PDF的库 你对你

我正在尝试开发一个工具/web应用程序,这样它将导入一个PDF文件,我需要选择PDF格式的文本和图像,方法是用鼠标单击它们,然后用按钮单击将它们标记为标题、内容和图像(3个不同的按钮)其中标记的内容和图像将复制到剪贴板或粘贴到word文档中,该文档将成为另一部分。那么,这可以用哪种编程语言来工作和进行呢?

我可能会尝试使用和来研究纯浏览器端解决方案

否则,您仍然需要在浏览器中使用
剪贴板API
,服务器端实际上可能由任何编程语言提供支持,这些语言可以连接到web服务器,并具有用于解析PDF的库

你对你未来的服务器平台只字未提,举几个例子,.NET有一个可以阅读PDF的平台。毕竟,存在一组从PDF中提取数据的命令行实用程序,可以使用任何能够调用外部进程的PL调用这些数据

请注意,这似乎只是一个比使用
pdf.js
更简单的解决方案,但请注意,除非您的pdf是真正统一的(例如,由某个软件创建的发票),这样您就能够让您的pdf解析器知道它必须提取和返回哪些数据位,解析器需要将它提取的所有数据重新链接到客户端,并且您需要以某种方式在那里呈现所有数据。也许这正是你需要的,但也许不是


由于PDF实际上是为排版而定制的,并且没有以结构化的方式呈现信息,因此我会尝试借助一个已经在浏览器中运行的核心PDF呈现解决方案,请参见上文。

是否也可以呈现图像?