如何在PDF中添加隐藏的ocr文本

如何在PDF中添加隐藏的ocr文本,pdf,ocr,tiff,Pdf,Ocr,Tiff,目前我正在Puma.NET上工作,并将扫描的多页tif转换为可搜索的pdf文件。但是,是否有任何开源库提供了在这个文本pdf上生成图像的功能?这样,原始tif文件以pdf格式保存,ocr文本隐藏,但可供选择或搜索 谢谢安德鲁的快速回复。如果我现有的库无法实现此结果,我肯定会尝试使用QuickPDF.:-) 顺便说一句,我有个更好的主意。我想我可以用iTextSharp来做。然而,我有两个问题,因为我是iTextSharp的新手 1) 如何在pdf中添加不同大小的页面? 2) 如何使用SetAb

目前我正在Puma.NET上工作,并将扫描的多页tif转换为可搜索的pdf文件。但是,是否有任何开源库提供了在这个文本pdf上生成图像的功能?这样,原始tif文件以pdf格式保存,ocr文本隐藏,但可供选择或搜索


谢谢安德鲁的快速回复。如果我现有的库无法实现此结果,我肯定会尝试使用QuickPDF.:-)

顺便说一句,我有个更好的主意。我想我可以用iTextSharp来做。然而,我有两个问题,因为我是iTextSharp的新手

1) 如何在pdf中添加不同大小的页面? 2) 如何使用SetAbsolutePosition或任何其他功能在特定页面上添加图像层


如果有人能为我提供上述问题的iTextSharp代码,那就太好了

您可以使用Quick PDF Library LITE,它应该有足够的函数来完成您需要的任务。它不是开源的,但可以免费使用

您需要使用以下函数

SetPageSize(); SetOrigin(); QP.AddImageFromFile(); QP.SetTextSize(); QP.DrawTextBox(); QP.SetTextColor(); QP.NewPage()

在添加图像之前,需要添加白色文本对象

安德鲁


免责声明:我为此产品做了一些咨询工作。

我已成功地在我的OCR'd pdf文本格式中添加了图像层,并且位置未保留。使用Quick PDF LITE版本是否可行?如果您有每段OCR数据的坐标,则可以使用DrawTextBox(x、y、w、h、文本、对齐)非常精确地放置不可见文本。您正在使用哪个OCR引擎?如果您使用的是Tesseract 2.xx,则很可能无法访问OCR文本的x、y、w、h位置。不幸的是,我没有坐标。我想我会把这个问题保留一段时间,因为现在似乎没有免费的解决方案。