是否可以使用Google脚本将位于Google Drive中的不可搜索PDF转换为可搜索PDF?

是否可以使用Google脚本将位于Google Drive中的不可搜索PDF转换为可搜索PDF?,pdf,google-apps-script,ocr,drive,Pdf,Google Apps Script,Ocr,Drive,我想使用Google Apps Spript将不可搜索的PDF转换为可搜索的PDF,其中文本覆盖在PDF上 PDF位于我的Google Drive中,我不想将文件上载到其他网站或下载文件以进行转换 我还没有找到任何资源显示文本可以像AdobeAcrobat那样进行OCR转换。那么,有没有可能用气体覆盖呢?我只见过有人转换成文本或文档文件。谷歌硬盘具有OCR识别功能,允许您在上传时将图像/不可搜索的PDF文件转换成谷歌文档文件,它还具有导出功能,允许您将文档文件导出为PDF。但是,没有直接转换方法

我想使用Google Apps Spript将不可搜索的PDF转换为可搜索的PDF,其中文本覆盖在PDF上

PDF位于我的Google Drive中,我不想将文件上载到其他网站或下载文件以进行转换


我还没有找到任何资源显示文本可以像AdobeAcrobat那样进行OCR转换。那么,有没有可能用气体覆盖呢?我只见过有人转换成文本或文档文件。

谷歌硬盘具有OCR识别功能,允许您在上传时将图像/不可搜索的PDF文件转换成谷歌文档文件,它还具有导出功能,允许您将文档文件导出为PDF。但是,没有直接转换方法,在OCR识别过程中,格式将丢失。因此,不可能使用覆盖创建PDF文件


您的最佳选择是在应用程序脚本中使用
UrlFetchApp.fetch()
通过POST或GET请求调用外部OCR API。您可以将该方法嵌入到一个函数中,该函数自动遍历所需的驱动器文件夹,查找所有pdf文件并使用其URL调用外部OCR API。

Google drive具有OCR识别功能,允许您在上载时将图像/不可搜索的pdf转换为Google Docs文件,它还具有导出功能,允许您将文档文件导出为PDF。但是,没有直接转换方法,在OCR识别过程中,格式将丢失。因此,不可能使用覆盖创建PDF文件


您的最佳选择是在应用程序脚本中使用
UrlFetchApp.fetch()
通过POST或GET请求调用外部OCR API。您可以将该方法嵌入到一个函数中,该函数自动遍历所需的驱动器文件夹,查找所有pdf文件并使用其URL调用外部OCR API。

为了正确了解您的情况,您能否提供一个无法检索的pdf的示例pdf文件?当然,请删除您的个人信息。覆盖是什么意思?你想将可搜索文本粘贴到不可搜索文本的顶部吗?例如,如果我拍摄此网页的屏幕截图,并将屏幕截图保存为PDF,则它将是PDF中的图像。最初,PDF是不可搜索的——当文档仅为带有图像的PDF时,无法搜索“是否可以使用Google脚本进行转换”字样。在Acrobat中,我可以运行OCR,当Acrobat OCR识别图像中的文本,然后在图像中的文本上应用一层文本(不可见,但可以高亮显示)时,OCR会识别与覆盖相关的文本

我找到了识别图像中文本并将其导出到Google Docs的脚本,但这并不能使PDF成为可搜索的PDF——我可以在其中搜索单词并在PDF中找到它。为了正确了解您的情况,您能否提供一个不可搜索PDF的示例PDF文件?当然,请删除您的个人信息。覆盖是什么意思?你想将可搜索文本粘贴到不可搜索文本的顶部吗?例如,如果我拍摄此网页的屏幕截图,并将屏幕截图保存为PDF,则它将是PDF中的图像。最初,PDF是不可搜索的——当文档仅为带有图像的PDF时,无法搜索“是否可以使用Google脚本进行转换”字样。在Acrobat中,我可以运行OCR,当Acrobat OCR识别图像中的文本,然后在图像中的文本上应用一层文本(不可见,但可以高亮显示)时,OCR会识别与覆盖相关的文本

我已经找到了识别图像中文本并将其导出到Google Docs的脚本,但这并不能使PDF成为可搜索的PDF——我可以在其中搜索单词并在PDF中找到它。关于创建文本覆盖的可能性,这个答案似乎证实了目前不可能。因此,使用Acrobat或类似的程序是目前的做法。我的目标是使内容分析变得容易,因此搜索PDF并在PDF上添加注释是覆盖文本的原因。如果谷歌在未来开发这种功能,我们可以重新讨论这个话题。关于创建文本覆盖的可能性,这个答案似乎证实了目前不可能。因此,使用Acrobat或类似的程序是目前的做法。我的目标是使内容分析变得容易,因此搜索PDF并在PDF上添加注释是覆盖文本的原因。如果谷歌在未来发展这种能力,我们可以重新讨论这个话题。