C# 为什么谷歌PDF文档文本检测API比谷歌JPG文档文本检测API慢得多

C# 为什么谷歌PDF文档文本检测API比谷歌JPG文档文本检测API慢得多,c#,asp.net,google-cloud-platform,google-api,google-vision,C#,Asp.net,Google Cloud Platform,Google Api,Google Vision,我注意到Google Vision PDF OCR文档文本检测大约需要15秒来检测单个PDF页面 但如果我提交与JPG相同的PDF页面,则检测文本所需的时间不到3秒 我使用了这里提供的代码(C#) 我注意到,下面这行代码大约需要15秒的时间才能检测到PDF中的所有文本并将其保存到gsBucket中 operation.polluntillcompleted() 我的GsBucket是美国的“多区域存储” 我也从美国的一个地方上传 我想知道我还能做些什么来加速这个过程,或者这是我所期望的?你可

我注意到Google Vision PDF OCR文档文本检测大约需要15秒来检测单个PDF页面
但如果我提交与JPG相同的PDF页面,则检测文本所需的时间不到3秒

我使用了这里提供的代码(C#)

我注意到,下面这行代码大约需要15秒的时间才能检测到PDF中的所有文本并将其保存到gsBucket中
operation.polluntillcompleted()

  • 我的GsBucket是美国的“多区域存储”
  • 我也从美国的一个地方上传

我想知道我还能做些什么来加速这个过程,或者这是我所期望的?

你可以在这篇文章中找到你询问的答案。作为总结:

脱机批处理API的设计目的不是以较短的运行时间为目标 第一优先事项。相反,它的目标是为大型项目提供日程安排 根据配额限制的多页PDF/TIFF文件数。所以 而不是一个接一个地发送PDF/TIFF文件,然后等待每个文件被删除 如果成功,典型的使用方法是发送尽可能多的PDF/TIFF文件 尽可能一次或连续跟踪每个操作id,以 获取每个PDF/TIFF处理的最终结果


小批量在线处理在C#client库中似乎还不可用。解决方法是直接调用REST API或使用不同语言的客户端库。

您可以在下面的文章中找到查询的答案。作为总结:

脱机批处理API的设计目的不是以较短的运行时间为目标 第一优先事项。相反,它的目标是为大型项目提供日程安排 根据配额限制的多页PDF/TIFF文件数。所以 而不是一个接一个地发送PDF/TIFF文件,然后等待每个文件被删除 如果成功,典型的使用方法是发送尽可能多的PDF/TIFF文件 尽可能一次或连续跟踪每个操作id,以 获取每个PDF/TIFF处理的最终结果


小批量在线处理在C#client库中似乎还不可用。解决方法是直接调用REST API或使用不同语言的客户端库。

将PDF转换为JPEG需要多长时间?这可能就是它在后台所做的。可能,对于我来说,将PDF转换为JPEG大约需要1-2秒。可能它完成得比这更快——毕竟,
PollUntilCompleted
进行轮询。您可以指定更频繁的
PollSettings
来进行检查。我将间隔更改为1秒,但仍然没有差异,很好。我正在上传PDF文件,然后等待文本检测结果被保存回我的存储桶。我上传的文件的“上次修改”时间戳与谷歌保存的文件之间的差异也显示了约15秒的差异。这可能涉及一些内部计划。但是,我99%确信,对于其他客户端库,您也会得到同样的结果——除了这里的轮询之外,我们不会做太多。你可能想问…将PDF转换为JPEG需要多长时间?这可能就是它在后台所做的。可能,对于我来说,将PDF转换为JPEG大约需要1-2秒。可能它完成得比这更快——毕竟,
PollUntilCompleted
进行轮询。您可以指定更频繁的
PollSettings
来进行检查。我将间隔更改为1秒,但仍然没有差异,很好。我正在上传PDF文件,然后等待文本检测结果被保存回我的存储桶。我上传的文件的“上次修改”时间戳与谷歌保存的文件之间的差异也显示了约15秒的差异。这可能涉及一些内部计划。但是,我99%确信,对于其他客户端库,您也会得到同样的结果——除了这里的轮询之外,我们不会做太多。你可能想问一下。。。