Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/api/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Database PDF文本提取器_Database_Pdf_Product_Extractor - Fatal编程技术网

Database PDF文本提取器

Database PDF文本提取器,database,pdf,product,extractor,Database,Pdf,Product,Extractor,我需要将主要零售连锁店(如家乐福、Lidl等)的广告传单中存储的信息上传到数据库中 我找到的最快解决方案是: 我从主站点下载PDF 我启动了一个名为pic2filex的程序,它可以立即从剪贴板保存图像 使用快照工具剪辑所有不同的文章 启动一个过程,将图像加载到数据库中,并为每个图像插入产品名称和价格 有没有更快的方法?您是否使用OCR获取产品名称和价格?在产品传单上,我认为这些传单通常非常嘈杂,这将受到很多错误和手动更正的影响。我不使用OCR,因为我认为我将花费更多时间从所有文本中识别商品名称(

我需要将主要零售连锁店(如家乐福、Lidl等)的广告传单中存储的信息上传到数据库中

我找到的最快解决方案是:

  • 我从主站点下载PDF

  • 我启动了一个名为pic2filex的程序,它可以立即从剪贴板保存图像

  • 使用快照工具剪辑所有不同的文章

  • 启动一个过程,将图像加载到数据库中,并为每个图像插入产品名称和价格


  • 有没有更快的方法?

    您是否使用OCR获取产品名称和价格?在产品传单上,我认为这些传单通常非常嘈杂,这将受到很多错误和手动更正的影响。我不使用OCR,因为我认为我将花费更多时间从所有文本中识别商品名称(通常也有描述),因此我必须加入/保存名称+图像(和价格)OK,请记住,文本提取也很困难,因为glyph可以单独放置,也可以成组放置,也可以旋转放置,等等-确定哪些行构成文本行,哪些行构成块,这是一个非常重要的问题。一定要使用现有的库来实现这一点,因为编写它将非常耗时。