Database PDF文本提取器_Database_Pdf_Product_Extractor

Database PDF文本提取器

database pdf

Database PDF文本提取器,database,pdf,product,extractor,Database,Pdf,Product,Extractor,我需要将主要零售连锁店（如家乐福、Lidl等）的广告传单中存储的信息上传到数据库中我找到的最快解决方案是：我从主站点下载PDF 我启动了一个名为pic2filex的程序，它可以立即从剪贴板保存图像使用快照工具剪辑所有不同的文章启动一个过程，将图像加载到数据库中，并为每个图像插入产品名称和价格有没有更快的方法？您是否使用OCR获取产品名称和价格？在产品传单上，我认为这些传单通常非常嘈杂，这将受到很多错误和手动更正的影响。我不使用OCR，因为我认为我将花费更多时间从所有文本中识别商品名称（

我需要将主要零售连锁店（如家乐福、Lidl等）的广告传单中存储的信息上传到数据库中

我找到的最快解决方案是：

我从主站点下载PDF

我启动了一个名为pic2filex的程序，它可以立即从剪贴板保存图像

使用快照工具剪辑所有不同的文章

启动一个过程，将图像加载到数据库中，并为每个图像插入产品名称和价格

有没有更快的方法？

您是否使用OCR获取产品名称和价格？在产品传单上，我认为这些传单通常非常嘈杂，这将受到很多错误和手动更正的影响。我不使用OCR，因为我认为我将花费更多时间从所有文本中识别商品名称（通常也有描述），因此我必须加入/保存名称+图像（和价格）OK，请记住，文本提取也很困难，因为glyph可以单独放置，也可以成组放置，也可以旋转放置，等等-确定哪些行构成文本行，哪些行构成块，这是一个非常重要的问题。一定要使用现有的库来实现这一点，因为编写它将非常耗时。