Nlp 从模糊文本中提取属性值

Nlp 从模糊文本中提取属性值,nlp,stanford-nlp,named-entity-recognition,spelling,Nlp,Stanford Nlp,Named Entity Recognition,Spelling,我正在使用OCR库从图像中提取产品规格。我首先关注笔记本电脑。例如: Processor Processor model: Intel N3540 Clock speed: 2.16 GHz Memory Internal: 4 GB Hard disk Capacity: 1 TB 或: OCR并不完美,有时C10会成为CIO和其他类似的东西 我想提取属性值对,但我不知道如何解决这个问题 我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件(因为品牌、内存和硬盘容量都非常有

我正在使用OCR库从图像中提取产品规格。我首先关注笔记本电脑。例如:

Processor 
Processor model: Intel N3540 
Clock speed: 2.16 GHz 
Memory 
Internal: 4 GB 
Hard disk 
Capacity: 1 TB
或:

OCR并不完美,有时C10会成为CIO和其他类似的东西

我想提取属性值对,但我不知道如何解决这个问题

我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件(因为品牌、内存和硬盘容量都非常有限),然后使用NLP库从文本中提取实体。问题还在于,有时会出现拼写错误,因此比较精确值并不容易


您将如何处理这个问题?

至于拼写错误,我建议,如果可能的话,获取OCR系统的模糊和概率输出。考虑到您的CIO示例,我在图形上更接近于1,而不是其他角色。如果没有这样的输出可用,可以考虑使用字符之间的某种加权编辑距离。

对于命名实体识别,已经完成了从噪声输入中识别命名实体的工作,主要是针对ASR源(据我所知)。例如,看看单词混淆网络是如何处理这个问题的

最后一步,您可能需要一个OCR校正和命名实体识别的联合任务。这可能需要定义哪些实体可能适用于您的域:需要哪些令牌来描述CPU速度、存储容量、计算机品牌等。您可以手动实施规则或从现有数据库中挖掘数据。作为最后一步,您可能必须以某种方式调整预期OCR错误纠正率,以在不添加误报的情况下提取正确的属性值对

请随时通知我们您试验的解决方案

TOSHIBA 
SATELLITE C50-5302 
PENTIUM 
TOSHIBA  
DISPLAY 15.6 
4GB 
DDR3 
500