Nlp 从模糊文本中提取属性值_Nlp_Stanford Nlp_Named Entity Recognition_Spelling

Nlp 从模糊文本中提取属性值

nlp stanford-nlp

Nlp 从模糊文本中提取属性值,nlp,stanford-nlp,named-entity-recognition,spelling,Nlp,Stanford Nlp,Named Entity Recognition,Spelling,我正在使用OCR库从图像中提取产品规格。我首先关注笔记本电脑。例如： Processor Processor model: Intel N3540 Clock speed: 2.16 GHz Memory Internal: 4 GB Hard disk Capacity: 1 TB 或： OCR并不完美，有时C10会成为CIO和其他类似的东西我想提取属性值对，但我不知道如何解决这个问题我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件（因为品牌、内存和硬盘容量都非常有

我正在使用OCR库从图像中提取产品规格。我首先关注笔记本电脑。例如：

Processor 
Processor model: Intel N3540 
Clock speed: 2.16 GHz 
Memory 
Internal: 4 GB 
Hard disk 
Capacity: 1 TB

或：

OCR并不完美，有时C10会成为CIO和其他类似的东西

我想提取属性值对，但我不知道如何解决这个问题

我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件（因为品牌、内存和硬盘容量都非常有限），然后使用NLP库从文本中提取实体。问题还在于，有时会出现拼写错误，因此比较精确值并不容易

您将如何处理这个问题？

至于拼写错误，我建议，如果可能的话，获取OCR系统的模糊和概率输出。考虑到您的CIO示例，我在图形上更接近于1，而不是其他角色。如果没有这样的输出可用，可以考虑使用字符之间的某种加权编辑距离。

对于命名实体识别，已经完成了从噪声输入中识别命名实体的工作，主要是针对ASR源（据我所知）。例如，看看单词混淆网络是如何处理这个问题的

最后一步，您可能需要一个OCR校正和命名实体识别的联合任务。这可能需要定义哪些实体可能适用于您的域：需要哪些令牌来描述CPU速度、存储容量、计算机品牌等。您可以手动实施规则或从现有数据库中挖掘数据。作为最后一步，您可能必须以某种方式调整预期OCR错误纠正率，以在不添加误报的情况下提取正确的属性值对

请随时通知我们您试验的解决方案

TOSHIBA 
SATELLITE C50-5302 
PENTIUM 
TOSHIBA  
DISPLAY 15.6 
4GB 
DDR3 
500