Nlp 从模糊文本中提取属性值
我正在使用OCR库从图像中提取产品规格。我首先关注笔记本电脑。例如:Nlp 从模糊文本中提取属性值,nlp,stanford-nlp,named-entity-recognition,spelling,Nlp,Stanford Nlp,Named Entity Recognition,Spelling,我正在使用OCR库从图像中提取产品规格。我首先关注笔记本电脑。例如: Processor Processor model: Intel N3540 Clock speed: 2.16 GHz Memory Internal: 4 GB Hard disk Capacity: 1 TB 或: OCR并不完美,有时C10会成为CIO和其他类似的东西 我想提取属性值对,但我不知道如何解决这个问题 我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件(因为品牌、内存和硬盘容量都非常有
Processor
Processor model: Intel N3540
Clock speed: 2.16 GHz
Memory
Internal: 4 GB
Hard disk
Capacity: 1 TB
或:
OCR并不完美,有时C10会成为CIO和其他类似的东西
我想提取属性值对,但我不知道如何解决这个问题
我正在考虑用我能得到的所有笔记本电脑和微处理器构建一个文件(因为品牌、内存和硬盘容量都非常有限),然后使用NLP库从文本中提取实体。问题还在于,有时会出现拼写错误,因此比较精确值并不容易
您将如何处理这个问题?至于拼写错误,我建议,如果可能的话,获取OCR系统的模糊和概率输出。考虑到您的CIO示例,我在图形上更接近于1,而不是其他角色。如果没有这样的输出可用,可以考虑使用字符之间的某种加权编辑距离。 对于命名实体识别,已经完成了从噪声输入中识别命名实体的工作,主要是针对ASR源(据我所知)。例如,看看单词混淆网络是如何处理这个问题的 最后一步,您可能需要一个OCR校正和命名实体识别的联合任务。这可能需要定义哪些实体可能适用于您的域:需要哪些令牌来描述CPU速度、存储容量、计算机品牌等。您可以手动实施规则或从现有数据库中挖掘数据。作为最后一步,您可能必须以某种方式调整预期OCR错误纠正率,以在不添加误报的情况下提取正确的属性值对 请随时通知我们您试验的解决方案
TOSHIBA
SATELLITE C50-5302
PENTIUM
TOSHIBA
DISPLAY 15.6
4GB
DDR3
500