Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/joomla/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Android 名片阅读中的头衔确定_Android_Ocr - Fatal编程技术网

Android 名片阅读中的头衔确定

Android 名片阅读中的头衔确定,android,ocr,Android,Ocr,我正在制作名片阅读器应用程序。我正在实现Tesseract OCR以从图像中获取文本。我把所有的文字都打印在名片上,格式如下 马克·亨利(姓名) 助理教授(专业) XYZ大学(雇主)。 但如何确定哪一个文本是用户名,哪一个是用户的公司,哪一个是他的职务。这有什么算法吗 附言。 上面的顺序可以更改。这对于自然语言处理来说是一个理想的问题,在自然语言处理中,您可以训练分类器来假设任何带有“教授”、“助理”等的内容都更可能是工作描述,带有“马克”、“安德鲁”等的文本最有可能是姓名。这是模糊逻辑,充其量

我正在制作名片阅读器应用程序。我正在实现Tesseract OCR以从图像中获取文本。我把所有的文字都打印在名片上,格式如下

马克·亨利(姓名)
助理教授(专业)
XYZ大学(雇主)。

但如何确定哪一个文本是用户名,哪一个是用户的公司,哪一个是他的职务。这有什么算法吗

附言。
上面的顺序可以更改。

这对于自然语言处理来说是一个理想的问题,在自然语言处理中,您可以训练分类器来假设任何带有“教授”、“助理”等的内容都更可能是工作描述,带有“马克”、“安德鲁”等的文本最有可能是姓名。这是模糊逻辑,充其量只是猜测

示例-

>>> train = [
...     ('I love this sandwich.', 'pos'),
...     ('this is an amazing place!', 'pos'),
...     ('I feel very good about these beers.', 'pos'),
...     ('this is my best work.', 'pos'),
...     ("what an awesome view", 'pos'),
...     ('I do not like this restaurant', 'neg'),
...     ('I am tired of this stuff.', 'neg'),
...     ("I can't deal with this", 'neg'),
...     ('he is my sworn enemy!', 'neg'),
...     ('my boss is horrible.', 'neg')
... ]
>>> test = [
...     ('the beer was good.', 'pos'),
...     ('I do not enjoy my job', 'neg'),
...     ("I ain't feeling dandy today.", 'neg'),
...     ("I feel amazing!", 'pos'),
...     ('Gary is a friend of mine.', 'pos'),
...     ("I can't believe I'm doing this.", 'neg')
... ]