Keras 通过深度学习从PDF中提取短语

Keras 通过深度学习从PDF中提取短语,keras,deep-learning,Keras,Deep Learning,我想教人工智能从PDF中提取特定短语。 例如,文档中描述了产品名称,人工智能必须找到并提取它。 我的问题是,由于文档的结构比较粗略,是否最好将PDF作为图像或提取的字符串提供。 我希望我的问题可以理解 也许有人也给了我一些想法或关键词:) 编辑: 多亏了lsimmons的提示,我找到了一个开始的方法: 我将尝试这段代码,当然是用产品名称而不是疾病。 这被称为“命名实体识别”,因为每个人都有相同的问题。 我希望这能起作用。将pdf图像中的字符转换为文本将更像是一项计算机视觉任务,而这似乎不是您想

我想教人工智能从PDF中提取特定短语。 例如,文档中描述了产品名称,人工智能必须找到并提取它。 我的问题是,由于文档的结构比较粗略,是否最好将PDF作为图像或提取的字符串提供。 我希望我的问题可以理解

也许有人也给了我一些想法或关键词:)

编辑: 多亏了lsimmons的提示,我找到了一个开始的方法:

我将尝试这段代码,当然是用产品名称而不是疾病。 这被称为“命名实体识别”,因为每个人都有相同的问题。
我希望这能起作用。

将pdf图像中的字符转换为文本将更像是一项计算机视觉任务,而这似乎不是您想要做的,因为您似乎对短语提取更感兴趣,这将是NLP。因此,第一步可能是在将文本输入NLP库进行短语提取之前从PDF中提取文本


Python中似乎有很多库可以进行pdf文本提取,这是从谷歌的快速搜索中弹出的。至于NLP,在这个领域有很多库和概念需要学习,同样,谷歌快速搜索得到一篇文章,作为Python中NLP的介绍。

将pdf图像中的字符转换为文本更像是一项计算机视觉任务,这似乎不是你想要做的,因为你似乎对短语提取更感兴趣,这就是NLP。因此,第一步可能是在将文本输入NLP库进行短语提取之前从PDF中提取文本


Python中似乎有很多库可以进行pdf文本提取,这是从谷歌的快速搜索中弹出的。至于NLP,在这个领域有很多库和概念需要学习,同样,谷歌快速搜索得到一篇文章,作为Python中NLP的介绍。

我的计划用“短语提取”这个词合适吗?还是有更好的关键词?@Helyon不完全确定大多数人会称之为从文本中提取产品名称-在我看来,“实体提取”可能是更好的术语。对于我的计划,“短语提取”是正确的术语吗?或者有更好的关键词吗?@Helyon不完全确定大多数人会怎么称呼从文本中提取产品名称——在我看来,“实体提取”可能是更好的术语。