Keras 通过深度学习从PDF中提取短语_Keras_Deep Learning

Keras 通过深度学习从PDF中提取短语

keras deep-learning

Keras 通过深度学习从PDF中提取短语,keras,deep-learning,Keras,Deep Learning,我想教人工智能从PDF中提取特定短语。例如，文档中描述了产品名称，人工智能必须找到并提取它。我的问题是，由于文档的结构比较粗略，是否最好将PDF作为图像或提取的字符串提供。我希望我的问题可以理解也许有人也给了我一些想法或关键词：）编辑：多亏了lsimmons的提示，我找到了一个开始的方法：我将尝试这段代码，当然是用产品名称而不是疾病。这被称为“命名实体识别”，因为每个人都有相同的问题。我希望这能起作用。将pdf图像中的字符转换为文本将更像是一项计算机视觉任务，而这似乎不是您想

我想教人工智能从PDF中提取特定短语。例如，文档中描述了产品名称，人工智能必须找到并提取它。我的问题是，由于文档的结构比较粗略，是否最好将PDF作为图像或提取的字符串提供。我希望我的问题可以理解

也许有人也给了我一些想法或关键词：）

编辑：多亏了lsimmons的提示，我找到了一个开始的方法：

我将尝试这段代码，当然是用产品名称而不是疾病。这被称为“命名实体识别”，因为每个人都有相同的问题。

我希望这能起作用。

将pdf图像中的字符转换为文本将更像是一项计算机视觉任务，而这似乎不是您想要做的，因为您似乎对短语提取更感兴趣，这将是NLP。因此，第一步可能是在将文本输入NLP库进行短语提取之前从PDF中提取文本

Python中似乎有很多库可以进行pdf文本提取，这是从谷歌的快速搜索中弹出的。至于NLP，在这个领域有很多库和概念需要学习，同样，谷歌快速搜索得到一篇文章，作为Python中NLP的介绍。

将pdf图像中的字符转换为文本更像是一项计算机视觉任务，这似乎不是你想要做的，因为你似乎对短语提取更感兴趣，这就是NLP。因此，第一步可能是在将文本输入NLP库进行短语提取之前从PDF中提取文本

我的计划用“短语提取”这个词合适吗？还是有更好的关键词？@Helyon不完全确定大多数人会称之为从文本中提取产品名称-在我看来，“实体提取”可能是更好的术语。对于我的计划，“短语提取”是正确的术语吗？或者有更好的关键词吗？@Helyon不完全确定大多数人会怎么称呼从文本中提取产品名称——在我看来，“实体提取”可能是更好的术语。