Deep learning 如何使用监督学习预测短语是否与短文或文章相关?

Deep learning 如何使用监督学习预测短语是否与短文或文章相关?,deep-learning,nlp,bert-language-model,Deep Learning,Nlp,Bert Language Model,我有一套短句和一套课文。我想预测一个短语是否与一篇文章相关。文章中没有出现的短语可能仍然相关 注释数据(非真实)的一些示例如下: 例1 短语:汽车 Text:在电动汽车市场上价格更实惠的选择中,2021特斯拉3型无疑是最便宜的 大多数名称识别。它借鉴了该公司的设计风格 S型轿车和X型SUV,但其独特的 室内设计和全玻璃屋顶。加速很快,而且 型号3的底盘也很好玩,特别是性能 车型的,具有更具运动性的悬架和履带式驾驶系统 模式但电动汽车购买者更可能对驾驶范围感兴趣,而不是 快速性或操控性,型号3也在

我有一套短句和一套课文。我想预测一个短语是否与一篇文章相关。文章中没有出现的短语可能仍然相关

注释数据(非真实)的一些示例如下:

例1

短语:汽车

Text:在电动汽车市场上价格更实惠的选择中,2021特斯拉3型无疑是最便宜的 大多数名称识别。它借鉴了该公司的设计风格 S型轿车和X型SUV,但其独特的 室内设计和全玻璃屋顶。加速很快,而且 型号3的底盘也很好玩,特别是性能 车型的,具有更具运动性的悬架和履带式驾驶系统 模式但电动汽车购买者更可能对驾驶范围感兴趣,而不是 快速性或操控性,型号3也在那里交付。基地 根据美国环保署的数据,这款车的行驶里程可达263英里, 而更昂贵的远程型号每次充电可高达353

标签:相关(PS:对于给定文本,一个且只有一个短语被标记为“相关”。所有其他短语都是“不相关的”)

例2

短语:编程语言

Text:Python3.9使用了一个新的解析器,它基于PEG而不是LL(1)。新解析器的性能与旧解析器大致相当 但是PEG形式比LL(1)更灵活 来设计新的语言功能。我们将开始使用这个 Python3.10及更高版本的灵活性

ast模块使用新的解析器并生成与 旧解析器

在Python3.10中,旧的解析器将被删除,所有解析器也将被删除 依赖于它的功能(主要是解析器模块 长期以来一直遭到反对)。仅在Python 3.9中,您可以切换回 使用命令行开关(-X oldparser)或 环境变量(PYTHONOLDPARSER=1)

标签:相关(即所有其他短语都是“不相关的”)


我想我可能必须使用,例如,预训练的BERT,因为这种预测需要额外的知识。但这似乎不是一个标准的分类问题,所以我无法找到开箱即用的代码。我可以就如何组合现有轮子并对其进行训练提出一些建议吗?

这看起来确实是一个典型的文本分类问题。您是否有培训数据集或希望使用预先培训的模型?对于第二个数据示例,如果要检查的短语是“编程语言”和“编程”呢?你仍然认为只有一篇文章是相关的吗?一篇文章可能不会严格地只与一个短语相关,但大部分是相关的。在实际数据中,这些短语是不重叠的技术领域,我想检查一篇文章是否属于该领域。但我不能把短语当作标签,直接分类,因为训练集只有一小部分短语。它在做预测时会遇到未知的新短语。所以我希望这些短语不仅仅是模型的标签号。模型应该阅读短语并猜测其含义以进行分类。检查“关联性”的短语列表是否已修复?如果可以使用Python,那么最好的选择是使用拥抱面部变形金刚进行零射击学习。如果有帮助,请告诉我,我会将此转换为答案OK-我会在未来几天转换为更详细的答案,请接受