Deep learning 如何使用监督学习预测短语是否与短文或文章相关？_Deep Learning_Nlp_Bert Language Model

Deep learning 如何使用监督学习预测短语是否与短文或文章相关？

deep-learning nlp

Deep learning 如何使用监督学习预测短语是否与短文或文章相关？,deep-learning,nlp,bert-language-model,Deep Learning,Nlp,Bert Language Model,我有一套短句和一套课文。我想预测一个短语是否与一篇文章相关。文章中没有出现的短语可能仍然相关注释数据（非真实）的一些示例如下：例1 短语：汽车 Text:在电动汽车市场上价格更实惠的选择中，2021特斯拉3型无疑是最便宜的大多数名称识别。它借鉴了该公司的设计风格 S型轿车和X型SUV，但其独特的室内设计和全玻璃屋顶。加速很快，而且型号3的底盘也很好玩，特别是性能车型的，具有更具运动性的悬架和履带式驾驶系统模式但电动汽车购买者更可能对驾驶范围感兴趣，而不是快速性或操控性，型号3也在

我有一套短句和一套课文。我想预测一个短语是否与一篇文章相关。文章中没有出现的短语可能仍然相关

注释数据（非真实）的一些示例如下：

例1

短语：汽车

Text:在电动汽车市场上价格更实惠的选择中，2021特斯拉3型无疑是最便宜的大多数名称识别。它借鉴了该公司的设计风格 S型轿车和X型SUV，但其独特的室内设计和全玻璃屋顶。加速很快，而且型号3的底盘也很好玩，特别是性能车型的，具有更具运动性的悬架和履带式驾驶系统模式但电动汽车购买者更可能对驾驶范围感兴趣，而不是快速性或操控性，型号3也在那里交付。基地根据美国环保署的数据，这款车的行驶里程可达263英里，而更昂贵的远程型号每次充电可高达353

标签：相关（PS：对于给定文本，一个且只有一个短语被标记为“相关”。所有其他短语都是“不相关的”）

例2

短语：编程语言

Text:Python3.9使用了一个新的解析器，它基于PEG而不是LL（1）。新解析器的性能与旧解析器大致相当但是PEG形式比LL（1）更灵活来设计新的语言功能。我们将开始使用这个 Python3.10及更高版本的灵活性

ast模块使用新的解析器并生成与旧解析器

在Python3.10中，旧的解析器将被删除，所有解析器也将被删除依赖于它的功能（主要是解析器模块长期以来一直遭到反对）。仅在Python 3.9中，您可以切换回使用命令行开关（-X oldparser）或环境变量（PYTHONOLDPARSER=1）

标签：相关（即所有其他短语都是“不相关的”）

我想我可能必须使用，例如，预训练的BERT，因为这种预测需要额外的知识。但这似乎不是一个标准的分类问题，所以我无法找到开箱即用的代码。我可以就如何组合现有轮子并对其进行训练提出一些建议吗？

这看起来确实是一个典型的文本分类问题。您是否有培训数据集或希望使用预先培训的模型？对于第二个数据示例，如果要检查的短语是“编程语言”和“编程”呢？你仍然认为只有一篇文章是相关的吗？一篇文章可能不会严格地只与一个短语相关，但大部分是相关的。在实际数据中，这些短语是不重叠的技术领域，我想检查一篇文章是否属于该领域。但我不能把短语当作标签，直接分类，因为训练集只有一小部分短语。它在做预测时会遇到未知的新短语。所以我希望这些短语不仅仅是模型的标签号。模型应该阅读短语并猜测其含义以进行分类。检查“关联性”的短语列表是否已修复？如果可以使用Python，那么最好的选择是使用拥抱面部变形金刚进行零射击学习。如果有帮助，请告诉我，我会将此转换为答案OK-我会在未来几天转换为更详细的答案，请接受