Nlp word2vec和Glove中使用的类似Biodomain的单词相似性数据集

Nlp word2vec和Glove中使用的类似Biodomain的单词相似性数据集,nlp,bioinformatics,text-mining,biopython,Nlp,Bioinformatics,Text Mining,Biopython,我正在对word2vec进行生物医学文本培训。为了执行单词相似性和单词类比测试,我想让成对的生物医学术语具有相同的关系(可以是任何关系),就像我们在word2vec中有一个城市状态数据的综合列表一样。我试着在网上搜索,但由于我是这个领域的新手,我发现它令人困惑 那么,我在哪里可以找到与药物基因或蛋白质作用等相关的列表呢?或者我如何挖掘这些数据。请建议公开提供此类数据集。此外,请建议任何其他有趣的关系,我也可以查询 另一种方法是使用可用的本体,因为它们包括概念之间的关系,例如has part、is

我正在对word2vec进行生物医学文本培训。为了执行单词相似性和单词类比测试,我想让成对的生物医学术语具有相同的关系(可以是任何关系),就像我们在word2vec中有一个城市状态数据的综合列表一样。我试着在网上搜索,但由于我是这个领域的新手,我发现它令人困惑

那么,我在哪里可以找到与药物基因或蛋白质作用等相关的列表呢?或者我如何挖掘这些数据。请建议公开提供此类数据集。此外,请建议任何其他有趣的关系,我也可以查询

另一种方法是使用可用的本体,因为它们包括概念之间的关系,例如has part、is-a-way-of-do、is-a-cause-of、is-a-symptom-of等。我可以使用本体来提取这样的对吗?如果是,那么本体论是什么,如何

是否已有任何金标准数据集可供我使用

那么,我在哪里可以找到与药物基因或蛋白质作用相关的列表, 等等

查看ChEMBL,例如,它与目标关联

另一种方法是使用可用的本体,因为它们包括 概念之间的关系,如有部分,是一种方式, is-a-cause-of,is-a-symptom-of等。我可以使用本体来提取吗 这样的一对?如果是,那么本体论是什么,如何

好的开始是最好的