Nlp 给定5个输入单词,预测;“最相关的”;单词

Nlp 给定5个输入单词,预测;“最相关的”;单词,nlp,Nlp,我必须为NLP作业解决这个任务。这项任务和我在标题中描述的一样一般。提供了一组2000个示例,以及相应的预期输出,它们如下所示: absence ~ away fonder illness leave presence absent ~ away minded gone present ill absurdity ~ stupid ridiculous mad stupidity clown accents ~ dialects language foreign speech French ac

我必须为NLP作业解决这个任务。这项任务和我在标题中描述的一样一般。提供了一组2000个示例,以及相应的预期输出,它们如下所示:

absence ~ away fonder illness leave presence
absent ~ away minded gone present ill
absurdity ~ stupid ridiculous mad stupidity clown
accents ~ dialects language foreign speech French
accordion ~ music piano play player instrument
我已经使用分布式语义以相当高的精度解决了这项任务,但问题是我还有一个额外的约束,即:我提供的存档大小必须小于50MB(就我而言,这个约束完全是胡说八道,但我还是必须遵守)。因此,任何分布式语义方法都是行不通的,因为语义空间必须建立在大量数据之上(在我的例子中是数千个Wikipedia页面),而且它的大小不能减少到50 MB


你能推荐我可以用来解决这个问题的其他方法吗?

在科学文献中,当需要共享数据时,这种情况经常发生。通常一个人会提交资源(在你的例子中是词向量),加上用于构建它们的代码和到原始数据的链接(例如wikipedia)。您还应该分发资源所需的任何其他代码(例如,查询模型中与给定目标最相关的单词的代码)

在您的案例中,如果您使用了合理的降维,您应该能够在50MB的内存中拟合一个合适的覆盖率分布模型。我现在使用的模型大约需要150MB来以未压缩的纯文本存储70k个字向量(另外,由于我使用的特定格式,会有很多开销)。我可以压缩到37MB