Nlp 给定5个输入单词，预测；“最相关的”；单词_Nlp

Nlp 给定5个输入单词，预测；“最相关的”；单词

nlp

Nlp 给定5个输入单词，预测；“最相关的”；单词,nlp,Nlp,我必须为NLP作业解决这个任务。这项任务和我在标题中描述的一样一般。提供了一组2000个示例，以及相应的预期输出，它们如下所示： absence ~ away fonder illness leave presence absent ~ away minded gone present ill absurdity ~ stupid ridiculous mad stupidity clown accents ~ dialects language foreign speech French ac

我必须为NLP作业解决这个任务。这项任务和我在标题中描述的一样一般。提供了一组2000个示例，以及相应的预期输出，它们如下所示：

absence ~ away fonder illness leave presence
absent ~ away minded gone present ill
absurdity ~ stupid ridiculous mad stupidity clown
accents ~ dialects language foreign speech French
accordion ~ music piano play player instrument

我已经使用分布式语义以相当高的精度解决了这项任务，但问题是我还有一个额外的约束，即：我提供的存档大小必须小于50MB（就我而言，这个约束完全是胡说八道，但我还是必须遵守）。因此，任何分布式语义方法都是行不通的，因为语义空间必须建立在大量数据之上（在我的例子中是数千个Wikipedia页面），而且它的大小不能减少到50 MB

你能推荐我可以用来解决这个问题的其他方法吗？

在科学文献中，当需要共享数据时，这种情况经常发生。通常一个人会提交资源（在你的例子中是词向量），加上用于构建它们的代码和到原始数据的链接（例如wikipedia）。您还应该分发资源所需的任何其他代码（例如，查询模型中与给定目标最相关的单词的代码）

在您的案例中，如果您使用了合理的降维，您应该能够在50MB的内存中拟合一个合适的覆盖率分布模型。我现在使用的模型大约需要150MB来以未压缩的纯文本存储70k个字向量（另外，由于我使用的特定格式，会有很多开销）。我可以压缩到37MB