Python Doc2Vec预训练和推断向量_Python_Nlp_Word Embedding_Doc2vec_Pre Trained Model

Python Doc2Vec预训练和推断向量

python nlp

Python Doc2Vec预训练和推断向量,python,nlp,word-embedding,doc2vec,pre-trained-model,Python,Nlp,Word Embedding,Doc2vec,Pre Trained Model,假设我已经用50000个文档训练了doc2vec模型，并且我想为包含36000个文档的单独数据集推断向量。在这种情况下，推断向量对于分类的下游任务是否有效，因为我的假设是推断向量取决于训练模型的文档的大小注：两个数据集（即用于训练doc2vec的数据集和用于推断向量的数据集）都是唯一的，但来自美国最高法院的同一领域如果我有正确的理由，请纠正我的错误。对于这样一个小数据集，我能给出的任何答案都不如试着看看它是否有效 50000对于一个训练集来说是很小的，但是一些有用的Doc2Vec结果是基于类

假设我已经用50000个文档训练了doc2vec模型，并且我想为包含36000个文档的单独数据集推断向量。在这种情况下，推断向量对于分类的下游任务是否有效，因为我的假设是推断向量取决于训练模型的文档的大小

注：两个数据集（即用于训练doc2vec的数据集和用于推断向量的数据集）都是唯一的，但来自美国最高法院的同一领域

如果我有正确的理由，请纠正我的错误。

对于这样一个小数据集，我能给出的任何答案都不如试着看看它是否有效

50000对于一个训练集来说是很小的，但是一些有用的

Doc2Vec

结果是基于类似的小体

向量推理与训练一样，将任意长度的文档缩减为固定大小的向量。（但请注意：gensim无声地将馈送到

2Vec

模型的任何文本限制为10000个令牌。）

但是，如果您已经在1000个单词左右的文档上训练了一个模型，然后尝试在10个单词片段上进行推断，那么这些文档向量可能没有在更类似于训练集的文档上的推断向量那么有用，或者以同样的方式有用。但你还是需要试试看。（另请注意：在推理过程中，培训期间未学习到的单词将被完全忽略，因此，对于包含许多/所有未知单词的文档，以后的推理将很弱或毫无意义。）

您的推理文档就是这样吗？它们在大小和词汇方面与培训文档有很大不同？如果是，为什么？（你能用更具代表性的文件进行培训吗？）

如果36000份文档集在培训开始前已修复，则将其包含在无监督的

Doc2Vec

培训中也可能是有效/合理的。它们是数据，有助于学习领域术语，而且它们没有任何形式的分类“正确”答案

谢谢你的警告，我会优先处理的。最后一段需要澄清的是，在无监督的doc2vec培训期间，我将为其推断向量的文档提供信息在技术上是否正确。我知道您已经声明，在培训期间包含36000份文档是有效的，因为模型将学习领域词汇，并且他们对标签没有任何形式的决定权。这不是一种对模型的欺骗吗？请你再强调一下这个理由好吗@gojomoIt取决于你的具体目标。36k文档是否只是一个试验批次，并且您希望您对系统准确性/etc的估计相当可靠，以确定它将如何从一个冻结的模型继续在未来的类似批次上工作？获得准确的估计值可以证明从无监督培训中保留数据是合理的。但如果最终目标是对36k进行分类，那么您想要的是最佳性能，而不是对未来性能的理论上无偏估计。或者，如果每次有N千份文档到达，您都可以合法地对所有内容进行再培训，这样您的实际生产系统将能够了解更多关于该领域的信息（无监督）对于尚未分类的文档，再次强调，将其作为无监督步骤的一部分使用可能是有效的。作为比较，这就是最初的“段落向量”（aka

Doc2Vec

）论文在IMDB评论情绪实验中所做的。（第3.1节）