Machine learning 嵌入向量修剪:获取描述类所需的最小嵌入向量集

Machine learning 嵌入向量修剪:获取描述类所需的最小嵌入向量集,machine-learning,deep-learning,nlp,classification,word-embedding,Machine Learning,Deep Learning,Nlp,Classification,Word Embedding,我使用神经网络根据网络的输出嵌入向量对项目进行分类。嵌入向量之间的L2距离用于计算项目属于哪个类。我的数据集给了我每个类很多嵌入向量,每个类大约10000个嵌入向量,我总共有10个类。大多数嵌入向量在多维空间中“重叠”,并且是冗余的我可以使用什么算法来修剪嵌入向量的数量,这样我就可以得到完全描述每个类的最小可行向量集? 例如,一个类的5个嵌入向量可能足以描述该类,我如何选择5个最理想和描述性的向量,并删减其余的9995个向量(它们大部分相互重叠,因此是冗余的)

我使用神经网络根据网络的输出嵌入向量对项目进行分类。嵌入向量之间的L2距离用于计算项目属于哪个类。我的数据集给了我每个类很多嵌入向量,每个类大约10000个嵌入向量,我总共有10个类。大多数嵌入向量在多维空间中“重叠”,并且是冗余的我可以使用什么算法来修剪嵌入向量的数量,这样我就可以得到完全描述每个类的最小可行向量集?

例如,一个类的5个嵌入向量可能足以描述该类,我如何选择5个最理想和描述性的向量,并删减其余的9995个向量(它们大部分相互重叠,因此是冗余的)