Machine learning 如何找到一组词簇的特征?

Machine learning 如何找到一组词簇的特征?,machine-learning,nlp,artificial-intelligence,cluster-analysis,data-science,Machine Learning,Nlp,Artificial Intelligence,Cluster Analysis,Data Science,我的动机我正在努力学习德语,并意识到德语的结构有一个令人困惑的事实:在许多情况下,每个名词都有一个与名词本身无关的性别 与英语等语言不同,每个名词都有不同的定冠词,具体取决于性别:der(阳性)、die(阴性)和das(中性)。例如: das Mädchen(“女孩”)、der Rock(“裙子”)、die Hose(“裤子/裤子”)。因此,名词的性别分配与其含义之间似乎没有关联 数据 我收集了多达5000个德语单词,每个单词有3列(das、der、die),每个单词有1和0。因此,我的数据已经

我的动机我正在努力学习德语,并意识到德语的结构有一个令人困惑的事实:在许多情况下,每个名词都有一个与名词本身无关的性别

与英语等语言不同,每个名词都有不同的定冠词,具体取决于性别:der(阳性)、die(阴性)和das(中性)。例如: das Mädchen(“女孩”)、der Rock(“裙子”)、die Hose(“裤子/裤子”)。因此,名词的性别分配与其含义之间似乎没有关联

数据 我收集了多达5000个德语单词,每个单词有3列(das、der、die),每个单词有1和0。因此,我的数据已经用一个热编码进行了聚类,我不想预测任何东西

我来这里的原因我不知道从哪里开始,如何处理这个问题,因为在这种情况下,聚类中的距离概念对我来说没有意义。我想不出一种方法来生成这些聚类的可理解描述。混合数据使我无法想到一些用于评估的硬编码指标反倾销

所以,我的问题是: 我想找到一些模式,这些词的一些特征,这些特征使它们属于一个特定的集群。我不知道我是否有任何意义,但有些人已经设法找到了一些模式(例如词尾,细长的物体往往是男性的等等)我相信ML/AI可以在这方面做得更好。我能做这样的事情吗

一些个人想法 当我在做一些研究(也许是天真的)时,我意识到潜在的选择是和。而且,我在想我是否可以只刮几张图片(比如5张)对于每个单词,尝试运行一些图像分类,并查看中间NN,以查看是否有任何特定形状支持特定的对象性别。此外,我想知道从google n-gram查看器中抓取这些单词的数据是否有帮助。我想不出一种使用NLP或其子域的方法

备选方案如果我刚才写的一切听起来都很荒谬,请建议我用Python对我的数据帧进行可视化表示(更像是节点和路径,节点上有图像,每个集群一个),这样我就可以制作图形思维导图,并试着把它们牢记在心


最终目的是让学习德语变得更简单对我自己,也可能对其他人来说

我知道你已经将此贴到了语言学上。在Stackiverse中,任何时候只有一份你的问题被认为是礼貌的。你应该删除此版本。嘿!我很抱歉。我没有意识到这一点。我是只是确保人们能真正看到它。我只是希望数据科学的人们能有一个观点。我看到你把这个贴到了语言学上。在Stackiverse中,任何时候只有一个问题的副本被认为是礼貌的。你应该删除这个版本。嘿!我很抱歉。我没有意识到这一点我只是想确保人们能真正看到它。我只是希望数据科学界的人们能有一个观点。