Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/357.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/mongodb/13.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/wcf/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 数一数词根相同的单词_Python_Mongodb_Algorithm_Data Structures - Fatal编程技术网

Python 数一数词根相同的单词

Python 数一数词根相同的单词,python,mongodb,algorithm,data-structures,Python,Mongodb,Algorithm,Data Structures,假设我有一个WorkBank数据库,其中包含特定语言的单词。比如说俄语。俄语单词因数量和格(主格、宾格等)的不同而有不同的词尾 因此,学生可能: аааа ааа 等等 还有其他一些语言,比如英语,动词可以根据时态(speak、speak、speak等)有不同的形式。 此外,其他语言,如意大利语和法语,其中的单词可能与另一个单词连接: hôtel=酒店 l'hôtel=酒店 鸭 l'anatra=鸭子 我希望将所有单词存储在WorkBank中,但是,我希望将它们链接到其父单词,并区分独特单词和派

假设我有一个WorkBank数据库,其中包含特定语言的单词。比如说俄语。俄语单词因数量和格(主格、宾格等)的不同而有不同的词尾

因此,学生可能:

аааа ааа

等等

还有其他一些语言,比如英语,动词可以根据时态(speak、speak、speak等)有不同的形式。 此外,其他语言,如意大利语和法语,其中的单词可能与另一个单词连接:

hôtel=酒店 l'hôtel=酒店

鸭 l'anatra=鸭子

我希望将所有单词存储在WorkBank中,但是,我希望将它们链接到其父单词,并区分独特单词和派生单词,因此所有形式的Сцццццццццццццц


我知道这是一个非常广泛的问题,我不是在寻求解决办法。如果有人能为我指出正确的方向或任何我可以阅读的文档,我将不胜感激。

您需要执行以下步骤:

  • 为每个单词找到一个引理(要做到这一点,您可以查看
    nltk
    库文档,其中包含示例)
  • 将这些引理翻译成一种语言(如英语),然后根据此翻译对单词进行分组

  • 我强烈建议按照撇号
    拆分单词
    l'hôtel
    实际上是两个词,
    l'
    hôtel
    。仅仅因为这两个词之间没有空格并不意味着它们是一个词。谢谢。我必须读很多书,但你指出了正确的方向。