Python 对引理进行词干分析能提供有用的输出吗?

Python 对引理进行词干分析能提供有用的输出吗?,python,nlp,nltk,stemming,lemmatization,Python,Nlp,Nltk,Stemming,Lemmatization,我目前正在使用一种神经网络模型,该模型将单词和短语作为单词包样式模型中的特征(即,根据输入数据中是否出现单词或短语,用1和0填充的向量) 为了清理一些单词并减少将输入到模型中的独特单词或短语的数量,我和一位同事在nltk python模块中使用词干分析和柠檬化。经过我的思考,这似乎没有什么意义,但是阻止引理似乎最大程度地减少了唯一输入的数量,所以我们使用它 我的问题是,阻止引理是有害的吗?这会损害结果吗?这样做有意义吗 我在任何地方都没有发现有人问这样的问题,所以我认为这根本没有意义。我不确定你

我目前正在使用一种神经网络模型,该模型将单词和短语作为单词包样式模型中的特征(即,根据输入数据中是否出现单词或短语,用1和0填充的向量)

为了清理一些单词并减少将输入到模型中的独特单词或短语的数量,我和一位同事在nltk python模块中使用词干分析和柠檬化。经过我的思考,这似乎没有什么意义,但是阻止引理似乎最大程度地减少了唯一输入的数量,所以我们使用它

我的问题是,阻止引理是有害的吗?这会损害结果吗?这样做有意义吗


我在任何地方都没有发现有人问这样的问题,所以我认为这根本没有意义。

我不确定你所说的词干引理是什么意思?茎通常是一个非感官根,类似于
PorterStemmer()。茎('maximum')=maxim
。然而,lemmatization使用pos参数更为精确:
WordNetLemmatizer()。lemmatize(“studing”,pos=“v”)=study
。现在你怎样才能阻止学习;没有检查,但它可能会给出studi。您是对的,对study(study)引理进行词干运算会返回stem studi。这基本上就是对模型的数据所做的。我在问,这样做会伤害到结果吗?我知道这两种方法可以获得相似的结果,柠檬化是更好的选择。但就结果而言,这两种做法的结果是什么?(在一般意义上,我不希望人们告诉我它将如何影响我的特定模型)我看不到任何语言使用。你试过把词干柠檬化吗?我想不出有什么语言上的用途,但在这种情况下,独特的单词数量减少了。这一定会有效果吧?对词干进行柠檬化通常不起作用,因为词干通常是非单词,柠檬化者无法找到非单词的引理,而只是返回原始的非单词。好了。所以,我认为引理化是有意义的,因为你可以指出词性标记是什么,并得到更好的结果。我不确定你所说的词干引理是什么意思?茎通常是一个非感官根,类似于
PorterStemmer()。茎('maximum')=maxim
。然而,lemmatization使用pos参数更为精确:
WordNetLemmatizer()。lemmatize(“studing”,pos=“v”)=study
。现在你怎样才能阻止学习;没有检查,但它可能会给出studi。您是对的,对study(study)引理进行词干运算会返回stem studi。这基本上就是对模型的数据所做的。我在问,这样做会伤害到结果吗?我知道这两种方法可以获得相似的结果,柠檬化是更好的选择。但就结果而言,这两种做法的结果是什么?(在一般意义上,我不希望人们告诉我它将如何影响我的特定模型)我看不到任何语言使用。你试过把词干柠檬化吗?我想不出有什么语言上的用途,但在这种情况下,独特的单词数量减少了。这一定会有效果吧?对词干进行柠檬化通常不起作用,因为词干通常是非单词,柠檬化者无法找到非单词的引理,而只是返回原始的非单词。好了。所以,我认为柠檬化是有意义的,因为你可以指出pos标签是什么,并得到更好的结果。