Python 对引理进行词干分析能提供有用的输出吗？_Python_Nlp_Nltk_Stemming_Lemmatization

Python 对引理进行词干分析能提供有用的输出吗？

python nlp

Python 对引理进行词干分析能提供有用的输出吗？,python,nlp,nltk,stemming,lemmatization,Python,Nlp,Nltk,Stemming,Lemmatization,我目前正在使用一种神经网络模型，该模型将单词和短语作为单词包样式模型中的特征（即，根据输入数据中是否出现单词或短语，用1和0填充的向量）为了清理一些单词并减少将输入到模型中的独特单词或短语的数量，我和一位同事在nltk python模块中使用词干分析和柠檬化。经过我的思考，这似乎没有什么意义，但是阻止引理似乎最大程度地减少了唯一输入的数量，所以我们使用它我的问题是，阻止引理是有害的吗？这会损害结果吗？这样做有意义吗我在任何地方都没有发现有人问这样的问题，所以我认为这根本没有意义。我不确定你

我目前正在使用一种神经网络模型，该模型将单词和短语作为单词包样式模型中的特征（即，根据输入数据中是否出现单词或短语，用1和0填充的向量）

为了清理一些单词并减少将输入到模型中的独特单词或短语的数量，我和一位同事在nltk python模块中使用词干分析和柠檬化。经过我的思考，这似乎没有什么意义，但是阻止引理似乎最大程度地减少了唯一输入的数量，所以我们使用它

我的问题是，阻止引理是有害的吗？这会损害结果吗？这样做有意义吗

我在任何地方都没有发现有人问这样的问题，所以我认为这根本没有意义。

我不确定你所说的词干引理是什么意思？茎通常是一个非感官根，类似于

PorterStemmer（）。茎（'maximum'）=maxim

。然而，lemmatization使用pos参数更为精确：

WordNetLemmatizer（）。lemmatize（“studing”，pos=“v”）=study

。现在你怎样才能阻止学习；没有检查，但它可能会给出studi。您是对的，对study（study）引理进行词干运算会返回stem studi。这基本上就是对模型的数据所做的。我在问，这样做会伤害到结果吗？我知道这两种方法可以获得相似的结果，柠檬化是更好的选择。但就结果而言，这两种做法的结果是什么？（在一般意义上，我不希望人们告诉我它将如何影响我的特定模型）我看不到任何语言使用。你试过把词干柠檬化吗？我想不出有什么语言上的用途，但在这种情况下，独特的单词数量减少了。这一定会有效果吧？对词干进行柠檬化通常不起作用，因为词干通常是非单词，柠檬化者无法找到非单词的引理，而只是返回原始的非单词。好了。所以，我认为引理化是有意义的，因为你可以指出词性标记是什么，并得到更好的结果。我不确定你所说的词干引理是什么意思？茎通常是一个非感官根，类似于

PorterStemmer（）。茎（'maximum'）=maxim

。然而，lemmatization使用pos参数更为精确：

WordNetLemmatizer（）。lemmatize（“studing”，pos=“v”）=study

。现在你怎样才能阻止学习；没有检查，但它可能会给出studi。您是对的，对study（study）引理进行词干运算会返回stem studi。这基本上就是对模型的数据所做的。我在问，这样做会伤害到结果吗？我知道这两种方法可以获得相似的结果，柠檬化是更好的选择。但就结果而言，这两种做法的结果是什么？（在一般意义上，我不希望人们告诉我它将如何影响我的特定模型）我看不到任何语言使用。你试过把词干柠檬化吗？我想不出有什么语言上的用途，但在这种情况下，独特的单词数量减少了。这一定会有效果吧？对词干进行柠檬化通常不起作用，因为词干通常是非单词，柠檬化者无法找到非单词的引理，而只是返回原始的非单词。好了。所以，我认为柠檬化是有意义的，因为你可以指出pos标签是什么，并得到更好的结果。