Python 3.x NLP结构问题（进行特征提取的最佳方法）_Python 3.x_Pandas_Nlp_Jupyter Notebook_Spacy

Python 3.x NLP结构问题（进行特征提取的最佳方法）

python-3.x pandas nlp jupyter-notebook

Python 3.x NLP结构问题（进行特征提取的最佳方法）,python-3.x,pandas,nlp,jupyter-notebook,spacy,Python 3.x,Pandas,Nlp,Jupyter Notebook,Spacy,我正在建立一个NLP管道，我正试图让我的头周围的最佳结构。我目前的理解如下：步骤1-文本预处理[a.小写，b.停止字删除，c.词干分析，d.柠檬化，] 步骤2-特征提取步骤3-分类-使用不同类型的分类器SVC等从我在线阅读的内容来看，关于特征提取有几种方法，但没有一个可靠的示例/答案 A.是否有可靠的特征提取策略？我在网上看到你可以做[a.使用ScikitLearn进行矢量化b.TF-IDF] 但我也读到，您可以使用词性或word2Vec或其他嵌入和名称实体识别。 B使用这些产品的最佳流

我正在建立一个NLP管道，我正试图让我的头周围的最佳结构。我目前的理解如下：

步骤1-文本预处理[a.小写，b.停止字删除，c.词干分析，d.柠檬化，] 步骤2-特征提取步骤3-分类-使用不同类型的分类器SVC等从我在线阅读的内容来看，关于特征提取有几种方法，但没有一个可靠的示例/答案

A.是否有可靠的特征提取策略？我在网上看到你可以做[a.使用ScikitLearn进行矢量化b.TF-IDF] 但我也读到，您可以使用词性或word2Vec或其他嵌入和名称实体识别。 B使用这些产品的最佳流程/结构是什么？ C在文本预处理方面，我正在对df上的文本列进行处理，最后修改的版本是我在分类器中用作输入的内容。如果进行特征提取，是在同一列中进行，还是创建一个新列，然后只将该列中的特征发送给分类器？

非常感谢您，预处理管道主要取决于您试图解决的问题。TF-IDF、单词嵌入等的使用有其自身的限制和优势

您需要了解问题以及与之相关的数据。为了充分利用数据，我们需要实现适当的管道

特别是对于与文本相关的问题，您会发现单词嵌入非常有用。当需要解决问题时，TF-IDF非常有用，它强调单词的频率较低。另一方面，单词嵌入将文本转换为一个N维向量，该向量可能显示出与其他向量的相似性。这可以在数据中带来关联感，并且模型可以学习尽可能好的特性

在简单的情况下，我们可以使用一包单词表示来标记文本

因此，您需要找到解决问题的最佳方法。如果你正在解决一个与著名的NLP问题非常相似的问题，如IMDB评论分类、Twitter数据情绪分析，那么你可以在互联网上找到许多方法。

非常感谢你的回答。我试图构建一个分类器来理解语义。关于嵌入这个词，你有什么文章可以推荐吗？