Python 3.x NLP结构问题(进行特征提取的最佳方法)
我正在建立一个NLP管道,我正试图让我的头周围的最佳结构。我目前的理解如下: 步骤1-文本预处理[a.小写,b.停止字删除,c.词干分析,d.柠檬化,] 步骤2-特征提取 步骤3-分类-使用不同类型的分类器SVC等 从我在线阅读的内容来看,关于特征提取有几种方法,但没有一个可靠的示例/答案 A.是否有可靠的特征提取策略? 我在网上看到你可以做[a.使用ScikitLearn进行矢量化b.TF-IDF] 但我也读到,您可以使用词性或word2Vec或其他嵌入和名称实体识别。 B使用这些产品的最佳流程/结构是什么? C在文本预处理方面,我正在对df上的文本列进行处理,最后修改的版本是我在分类器中用作输入的内容。如果进行特征提取,是在同一列中进行,还是创建一个新列,然后只将该列中的特征发送给分类器?Python 3.x NLP结构问题(进行特征提取的最佳方法),python-3.x,pandas,nlp,jupyter-notebook,spacy,Python 3.x,Pandas,Nlp,Jupyter Notebook,Spacy,我正在建立一个NLP管道,我正试图让我的头周围的最佳结构。我目前的理解如下: 步骤1-文本预处理[a.小写,b.停止字删除,c.词干分析,d.柠檬化,] 步骤2-特征提取 步骤3-分类-使用不同类型的分类器SVC等 从我在线阅读的内容来看,关于特征提取有几种方法,但没有一个可靠的示例/答案 A.是否有可靠的特征提取策略? 我在网上看到你可以做[a.使用ScikitLearn进行矢量化b.TF-IDF] 但我也读到,您可以使用词性或word2Vec或其他嵌入和名称实体识别。 B使用这些产品的最佳流
非常感谢您,预处理管道主要取决于您试图解决的问题。TF-IDF、单词嵌入等的使用有其自身的限制和优势 您需要了解问题以及与之相关的数据。为了充分利用数据,我们需要实现适当的管道 特别是对于与文本相关的问题,您会发现单词嵌入非常有用。当需要解决问题时,TF-IDF非常有用,它强调单词的频率较低。另一方面,单词嵌入将文本转换为一个N维向量,该向量可能显示出与其他向量的相似性。这可以在数据中带来关联感,并且模型可以学习尽可能好的特性 在简单的情况下,我们可以使用一包单词表示来标记文本
因此,您需要找到解决问题的最佳方法。如果你正在解决一个与著名的NLP问题非常相似的问题,如IMDB评论分类、Twitter数据情绪分析,那么你可以在互联网上找到许多方法。非常感谢你的回答。我试图构建一个分类器来理解语义。关于嵌入这个词,你有什么文章可以推荐吗?