Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 3.x NLP结构问题(进行特征提取的最佳方法)_Python 3.x_Pandas_Nlp_Jupyter Notebook_Spacy - Fatal编程技术网

Python 3.x NLP结构问题(进行特征提取的最佳方法)

Python 3.x NLP结构问题(进行特征提取的最佳方法),python-3.x,pandas,nlp,jupyter-notebook,spacy,Python 3.x,Pandas,Nlp,Jupyter Notebook,Spacy,我正在建立一个NLP管道,我正试图让我的头周围的最佳结构。我目前的理解如下: 步骤1-文本预处理[a.小写,b.停止字删除,c.词干分析,d.柠檬化,] 步骤2-特征提取 步骤3-分类-使用不同类型的分类器SVC等 从我在线阅读的内容来看,关于特征提取有几种方法,但没有一个可靠的示例/答案 A.是否有可靠的特征提取策略? 我在网上看到你可以做[a.使用ScikitLearn进行矢量化b.TF-IDF] 但我也读到,您可以使用词性或word2Vec或其他嵌入和名称实体识别。 B使用这些产品的最佳流

我正在建立一个NLP管道,我正试图让我的头周围的最佳结构。我目前的理解如下:

步骤1-文本预处理[a.小写,b.停止字删除,c.词干分析,d.柠檬化,] 步骤2-特征提取 步骤3-分类-使用不同类型的分类器SVC等 从我在线阅读的内容来看,关于特征提取有几种方法,但没有一个可靠的示例/答案

A.是否有可靠的特征提取策略? 我在网上看到你可以做[a.使用ScikitLearn进行矢量化b.TF-IDF] 但我也读到,您可以使用词性或word2Vec或其他嵌入和名称实体识别。 B使用这些产品的最佳流程/结构是什么? C在文本预处理方面,我正在对df上的文本列进行处理,最后修改的版本是我在分类器中用作输入的内容。如果进行特征提取,是在同一列中进行,还是创建一个新列,然后只将该列中的特征发送给分类器?
非常感谢您,预处理管道主要取决于您试图解决的问题。TF-IDF、单词嵌入等的使用有其自身的限制和优势

您需要了解问题以及与之相关的数据。为了充分利用数据,我们需要实现适当的管道

特别是对于与文本相关的问题,您会发现单词嵌入非常有用。当需要解决问题时,TF-IDF非常有用,它强调单词的频率较低。另一方面,单词嵌入将文本转换为一个N维向量,该向量可能显示出与其他向量的相似性。这可以在数据中带来关联感,并且模型可以学习尽可能好的特性

在简单的情况下,我们可以使用一包单词表示来标记文本


因此,您需要找到解决问题的最佳方法。如果你正在解决一个与著名的NLP问题非常相似的问题,如IMDB评论分类、Twitter数据情绪分析,那么你可以在互联网上找到许多方法。

非常感谢你的回答。我试图构建一个分类器来理解语义。关于嵌入这个词,你有什么文章可以推荐吗?