Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/git/24.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Sk学习计数矢量器:将表情保持为文字_Python_Scikit Learn_Nlp_Countvectorizer - Fatal编程技术网

Python Sk学习计数矢量器:将表情保持为文字

Python Sk学习计数矢量器:将表情保持为文字,python,scikit-learn,nlp,countvectorizer,Python,Scikit Learn,Nlp,Countvectorizer,我在字符串上使用Sk LearnCountVectorizer,但是CountVectorizer会丢弃文本中的所有表情 例如,尝试使用参数countvectorier(analyzer='char',binary=True) 文档中说:“token_模式:表示什么构成“token”的正则表达式,仅在analyzer=='word'时使用”参见 另请参见本笔记本:此外,还有一种可以将表情/表情符号直接转换为文字的方法 导入emot >>>text=“我喜欢python是的,你说得对!标记模式必须

我在字符串上使用Sk Learn
CountVectorizer
,但是
CountVectorizer
会丢弃文本中的所有表情


例如,
尝试使用参数
countvectorier(analyzer='char',binary=True)

文档中说:“token_模式:表示什么构成“token”的正则表达式,仅在analyzer=='word'时使用”参见

另请参见本笔记本:

此外,还有一种可以将表情/表情符号直接转换为文字的方法

导入emot

>>>text=“我喜欢python是的,你说得对!
标记模式必须更改。我们可以将其设置为除空格以外的任何字符,而不仅仅是字母数字字符

试试这个

从sklearn.feature\u extraction.text导入TfidfVectorizer
s=['