Python Sk学习计数矢量器:将表情保持为文字
我在字符串上使用Sk LearnPython Sk学习计数矢量器:将表情保持为文字,python,scikit-learn,nlp,countvectorizer,Python,Scikit Learn,Nlp,Countvectorizer,我在字符串上使用Sk LearnCountVectorizer,但是CountVectorizer会丢弃文本中的所有表情 例如,尝试使用参数countvectorier(analyzer='char',binary=True) 文档中说:“token_模式:表示什么构成“token”的正则表达式,仅在analyzer=='word'时使用”参见 另请参见本笔记本:此外,还有一种可以将表情/表情符号直接转换为文字的方法 导入emot >>>text=“我喜欢python是的,你说得对!标记模式必须
CountVectorizer
,但是CountVectorizer
会丢弃文本中的所有表情
例如,
尝试使用参数countvectorier(analyzer='char',binary=True)
文档中说:“token_模式:表示什么构成“token”的正则表达式,仅在analyzer=='word'时使用”参见
另请参见本笔记本:此外,还有一种可以将表情/表情符号直接转换为文字的方法
导入emot
>>>text=“我喜欢python是的,你说得对!标记模式必须更改。我们可以将其设置为除空格以外的任何字符,而不仅仅是字母数字字符
试试这个
从sklearn.feature\u extraction.text导入TfidfVectorizer
s=['