Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/290.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 情绪分析中缺失值的处理_Python_Pandas_Nlp - Fatal编程技术网

Python 情绪分析中缺失值的处理

Python 情绪分析中缺失值的处理,python,pandas,nlp,Python,Pandas,Nlp,我有一个中等大小的加密评论数据集及其相应的标签,可以是肯定的,也可以是否定的。我想知道,如果缺少评论的比率为1%,最好的方法是什么。下面是应用广泛的数据清理步骤后的数据集示例 df=pd.DataFrame({'comments':['xxy uuicz', '', 'jiko bhht'], 'label':['positive', 'negative', 'negative']}) 我正在使用Gensim(preprocess_string)并通过构建自定义的停止字列表来删除停止字。目标

我有一个中等大小的加密评论数据集及其相应的标签,可以是肯定的,也可以是否定的。我想知道,如果缺少评论的比率为1%,最好的方法是什么。下面是应用广泛的数据清理步骤后的数据集示例

df=pd.DataFrame({'comments':['xxy uuicz', '', 'jiko bhht'], 'label':['positive', 'negative', 'negative']})


我正在使用Gensim(preprocess_string)并通过构建自定义的停止字列表来删除停止字。目标是使分类器适合预测任何给定加密评论的情绪

您需要更具体地说明您正在做什么,使用什么库,以及您的目标是什么。没有这一点,没有人能给你一个实际的答案,最多只能给出他们的意见,这不是StackOverflow的目的。我真的不认为你有很多选择。如果无法以某种方式重建丢失的注释,则必须从模型中删除所有丢失的注释实例,或者(可能是更可取的方法),将它们映射到下游建模的两个虚拟“空(正)”和“空(负)”变量。如果情绪标签中单独包含任何剩余信息,则后一种情况可能更好。但是,如果您只是试图创建一个映射输入单词->输出情绪的模型,那么您可以删除缺少的实例。删除观察结果。您无法从您的输入/功能中获得任何信息来帮助您运行情绪分析。@Nicolas Gervais这种方法的问题是在生产中可能不可取。