Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/python-3.x/15.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python-总结推文数据帧_Python_Python 3.x_Pandas_Numpy_Sentiment Analysis - Fatal编程技术网

Python-总结推文数据帧

Python-总结推文数据帧,python,python-3.x,pandas,numpy,sentiment-analysis,Python,Python 3.x,Pandas,Numpy,Sentiment Analysis,我正在处理Twitter情绪分析,挖掘特定关键字的推特 我能够存储推文并对其进行处理,产生情感和主观性等 我有一个200个关键字的列表,我在上面提取推文,存储它们并一起处理它们 但是,我需要根据我所有的推文来总结这一点。我已经创建了一个专栏 因为每条推文都可以有多个关键词,所以我认为没有一个干净的方法可以做到这一点。我的解决方案是用关键字创建一个pd.Series,并使用apply循环遍历关键字 假设上面提供的列表在变量关键字中,tweets的DataFrame在df中。我还假设总体情绪得分是最

我正在处理Twitter情绪分析,挖掘特定关键字的推特

我能够存储推文并对其进行处理,产生情感和主观性等

我有一个200个关键字的列表,我在上面提取推文,存储它们并一起处理它们

但是,我需要根据我所有的推文来总结这一点。我已经创建了一个专栏


因为每条推文都可以有多个关键词,所以我认为没有一个干净的方法可以做到这一点。我的解决方案是用关键字创建一个pd.Series,并使用apply循环遍历关键字

假设上面提供的列表在变量关键字中,tweets的DataFrame在df中。我还假设总体情绪得分是最常见的情绪,总体主观情绪是平均值

def summarize(data):
    """
    Extract the statistics for a given sub-dataframe
    """
    return pd.Series({
                      "total_tweets" : len(data)
                      "total_retweets" : data.retweet_count.sum()
                      "total_favorites" : data.favorite_count.sum()
                      "total_comments" : data.reply_count.sum()
                      "overall_sentiment_score" : data.sentiment.mode().loc[0]
                      "overall_subjectivity" : data.subjectivity.mean()
                     })

s = pd.Series(keywords)
res = s.apply(lambda word: summarize(df[df.text.str.contains(word)]))

有两个关键词的tweet在表中算两次吗?总体情绪是什么?这是模式吗?那么,总体的主观性是平均水平吗?@tmrlvi,总体的情绪是按类别或搜索词划分的平均水平,但它不起作用。请检查CSV文件,我在上面的问题中附加了,我在pd.Series中添加了所有逗号,并删除了.loc[0]。但是我得到的是空的、NaNs的和0s的。错误id指向>总体情绪情绪评分:data.interaction.mode.iloc[0],indexer:single positional indexer超出了范围,因为对于某些关键字,它是nan或empty的,所以它抛出了错误。我对您的解决方案做了一些更改,它成功了。谢谢。