Python 两个数据之间的相关性
我想找出这两个术语之间的相关性; 滥用评论的概率和每篇文章的评论数 其中,滥用评论的概率为每篇文章的滥用评论/每篇文章的总评论 我的数据包含instagram所有50位用户的帖子及其评论 因此,我使用.corr方法Pearson相关性: 这两个术语都不是我专栏的一部分。 所以我计算了每个用户的每个帖子的概率。我将为我的新表使用corr方法。 我无法验证这种寻找相关性的方法是否正确 我将使用以下代码:Python 两个数据之间的相关性,python,pandas,correlation,Python,Pandas,Correlation,我想找出这两个术语之间的相关性; 滥用评论的概率和每篇文章的评论数 其中,滥用评论的概率为每篇文章的滥用评论/每篇文章的总评论 我的数据包含instagram所有50位用户的帖子及其评论 因此,我使用.corr方法Pearson相关性: 这两个术语都不是我专栏的一部分。 所以我计算了每个用户的每个帖子的概率。我将为我的新表使用corr方法。 我无法验证这种寻找相关性的方法是否正确 我将使用以下代码: data = df[['Probability of abusive comments','Nu
data = df[['Probability of abusive comments','Number of comments']]
correlation = data.corr(method='pearson')
如果不查看示例输入数据,要理解您所追求的是什么就有点棘手了。但以下内容应能适应您的数据:
import pandas as pd
d = ({
'X' : [1,4,5,6],
'Y' : [2,5,5,5],
})
df = pd.DataFrame(data=d)
correlation = df['X'].corr(df['Y'])
print(correlation)
0.925820099773
因此,在这变得可行之前,您需要完成一些事情。总的来说,您需要转换为数字数据。评论的数量应该足够简单。只需计算每个帖子的评论数。辱骂性的评论可能有点棘手。你首先要确定什么是虐待,什么不是虐待。这将是任意的,但只要你与分类保持一致,你就能够量化你的问题。