Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/336.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 两个数据之间的相关性_Python_Pandas_Correlation - Fatal编程技术网

Python 两个数据之间的相关性

Python 两个数据之间的相关性,python,pandas,correlation,Python,Pandas,Correlation,我想找出这两个术语之间的相关性; 滥用评论的概率和每篇文章的评论数 其中,滥用评论的概率为每篇文章的滥用评论/每篇文章的总评论 我的数据包含instagram所有50位用户的帖子及其评论 因此,我使用.corr方法Pearson相关性: 这两个术语都不是我专栏的一部分。 所以我计算了每个用户的每个帖子的概率。我将为我的新表使用corr方法。 我无法验证这种寻找相关性的方法是否正确 我将使用以下代码: data = df[['Probability of abusive comments','Nu

我想找出这两个术语之间的相关性; 滥用评论的概率和每篇文章的评论数 其中,滥用评论的概率为每篇文章的滥用评论/每篇文章的总评论

我的数据包含instagram所有50位用户的帖子及其评论

因此,我使用.corr方法Pearson相关性: 这两个术语都不是我专栏的一部分。 所以我计算了每个用户的每个帖子的概率。我将为我的新表使用corr方法。 我无法验证这种寻找相关性的方法是否正确

我将使用以下代码:

data = df[['Probability of abusive comments','Number of comments']]

correlation = data.corr(method='pearson')

如果不查看示例输入数据,要理解您所追求的是什么就有点棘手了。但以下内容应能适应您的数据:

import pandas as pd

d = ({
    'X' :    [1,4,5,6],
    'Y' :    [2,5,5,5],
})

df = pd.DataFrame(data=d)

correlation = df['X'].corr(df['Y'])
print(correlation) 

0.925820099773

因此,在这变得可行之前,您需要完成一些事情。总的来说,您需要转换为数字数据。评论的数量应该足够简单。只需计算每个帖子的评论数。辱骂性的评论可能有点棘手。你首先要确定什么是虐待,什么不是虐待。这将是任意的,但只要你与分类保持一致,你就能够量化你的问题。