Statistics 非iid数据示例

Statistics 非iid数据示例,statistics,machine-learning,probability-theory,Statistics,Machine Learning,Probability Theory,我读过一些关于非iid数据的论文。基于维基百科,我知道什么是iid(独立且相同的分布式)数据,但我仍然对非iid感到困惑。我做了一些研究,但没有找到一个明确的定义和例子。有人能帮我吗?来自维基百科iid: “独立且同分布”意味着序列中的一个元素独立于它之前的随机变量。这样,IID序列不同于马尔可夫序列,其中第n个随机变量的概率分布是序列中先前随机变量的函数(对于一阶马尔可夫序列) 作为一个简单的合成示例,假设您有一个具有6个面的特殊骰子。如果上次的面值为1,下次抛出时,仍然会得到面值为1的概率为

我读过一些关于非iid数据的论文。基于维基百科,我知道什么是iid(独立且相同的分布式)数据,但我仍然对非iid感到困惑。我做了一些研究,但没有找到一个明确的定义和例子。有人能帮我吗?

来自维基百科
iid

“独立且同分布”意味着序列中的一个元素独立于它之前的随机变量。这样,IID序列不同于马尔可夫序列,其中第n个随机变量的概率分布是序列中先前随机变量的函数(对于一阶马尔可夫序列)

作为一个简单的合成示例,假设您有一个具有6个面的特殊骰子。如果上次的面值为1,下次抛出时,仍然会得到面值为1的概率为0.5,以及面值为2,3,4,5,6的概率为0.1。但是,如果上次面值不是1,则每个面的概率相等。例如:

p(face(0) = k) = 1/6, k = 1,2,3,4,5,6  -- > initial probability at time 0. 
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.
这是一个例子,当第n个随机变量(第n次抛出的结果)的概率分布是序列中前一个随机变量的函数时

我在一些机器学习场景中看到了不相同和不独立(例如,马尔可夫)的数据,可以将其视为非iid示例

  • 当传入示例的分布随时间变化时,使用流式数据进行在线学习:示例的分布不相同。假设您有一个用于预测在线广告点击率的学习模块,那么来自用户的查询词的分布在一年中会根据季节趋势发生变化。夏季和圣诞节的查询词应具有不同的分布

  • 主动学习,学习者要求特定数据的标签:也违反了独立性假设

  • 使用图形模型学习/进行推理。变量通过依赖关系连接

以一种非常曲折的方式(因为我假设您已经阅读了技术定义),I.I.d.意味着如果您有一组值,那么这些值的所有排列都具有相同的概率。所以如果我有
3,6,7
,那么这个概率等于
7,6,3
等于
6,7,3
等的概率。也就是说,每个值都不依赖于序列中的其他值


作为反例,想象序列
x
,其中每个元素
x_i
比前一个元素高一个或低一个,发生这些情况的概率为50-50。然后一个可能的序列是
1,2,3,2,3,4,3,2
。应该清楚的是,该序列的某些排列不是等概率的:特别是,以
1,4,…
开头的序列的概率为零。如果你愿意的话,你可以考虑将表格对<代码> xi ixxi-1为IID。

< P>字面上,<代码>非IID<代码>应该与“代码> IID < /代码>相反,无论是哪种方式,<代码>独立< <代码>或<代码>相同< <代码> >p> 例如,如果一枚硬币被翻转,让
X
是结果为尾部的事件的随机变量,
Y
是结果为头部的事件的随机变量,那么
X
Y
肯定是相关的。它们可以由对方决定

对于不相同的,一旦两个随机变量的分布不相同,就可以称之为不相同


因此,任何一种情况都可能发生,您可能会得到一个非iid的例子。

下面是一个非独立问题的例子。问题定义: 假设您有一个二维图像,其中有一个水滴。您希望构建一个面片分类器,该分类器使用5X5图像面片作为输入,并将中心像素分类为“边界”或“非边界”。您的要求是每个面片的最终分类定义一个连续轮廓(一个像素厚),精确跟踪斑点的边界。本质上是一个边缘检测器。还假设仅将边界错位几个像素的轻微错误并不重要,但边界轮廓的连续性确实重要(它不应该有任何中断)

这是如何不独立的: 示例1:假设您有一个好的解决方案轮廓a。另一个有效的解决方案B,它只是向右移动了2个像素,请注意,像素级别的大多数分类是不同的,但解决方案仍然有效。 示例2:假设您得到了有效的解决方案A,但只有一个输出像素右移了2个像素以创建输出C。这一次,您的轮廓被破坏,解决方案无效。这说明了分类器如何需要知道其他邻近像素示例的答案,以确定是否应将特定像素分类为边界。

“iid”实际上不是真实数据的属性,而是观察者对该数据的一种假设。如果您替换所有提及的greeness回答中的“iid数据”和“非iid数据”与“假设[…]数据”,那么我完全同意他们

但是,由于问题特别要求提供一个非iid数据的示例,因此必须补充一点,没有此类数据,因为您可以从字面上理解任何数据,并假设它是iid或不是iid。这种假设只是选项的一个有用限制,使统计建模更容易,甚至在许多情况下是可能的。

这一点在文献中并不是很清楚,iid通常被表示为真实世界数据的属性。这是可以理解的,但仍然有点危险,因为它隐含地假设,作为观察者,我们可以确定关于数据来源(即生成过程)的信息