Statistics 非iid数据示例_Statistics_Machine Learning_Probability Theory

Statistics 非iid数据示例

statistics machine-learning

Statistics 非iid数据示例,statistics,machine-learning,probability-theory,Statistics,Machine Learning,Probability Theory,我读过一些关于非iid数据的论文。基于维基百科，我知道什么是iid（独立且相同的分布式）数据，但我仍然对非iid感到困惑。我做了一些研究，但没有找到一个明确的定义和例子。有人能帮我吗？来自维基百科iid： “独立且同分布”意味着序列中的一个元素独立于它之前的随机变量。这样，IID序列不同于马尔可夫序列，其中第n个随机变量的概率分布是序列中先前随机变量的函数（对于一阶马尔可夫序列）作为一个简单的合成示例，假设您有一个具有6个面的特殊骰子。如果上次的面值为1，下次抛出时，仍然会得到面值为1的概率为

我读过一些关于非iid数据的论文。基于维基百科，我知道什么是iid（独立且相同的分布式）数据，但我仍然对非iid感到困惑。我做了一些研究，但没有找到一个明确的定义和例子。有人能帮我吗？

来自维基百科

iid

：

“独立且同分布”意味着序列中的一个元素独立于它之前的随机变量。这样，IID序列不同于马尔可夫序列，其中第n个随机变量的概率分布是序列中先前随机变量的函数（对于一阶马尔可夫序列）

作为一个简单的合成示例，假设您有一个具有6个面的特殊骰子。如果上次的面值为1，下次抛出时，仍然会得到面值为1的概率为0.5，以及面值为2,3,4,5,6的概率为0.1。但是，如果上次面值不是1，则每个面的概率相等。例如：

p(face(0) = k) = 1/6, k = 1,2,3,4,5,6  -- > initial probability at time 0. 
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.

这是一个例子，当第n个随机变量（第n次抛出的结果）的概率分布是序列中前一个随机变量的函数时

我在一些机器学习场景中看到了不相同和不独立（例如，马尔可夫）的数据，可以将其视为非iid示例

当传入示例的分布随时间变化时，使用流式数据进行在线学习：示例的分布不相同。假设您有一个用于预测在线广告点击率的学习模块，那么来自用户的查询词的分布在一年中会根据季节趋势发生变化。夏季和圣诞节的查询词应具有不同的分布
主动学习，学习者要求特定数据的标签：也违反了独立性假设
使用图形模型学习/进行推理。变量通过依赖关系连接

以一种非常曲折的方式（因为我假设您已经阅读了技术定义），I.I.d.意味着如果您有一组值，那么这些值的所有排列都具有相同的概率。所以如果我有

3,6,7

，那么这个概率等于

7,6,3

等于

6,7,3

等的概率。也就是说，每个值都不依赖于序列中的其他值

作为反例，想象序列

，其中每个元素

x_i

比前一个元素高一个或低一个，发生这些情况的概率为50-50。然后一个可能的序列是

1,2,3,2,3,4,3,2

。应该清楚的是，该序列的某些排列不是等概率的：特别是，以

1,4，…

开头的序列的概率为零。如果你愿意的话，你可以考虑将表格对<代码> xi ixxi-1为IID。

< P>字面上，<代码>非IID<代码>应该与“代码> IID < /代码>相反，无论是哪种方式，<代码>独立< <代码>或<代码>相同< <代码> >p> 例如，如果一枚硬币被翻转，让

是结果为尾部的事件的随机变量，

是结果为头部的事件的随机变量，那么

和

肯定是相关的。它们可以由对方决定

对于不相同的，一旦两个随机变量的分布不相同，就可以称之为不相同

因此，任何一种情况都可能发生，您可能会得到一个非iid的例子。

下面是一个非独立问题的例子。问题定义：假设您有一个二维图像，其中有一个水滴。您希望构建一个面片分类器，该分类器使用5X5图像面片作为输入，并将中心像素分类为“边界”或“非边界”。您的要求是每个面片的最终分类定义一个连续轮廓（一个像素厚），精确跟踪斑点的边界。本质上是一个边缘检测器。还假设仅将边界错位几个像素的轻微错误并不重要，但边界轮廓的连续性确实重要（它不应该有任何中断）

这是如何不独立的：示例1：假设您有一个好的解决方案轮廓a。另一个有效的解决方案B，它只是向右移动了2个像素，请注意，像素级别的大多数分类是不同的，但解决方案仍然有效。示例2：假设您得到了有效的解决方案A，但只有一个输出像素右移了2个像素以创建输出C。这一次，您的轮廓被破坏，解决方案无效。这说明了分类器如何需要知道其他邻近像素示例的答案，以确定是否应将特定像素分类为边界。

“iid”实际上不是真实数据的属性，而是观察者对该数据的一种假设。如果您替换所有提及的greeness回答中的“iid数据”和“非iid数据”与“假设[…]数据”，那么我完全同意他们

但是，由于问题特别要求提供一个非iid数据的示例，因此必须补充一点，没有此类数据，因为您可以从字面上理解任何数据，并假设它是iid或不是iid。这种假设只是选项的一个有用限制，使统计建模更容易，甚至在许多情况下是可能的。

这一点在文献中并不是很清楚，iid通常被表示为真实世界数据的属性。这是可以理解的，但仍然有点危险，因为它隐含地假设，作为观察者，我们可以确定关于数据来源（即生成过程）的信息