Input 原始数据源

Input 原始数据源,input,Input,有没有我可以免费使用的真实原始数据来源 我不在乎这些数据是用来干什么的,只要有很多 数量越多(范围越广)越好: //编辑以添加--文本数据、二进制数据、图像,不管它是什么。不过,关于该机型的说明还是不错的。联邦航空局在线发布了其飞机注册数据库。这包含成百上千条记录。两个警告。这些地址是美国的(这可能不会打扰你),而受访者将个人与公司混为一谈(可能会)。尽管如此,它还是一个具有内置应用程序逻辑的体面数据源 从下载。查看 我还看到一些人通过Twitter的API从Twitter上提取大量数据。现在找

有没有我可以免费使用的真实原始数据来源

我不在乎这些数据是用来干什么的,只要有很多

数量越多(范围越广)越好:


//编辑以添加--文本数据、二进制数据、图像,不管它是什么。不过,关于该机型的说明还是不错的。

联邦航空局在线发布了其飞机注册数据库。这包含成百上千条记录。两个警告。这些地址是美国的(这可能不会打扰你),而受访者将个人与公司混为一谈(可能会)。尽管如此,它还是一个具有内置应用程序逻辑的体面数据源

从下载。

查看


我还看到一些人通过Twitter的API从Twitter上提取大量数据。现在找不到链接,虽然…

相当大;它们包含数百万颗恒星的信息,通常是文本表格格式。大多数都是免费提供的。

如果你不关心类型或内容,为什么不随机生成它呢?如果我们想在演示或培训课程中使用一些数据,如果这些数据对人类有意义就好了。随机生成外键之类的东西也非常困难。当我们有一组已经内置了键的数据时,生活就容易多了。我目前正在开发一个数据生成器产品,它可以生成外键和多对多表——这并不难。生成器将是FOSS,大约一周后就可以发布了。@Neil Butterworth:这在某种程度上取决于数据的用途。例如,如果您正在为遗传算法制作训练集,或测试马尔可夫链或其他趋势发现程序,那么如果数据中存在一些相关性,这将非常有用。一个真正的随机数据集与现实世界中生成的大多数数据具有完全不同的统计特性。我正在使用的生成器允许您扭曲数据以满足现实世界的标准。例如,您可以指定希望名称表包含30%的女性和70%的男性名称。该链接不再工作:-(