Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/linux/27.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
为机器学习提供数据的替代方法(使用CSV文件除外)_Csv_Machine Learning_Machine Learning Model - Fatal编程技术网

为机器学习提供数据的替代方法(使用CSV文件除外)

为机器学习提供数据的替代方法(使用CSV文件除外),csv,machine-learning,machine-learning-model,Csv,Machine Learning,Machine Learning Model,我有一个问题是关于机器学习在现实世界中的应用。这听起来可能很愚蠢,哈哈 我自学机器学习已经有一段时间了,大部分练习都是使用csv文件作为数据源(已处理和原始)。我想问一下,除了将csv文件导入机器学习通道/提供数据之外,还有其他方法吗 示例:将Facebook/Twitter live feed的数据流实时用于机器学习,而不是收集旧数据并将其存储到CSV文件中。数据源可以是任何内容。通常,它是作为CSV或JSON文件提供的。但是在现实世界中,假设你有一个像Twitter这样的网站,正如你所提到的

我有一个问题是关于机器学习在现实世界中的应用。这听起来可能很愚蠢,哈哈

我自学机器学习已经有一段时间了,大部分练习都是使用csv文件作为数据源(已处理和原始)。我想问一下,除了将csv文件导入机器学习通道/提供数据之外,还有其他方法吗


示例:将Facebook/Twitter live feed的数据流实时用于机器学习,而不是收集旧数据并将其存储到CSV文件中。

数据源可以是任何内容。通常,它是作为CSV或JSON文件提供的。但是在现实世界中,假设你有一个像Twitter这样的网站,正如你所提到的,你将把你的数据存储在一个RationalDB中,比如SQL数据库,对于一些数据,你将把它们放在内存缓存中

您基本上可以利用这两种方法来检索和处理数据。这里的问题是,当你有太多的数据无法放入内存时,你真的不能只查询并处理所有数据,在这种情况下,你将利用一些智能算法来处理数据块


一些数据库(如SQL)的优点在于,它们为您提供了一组函数,您可以在SQL脚本中调用这些函数来高效地计算某些数据。例如,您可以使用
sum()
函数SQL获取整个表中某个列的总和,该函数允许高效、轻松地处理要放入内存缓存的数据?这是训练数据集吗?假设机器学习的学习模式来自于内存中的训练数据,并对关系数据库中的数据进行预测@不好笑 训练数据集是算法将处理以形成预测函数的数据集。处理它可以是分块的,例如从DB中加载100行,处理它们,丢弃它们,然后再加载另100行,或者,通过加载所有行并立即处理它们,在一次运行中处理所有行。你将使用哪一个取决于你的算法,但是你必须考虑这样一个事实,有时你不能查询所有的数据,因为在编程语言中的变量被存储在RAM中。不好笑 例如,
批量梯度下降
要求一次处理所有数据,但如果你有一个超大数据集,那么你可能会使用
随机梯度下降
,它将数据分块处理。哇,这对在实际应用中使用训练数据集的解释很好。:)现在我看到了ML如何在现实世界中使用训练数据集。但是测试数据如何,它是如何流入并被ML用来生成预测的呢@不好笑 通常,您会有几个数据集,一个是用于检查代码是否正常工作的小样本数据集,一个更大的数据集用于实际训练模型,还有一个用于测试算法准确性的测试数据集。一般来说,有几种机器学习技术,但据我所知,基本上你可以使用你的训练数据集来校准你拥有的函数,这样下次你传递它的参数时,它可以更好地预测。e、 g:培训前误差为70%,培训后误差为5%