为机器学习提供数据的替代方法（使用CSV文件除外）_Csv_Machine Learning_Machine Learning Model

为机器学习提供数据的替代方法（使用CSV文件除外）

csv machine-learning

为机器学习提供数据的替代方法（使用CSV文件除外）,csv,machine-learning,machine-learning-model,Csv,Machine Learning,Machine Learning Model,我有一个问题是关于机器学习在现实世界中的应用。这听起来可能很愚蠢，哈哈我自学机器学习已经有一段时间了，大部分练习都是使用csv文件作为数据源（已处理和原始）。我想问一下，除了将csv文件导入机器学习通道/提供数据之外，还有其他方法吗示例：将Facebook/Twitter live feed的数据流实时用于机器学习，而不是收集旧数据并将其存储到CSV文件中。数据源可以是任何内容。通常，它是作为CSV或JSON文件提供的。但是在现实世界中，假设你有一个像Twitter这样的网站，正如你所提到的

我有一个问题是关于机器学习在现实世界中的应用。这听起来可能很愚蠢，哈哈

我自学机器学习已经有一段时间了，大部分练习都是使用csv文件作为数据源（已处理和原始）。我想问一下，除了将csv文件导入机器学习通道/提供数据之外，还有其他方法吗

示例：将Facebook/Twitter live feed的数据流实时用于机器学习，而不是收集旧数据并将其存储到CSV文件中。

数据源可以是任何内容。通常，它是作为CSV或JSON文件提供的。但是在现实世界中，假设你有一个像Twitter这样的网站，正如你所提到的，你将把你的数据存储在一个RationalDB中，比如SQL数据库，对于一些数据，你将把它们放在内存缓存中

您基本上可以利用这两种方法来检索和处理数据。这里的问题是，当你有太多的数据无法放入内存时，你真的不能只查询并处理所有数据，在这种情况下，你将利用一些智能算法来处理数据块

一些数据库（如SQL）的优点在于，它们为您提供了一组函数，您可以在SQL脚本中调用这些函数来高效地计算某些数据。例如，您可以使用

sum（）

函数SQL获取整个表中某个列的总和，该函数允许高效、轻松地处理要放入内存缓存的数据？这是训练数据集吗？假设机器学习的学习模式来自于内存中的训练数据，并对关系数据库中的数据进行预测@不好笑训练数据集是算法将处理以形成预测函数的数据集。处理它可以是分块的，例如从DB中加载100行，处理它们，丢弃它们，然后再加载另100行，或者，通过加载所有行并立即处理它们，在一次运行中处理所有行。你将使用哪一个取决于你的算法，但是你必须考虑这样一个事实，有时你不能查询所有的数据，因为在编程语言中的变量被存储在RAM中。不好笑例如，

批量梯度下降

要求一次处理所有数据，但如果你有一个超大数据集，那么你可能会使用

随机梯度下降

，它将数据分块处理。哇，这对在实际应用中使用训练数据集的解释很好。：）现在我看到了ML如何在现实世界中使用训练数据集。但是测试数据如何，它是如何流入并被ML用来生成预测的呢@不好笑通常，您会有几个数据集，一个是用于检查代码是否正常工作的小样本数据集，一个更大的数据集用于实际训练模型，还有一个用于测试算法准确性的测试数据集。一般来说，有几种机器学习技术，但据我所知，基本上你可以使用你的训练数据集来校准你拥有的函数，这样下次你传递它的参数时，它可以更好地预测。e、 g:培训前误差为70%，培训后误差为5%