机器学习数据结构输入的最佳实践我正在为我自己的一些工作开发一个C++机器学习库，我对输入数据的最佳实践感到好奇。现在，我正在考虑使用一个DataManager类来处理从文件、流等中读取数据的I/O操作。在开发过程中，我意识到还需要创建类来管理要素标签（与输入数据关联）和类标签（在训练数据的情况下）_C++_Artificial Intelligence_Machine Learning

机器学习数据结构输入的最佳实践我正在为我自己的一些工作开发一个C++机器学习库，我对输入数据的最佳实践感到好奇。现在，我正在考虑使用一个DataManager类来处理从文件、流等中读取数据的I/O操作。在开发过程中，我意识到还需要创建类来管理要素标签（与输入数据关联）和类标签（在训练数据的情况下）

c++ artificial-intelligence machine-learning

机器学习数据结构输入的最佳实践我正在为我自己的一些工作开发一个C++机器学习库，我对输入数据的最佳实践感到好奇。现在，我正在考虑使用一个DataManager类来处理从文件、流等中读取数据的I/O操作。在开发过程中，我意识到还需要创建类来管理要素标签（与输入数据关联）和类标签（在训练数据的情况下）,c++,artificial-intelligence,machine-learning,C++,Artificial Intelligence,Machine Learning,因此，我的实现有一个类，该类将数据从文件（我使用的是UCI机器学习存储库）读取到boost:：variant对象中。DataManager类重载运算符>>，以便我可以从提供的行中读取每个逗号分隔的特征值；如果特征值为“？”，则输入结构t_missing{} 对于类/功能管理器，我认为维护功能/类名的链接列表以及每个功能/类名中的实例数是合适的无论如何，这只是我对这门课的最初想法，我很想听听关于实现的其他想法/建议。不需要显示代码；我主要是想听听我应该考虑的其他事情。谢谢一些学习问题是关于稀

因此，我的实现有一个类，该类将数据从文件（我使用的是UCI机器学习存储库）读取到boost:：variant对象中。DataManager类重载运算符>>，以便我可以从提供的行中读取每个逗号分隔的特征值；如果特征值为“？”，则输入结构t_missing{}

对于类/功能管理器，我认为维护功能/类名的链接列表以及每个功能/类名中的实例数是合适的

无论如何，这只是我对这门课的最初想法，我很想听听关于实现的其他想法/建议。不需要显示代码；我主要是想听听我应该考虑的其他事情。

谢谢

一些学习问题是关于稀疏数据的，即具有大量可能特征的数据，其中大多数特征为零。在这种情况下，只存储非零特征更有效

这通常是SVM库的情况，例如，它将向量存储为（特征索引、特征值）对的列表。例如，他们将用于向量的格式：

 [0, 1, 0, 0, 1, 0, 0, 1]

将是：（索引从1开始）

 2:1 5:1 8:1