机器学习数据结构输入的最佳实践 我正在为我自己的一些工作开发一个C++机器学习库,我对输入数据的最佳实践感到好奇。现在,我正在考虑使用一个DataManager类来处理从文件、流等中读取数据的I/O操作。在开发过程中,我意识到还需要创建类来管理要素标签(与输入数据关联)和类标签(在训练数据的情况下)
因此,我的实现有一个类,该类将数据从文件(我使用的是UCI机器学习存储库)读取到boost::variant对象中。DataManager类重载运算符>>,以便我可以从提供的行中读取每个逗号分隔的特征值;如果特征值为“?”,则输入结构t_missing{} 对于类/功能管理器,我认为维护功能/类名的链接列表以及每个功能/类名中的实例数是合适的 无论如何,这只是我对这门课的最初想法,我很想听听关于实现的其他想法/建议。不需要显示代码;我主要是想听听我应该考虑的其他事情。机器学习数据结构输入的最佳实践 我正在为我自己的一些工作开发一个C++机器学习库,我对输入数据的最佳实践感到好奇。现在,我正在考虑使用一个DataManager类来处理从文件、流等中读取数据的I/O操作。在开发过程中,我意识到还需要创建类来管理要素标签(与输入数据关联)和类标签(在训练数据的情况下),c++,artificial-intelligence,machine-learning,C++,Artificial Intelligence,Machine Learning,因此,我的实现有一个类,该类将数据从文件(我使用的是UCI机器学习存储库)读取到boost::variant对象中。DataManager类重载运算符>>,以便我可以从提供的行中读取每个逗号分隔的特征值;如果特征值为“?”,则输入结构t_missing{} 对于类/功能管理器,我认为维护功能/类名的链接列表以及每个功能/类名中的实例数是合适的 无论如何,这只是我对这门课的最初想法,我很想听听关于实现的其他想法/建议。不需要显示代码;我主要是想听听我应该考虑的其他事情。 谢谢 一些学习问题是关于稀
谢谢 一些学习问题是关于稀疏数据的,即具有大量可能特征的数据,其中大多数特征为零。在这种情况下,只存储非零特征更有效 这通常是SVM库的情况,例如,它将向量存储为(特征索引、特征值)对的列表。例如,他们将用于向量的格式:
[0, 1, 0, 0, 1, 0, 0, 1]
将是:(索引从1开始)
2:1 5:1 8:1