Machine learning Mahout-JPA集成。我需要CSV文件吗?

Machine learning Mahout-JPA集成。我需要CSV文件吗?,machine-learning,mahout,recommendation-engine,Machine Learning,Mahout,Recommendation Engine,我有一个使用openJPA的现有数据模型,我正在尝试使用Mahout集成CF系统 原谅我,如果这是个愚蠢的问题,但我刚刚开始研究mahout。正在运行的Mahout正在邮件中,所以我应该很快就能跟上进度 我的问题是如何将mahout与现有jpa模型集成。我是否需要向DataModel类提供CSV文件,或者我是否可以扩展DataModel以直接从现有数据源读取。我意识到从我的数据生成CSV文件并不复杂,但这样做似乎是不必要的中间步骤 我对“大数据集”这个世界很陌生,所以请原谅我的无知。但是大多数使

我有一个使用openJPA的现有数据模型,我正在尝试使用Mahout集成CF系统

原谅我,如果这是个愚蠢的问题,但我刚刚开始研究mahout。正在运行的Mahout正在邮件中,所以我应该很快就能跟上进度

我的问题是如何将mahout与现有jpa模型集成。我是否需要向DataModel类提供CSV文件,或者我是否可以扩展DataModel以直接从现有数据源读取。我意识到从我的数据生成CSV文件并不复杂,但这样做似乎是不必要的中间步骤

我对“大数据集”这个世界很陌生,所以请原谅我的无知。但是大多数使用Mahout的系统都使用CSV数据集吗?不知怎的,这对我来说似乎很奇怪

谢谢

编辑:


因此,我正在阅读亚马逊提供的关于Mahout的预览。似乎可以将mahout接口直接插入数据库,但这样做是以性能为代价的。我迫不及待地想弄到这本书。如果您对此有任何意见或建议,我们将不胜感激。

分布式/Hadoop的内容将来自HDFS、Hbase、Cassandra或您所拥有的内容

非分布式的东西通常从文件中读取,并且有一些钩子可以从数据库/JDBC中读取。源代码并不那么重要,因为推荐模型无论如何都要将其加载到内存中


您可以编写自己的
DataSource
,重用
GenericDataModel
,或者修改另一个实现。

分布式/Hadoop内容将从HDFS、Hbase或Cassandra或您拥有的其他内容中读取

非分布式的东西通常从文件中读取,并且有一些钩子可以从数据库/JDBC中读取。源代码并不那么重要,因为推荐模型无论如何都要将其加载到内存中


您可以编写自己的
DataSource
,重用
GenericDataModel
,或者修改另一个实现。

非常感谢您的帮助,肖恩。迫不及待想看这本书。非常感谢你的帮助,肖恩。迫不及待地想读这本书。