Java 集成Hive和Mahout以供推荐

Java 集成Hive和Mahout以供推荐,java,hadoop,hive,mahout,mahout-recommender,Java,Hadoop,Hive,Mahout,Mahout Recommender,我想在hive中使用mahout,我将从hive中获取数据,并使用数据模型来填充数据和使用mahout进行推荐。这可能吗。因为我看到mahout只为文件工作。1) 如何使用配置单元表将数据加载到mahout?2) 有没有其他方法可以将mahout推荐与hive或其他人一起使用 这里我有一个配置单元jdbc结果,我想在mahout中填充到DataModel。如何填充 我想使用数据库结果,而不是从文件中读取建议。 例如: 蜂巢: 管理员: //从CSV文件创建数据源 File userPrefere

我想在hive中使用mahout,我将从hive中获取数据,并使用数据模型来填充数据和使用mahout进行推荐。这可能吗。因为我看到mahout只为文件工作。1) 如何使用配置单元表将数据加载到mahout?2) 有没有其他方法可以将mahout推荐与hive或其他人一起使用

这里我有一个配置单元jdbc结果,我想在mahout中填充到DataModel。如何填充

我想使用数据库结果,而不是从文件中读取建议。 例如:

蜂巢: 管理员:
//从CSV文件创建数据源
File userPreferencesFile=新文件(“data/dataset1.csv”);

DataModel DataModel=新文件DataModel(userPreferencesFile); UserSimilarity UserSimilarity=新PearsonCorrelationSimilarity(数据模型); UserNeighborhood=newnearestnusernighborhood(2,用户相似性,数据模型); //使用dataModel、UserNeighboration和userSimilarity创建一个通用的基于用户的推荐器 推荐人genericRecommender=新的GenericUserBasedRecommender(数据模型、用户邻居、用户相似性); //为每个用户推荐5个项目 对于(LongPrimitiveIterator iterator=dataModel.GetUserId();iterator.hasNext();) { long userId=iterator.nextLong(); //为用户生成包含5条建议的列表 List ItemRecommends=genericRecommender.recommend(用户ID,5); System.out.format(“用户Id:%d%n”,用户Id); if(itemRecommensions.isEmpty()) {`在这里输入代码 System.out.println(“对此用户没有建议”); } 其他的 { //显示建议列表 对于(RecommendedItem RecommendedItem:ItemRecommendEdItem) { System.out.format(“推荐项Id%d。首选项的强度:%f%n”,recommendedItem.getItemID(),recommendedItem.getValue()); } } }
Mahout版本0.9为JDBC投诉数据库(如MySQL/Oracle/Postgress等)、NoSQL数据库(如MongoDB/HBase/Cassandra)和基于文件系统的数据库(如您所述)提供了数据模型(源数据)

在本版本中,配置单元不是100%SQL标准数据库,数据模型和SQL92JDBCDataModel不适合用于配置单元表,因为JDBC数据库中的SQL语法非常不同

对于第一个问题,您可能希望扩展并重写构造函数,以传入配置单元数据源和配置单元特定的SQL查询,查询首选项、首选项时间、用户、所有用户等,类似于AbstractJDBCDataModel构造函数中提到的查询


对于第二个问题,如果您使用的是非分布式算法(Taste算法),则上述方法适用。如果使用分布式算法,Mahout可以在Hadoop上运行,以获取Hive表支持的HDFS文件。请参阅关于在Hadoop上运行Mahout的说明

DataModel DataModel=new FileDataModel(用户首选项文件);UserSimilarity UserSimilarity=新PearsonCorrelationSimilarity(数据模型);我可以这样做吗正在从配置单元读取数据。。。在上面的示例中,DataModel DataModel=null;while(res.next()){System.out.println(String.valueOf(res.getInt(1))+“\t”+res.getString(2));dataModel=new-GenericDataModel();//如何加载数据?我的理解正确吗?}//将dataModel用于mahout-UserSimilarity-UserSimilarity=new-PearsonCorrelationSimilarity(dataModel);Mahout基本库从传入的数据模型中读取数据。因此,数据模型不能作为空值传递。是的,GenericDataModel也可以扩展并重写构造函数以传递特定于配置单元的SQL查询
    import java.sql.SQLException;
    import java.sql.Connection;
    import java.sql.ResultSet;
    import java.sql.Statement;
    import java.sql.DriverManager;

    public class HiveJdbcClient {
      private static String driverName = "org.apache.hive.jdbc.HiveDriver";

      /**
       * @param args
       * @throws SQLException
       */
      public static void main(String[] args) throws SQLException {
          try {
          Class.forName(driverName);
        } catch (ClassNotFoundException e) {
          // TODO Auto-generated catch block
          e.printStackTrace();
          System.exit(1);
        }
        //replace "hive" here with the name of the user the queries should run as
        Connection con = DriverManager.getConnection("jdbc:hive2://localhost:10000/default", "hive", "");
        Statement stmt = con.createStatement();
        String tableName = "testHiveDriverTable";
        stmt.execute("drop table if exists " + tableName);
        stmt.execute("create table " + tableName + " (key int, value string)");
        // show tables
        String sql = "show tables '" + tableName + "'";
        System.out.println("Running: " + sql);
        ResultSet res = stmt.executeQuery(sql);
        if (res.next()) {
          System.out.println(res.getString(1));
        }
           // describe table
        sql = "describe " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
          System.out.println(res.getString(1) + "\t" + res.getString(2));
        }

        // load data into table
        // NOTE: filepath has to be local to the hive server
        // NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per line
        String filepath = "/tmp/a.txt";
        sql = "load data local inpath '" + filepath + "' into table " + tableName;
        System.out.println("Running: " + sql);
        stmt.execute(sql);

        // select * query
        sql = "select * from " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
          System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
        }

        // regular hive query
        sql = "select count(1) from " + tableName;
        System.out.println("Running: " + sql);
        res = stmt.executeQuery(sql);
        while (res.next()) {
          System.out.println(res.getString(1));
        }
      }
    }
// Create a data source from the CSV file
File userPreferencesFile = new File("data/dataset1.csv");
DataModel dataModel = new FileDataModel(userPreferencesFile);

UserSimilarity userSimilarity = new PearsonCorrelationSimilarity(dataModel);
UserNeighborhood userNeighborhood = new NearestNUserNeighborhood(2, userSimilarity, dataModel);

// Create a generic user based recommender with the dataModel, the userNeighborhood and the userSimilarity
Recommender genericRecommender =  new GenericUserBasedRecommender(dataModel, userNeighborhood, userSimilarity);

// Recommend 5 items for each user
for (LongPrimitiveIterator iterator = dataModel.getUserIDs(); iterator.hasNext();)
{
    long userId = iterator.nextLong();

    // Generate a list of 5 recommendations for the user
    List<RecommendedItem> itemRecommendations = genericRecommender.recommend(userId, 5);

    System.out.format("User Id: %d%n", userId);

    if (itemRecommendations.isEmpty())
    {`enter code here
        System.out.println("No recommendations for this user.");
    }
    else
    {
        // Display the list of recommendations
        for (RecommendedItem recommendedItem : itemRecommendations)
        {
            System.out.format("Recommened Item Id %d. Strength of the preference: %f%n", recommendedItem.getItemID(), recommendedItem.getValue());
        }
    }
 }