Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 使用哪种spark MLIB算法?_Machine Learning_Apache Spark - Fatal编程技术网

Machine learning 使用哪种spark MLIB算法?

Machine learning 使用哪种spark MLIB算法?,machine-learning,apache-spark,Machine Learning,Apache Spark,我是机器学习的新手,希望了解使用什么算法(分类算法或关联算法?),以便了解一个或多个属性之间的关系 例如,考虑到我有以下属性集, Bill No, Bill Amount, Tip amount, Waiter Name 并想找出哪些是影响小费金额的属性 以下是数据样本集 Bill No, Bill Amount, Tip amount, Waiter detail 1, 100, 10, Sathish 2, 200

我是机器学习的新手,希望了解使用什么算法(分类算法或关联算法?),以便了解一个或多个属性之间的关系

例如,考虑到我有以下属性集,

Bill No, Bill Amount, Tip amount, Waiter Name
并想找出哪些是影响小费金额的属性

以下是数据样本集

Bill No, Bill Amount, Tip amount, Waiter detail
   1,         100,          10,        Sathish
   2,         200,          20,        Sathish
   3,         150,          10,        Rahul
   4,         200,          10,        Simon
   5,         100,          10,        Sathish

在这种情况下,我们知道小费金额会受到账单金额的99%影响。但我想知道我应该用什么样的Spark MLib算法来计算相同的结果?如果是这样的话,我可以将类似的技术应用于一系列属性。

您可以做的一件事是计算行之间的相关性。看看关于mllib网站的教程


将使用更先进的方法。这将发现更复杂的依赖关系。

您可以计算不同行之间的相关性。请参阅相关性。例如,如果计算票据金额和小费金额之间的相关性,很可能会得到接近1的相关性值