Python 使用pyspark'时出错；s高斯混合模型（NegativeArraySizeException）_Python_Apache Spark_Vector_Pyspark_Gmm

Python 使用pyspark'时出错；s高斯混合模型（NegativeArraySizeException）

python apache-spark vector pyspark

Python 使用pyspark'时出错；s高斯混合模型（NegativeArraySizeException）,python,apache-spark,vector,pyspark,gmm,Python,Apache Spark,Vector,Pyspark,Gmm,我正在探索pyspark，在尝试拟合高斯混合模型时遇到了一个错误。我一直在尝试限制潜在错误的总数，并且我能够用显著减少的向量数（在本例中，只有3个）复制错误这是我的密码： sc = ps.SparkContext('local[4]') sql_c = SQLContext(sc) test_df = sql_c.createDataFrame([ Row(features_idf=SparseVector(103882, {0: 0.6015, 5: 1.2943, 9: 1.27

我正在探索pyspark，在尝试拟合高斯混合模型时遇到了一个错误。我一直在尝试限制潜在错误的总数，并且我能够用显著减少的向量数（在本例中，只有3个）复制错误

这是我的密码：

sc = ps.SparkContext('local[4]')

sql_c = SQLContext(sc)
test_df = sql_c.createDataFrame([
    Row(features_idf=SparseVector(103882, {0: 0.6015, 5: 1.2943, 9: 1.2757, 17: 1.111})),
    Row(features_idf=SparseVector(103882, {3: 0.6015, 5: 4.2963, 14: 1.2757, 17: 1.5308})),
    Row(features_idf=SparseVector(103882, {5: 0.6015, 13: 1.2343, 15: 1.2757, 17: 3.708}))])

gm = GaussianMixture(featuresCol='features_idf')
gm_model = gm.fit(test_df)

这是回溯：

---------------------------------------------------------------------------
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-21-34a25cf6f1d8> in <module>()
      1 gm = GaussianMixture(featuresCol='features_idf')
----> 2 gm_model = gm.fit(test_df)

/opt/spark/python/pyspark/ml/base.pyc in fit(self, dataset, params)
     62                 return self.copy(params)._fit(dataset)
     63             else:
---> 64                 return self._fit(dataset)
     65         else:
     66             raise ValueError("Params must be either a param map or a list/tuple of param maps, "

/opt/spark/python/pyspark/ml/wrapper.pyc in _fit(self, dataset)
    211 
    212     def _fit(self, dataset):
--> 213         java_model = self._fit_java(dataset)
    214         return self._create_model(java_model)
    215 

/opt/spark/python/pyspark/ml/wrapper.pyc in _fit_java(self, dataset)
    208         """
    209         self._transfer_params_to_java()
--> 210         return self._java_obj.fit(dataset._jdf)
    211 
    212     def _fit(self, dataset):

/Users/wmees/anaconda/lib/python2.7/site-packages/py4j/java_gateway.pyc in __call__(self, *args)
   1131         answer = self.gateway_client.send_command(command)
   1132         return_value = get_return_value(
-> 1133             answer, self.gateway_client, self.target_id, self.name)
   1134 
   1135         for temp_arg in temp_args:

/opt/spark/python/pyspark/sql/utils.pyc in deco(*a, **kw)
     61     def deco(*a, **kw):
     62         try:
---> 63             return f(*a, **kw)
     64         except py4j.protocol.Py4JJavaError as e:
     65             s = e.java_exception.toString()

/Users/wmees/anaconda/lib/python2.7/site-packages/py4j/protocol.pyc in get_return_value(answer, gateway_client, target_id, name)
    317                 raise Py4JJavaError(
    318                     "An error occurred while calling {0}{1}{2}.\n".
--> 319                     format(target_id, ".", name), value)
    320             else:
    321                 raise Py4JError(

Py4JJavaError: An error occurred while calling o141.fit.
: java.lang.NegativeArraySizeException
    at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.scala:141)
    at scala.reflect.ManifestFactory$$anon$12.newArray(Manifest.scala:139)
    at breeze.linalg.DenseMatrix$.zeros(DenseMatrix.scala:340)
    at breeze.linalg.diag$$anon$1.apply(diag.scala:19)
    at breeze.linalg.diag$$anon$1.apply(diag.scala:17)
    at breeze.generic.UFunc$class.apply(UFunc.scala:48)
    at breeze.linalg.diag$.apply(diag.scala:15)
    at org.apache.spark.mllib.clustering.GaussianMixture.org$apache$spark$mllib$clustering$GaussianMixture$$initCovariance(GaussianMixture.scala:269)
    at org.apache.spark.mllib.clustering.GaussianMixture$$anonfun$3.apply(GaussianMixture.scala:188)
    at org.apache.spark.mllib.clustering.GaussianMixture$$anonfun$3.apply(GaussianMixture.scala:186)
    at scala.Array$.tabulate(Array.scala:331)
    at org.apache.spark.mllib.clustering.GaussianMixture.run(GaussianMixture.scala:186)
    at org.apache.spark.ml.clustering.GaussianMixture.fit(GaussianMixture.scala:331)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:237)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)

---------------------------------------------------------------------------
Py4JJavaError回溯（最近一次调用）
在（）
1 gm=高斯混合（featuresCol='features\u idf'）
---->2 gm_模型=gm.fit（测试_df）
/opt/spark/python/pyspark/ml/base.pyc in-fit（self、dataset、params）
62返回自复制（参数）。_fit（数据集）
63.其他：
--->64返回自拟合（数据集）
65.其他：
66 raise VALUERROR（“参数必须是参数映射或参数映射的列表/元组，”
/opt/spark/python/pyspark/ml/wrapper.pyc in_-fit（self，dataset）
211
212 def_拟合（自身，数据集）：
-->213 java_model=self._fit_java（数据集）
214返回自创建模型（java模型）
215
/java中的opt/spark/python/pyspark/ml/wrapper.pyc（self，数据集）
208         """
209 self.\u将参数转移到\u java（）
-->210返回self.\u java.\u obj.fit（数据集.\u jdf）
211
212 def_拟合（自身，数据集）：
/Users/wmees/anaconda/lib/python2.7/site-packages/py4j/java_gateway.pyc in____调用（self，*args）
1131 answer=self.gateway\u client.send\u命令（command）
1132返回值=获取返回值(
->1133应答，self.gateway\u客户端，self.target\u id，self.name）
1134
1135对于临时参数中的临时参数：
/装饰中的opt/spark/python/pyspark/sql/utils.pyc（*a，**kw）
61 def装饰（*a，**千瓦）：
62尝试：
--->63返回f（*a，**kw）
64除py4j.protocol.Py4JJavaError外的其他错误为e:
65 s=e.java_exception.toString（）
/获取返回值（应答、网关客户端、目标id、名称）中的Users/wmees/anaconda/lib/python2.7/site-packages/py4j/protocol.pyc
317 raise Py4JJavaError(
318“调用{0}{1}{2}时出错。\n”。
-->319格式（目标id，“.”，名称），值）
320其他：
321升起Py4JError(
Py4JJavaError:调用o141.fit时出错。
：java.lang.NegativeArraySizeException
位于scala.reflect.ManifestFactory$$anon$12.newArray（Manifest.scala:141）
位于scala.reflect.ManifestFactory$$anon$12.newArray（Manifest.scala:139）
在breeze.linalg.DenseMatrix$.zeros（DenseMatrix.scala:340）
在breeze.linalg.diag$$anon$1.apply（diag.scala:19）
在breeze.linalg.diag$$anon$1.apply（diag.scala:17）
位于breeze.generic.UFunc$class.apply（UFunc.scala:48）
在breeze.linalg.diag$.apply（diag.scala:15）
位于org.apache.spark.mllib.clustering.GaussianMixture.org$apache$spark$mllib$clustering$GaussianMixture$$initconvariance（GaussianMixture.scala:269）
位于org.apache.spark.mllib.clustering.GaussianMixture$$anonfun$3.apply（GaussianMixture.scala:188）
位于org.apache.spark.mllib.clustering.GaussianMixture$$anonfun$3.apply（GaussianMixture.scala:186）
位于scala.Array$.tablate（Array.scala:331）
位于org.apache.spark.mllib.clustering.GaussianMixture.run（GaussianMixture.scala:186）
位于org.apache.spark.ml.clustering.GaussianMixture.fit（GaussianMixture.scala:331）
在sun.reflect.NativeMethodAccessorImpl.invoke0（本机方法）处
位于sun.reflect.NativeMethodAccessorImpl.invoke（NativeMethodAccessorImpl.java:62）
在sun.reflect.DelegatingMethodAccessorImpl.invoke（DelegatingMethodAccessorImpl.java:43）中
位于java.lang.reflect.Method.invoke（Method.java:498）
位于py4j.reflection.MethodInvoker.invoke（MethodInvoker.java:237）
位于py4j.reflection.ReflectionEngine.invoke（ReflectionEngine.java:357）
在py4j.Gateway.invoke处（Gateway.java:280）
位于py4j.commands.AbstractCommand.invokeMethod（AbstractCommand.java:132）
在py4j.commands.CallCommand.execute（CallCommand.java:79）
在py4j.GatewayConnection.run处（GatewayConnection.java:214）
运行（Thread.java:745）

我一辈子都搞不清楚到底发生了什么——我不认为我创建的向量的大小是负数，所以我不知道是什么触发了这个错误。我已经研究了一些其他问题，没有什么真正的帮助，所以任何建议都将不胜感激！

Spark MLlib中的GaussianMixture

创建用于期望最大化算法的协方差矩阵。在您的情况下，该矩阵由大小为

103882 x 103882

的数组支持。正如有人指出的那样，这会导致整数溢出，试图分配大小为

103882*103882=-2093431964

的数组。但这似乎是一个错误，Spark MLlib使用的Guassian混合算法在高维数据上无法正常工作。请参阅警告：


@注：对于高维数据（具有许多特征），该算法的性能可能较差。这是因为高维数据（a）使聚类变得困难（基于统计/理论参数）和（b）高斯分布的数值问题。

否定raysizeexception

通常是整数溢出的症状