Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/drupal/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Cloud Bigquery-文本聚类_Cloud_Cluster Analysis_Data Mining_Google Bigquery_K Means - Fatal编程技术网

Cloud Bigquery-文本聚类

Cloud Bigquery-文本聚类,cloud,cluster-analysis,data-mining,google-bigquery,k-means,Cloud,Cluster Analysis,Data Mining,Google Bigquery,K Means,有人知道谁可以在google的bigquery表上运行文本聚类吗?我曾尝试在一些小数据集(2k行,单列)上使用nltk,但似乎要花很长时间(在四核、8GB机器、Linux上99%的CPU) 谢谢 由于您已经在使用谷歌云工具,因此值得研究。我没有亲自使用过它,但我听说它可以处理的数据集的大小很好 既然您提到了Python库——另一个选项(也可能受到数据集大小的限制)是使用PyData工具,其中包括用于导入数据的Pandas(查看Pandas.io.read_bq)和用于运行集群算法的Scikit学

有人知道谁可以在google的bigquery表上运行文本聚类吗?我曾尝试在一些小数据集(2k行,单列)上使用nltk,但似乎要花很长时间(在四核、8GB机器、Linux上99%的CPU)


谢谢

由于您已经在使用谷歌云工具,因此值得研究。我没有亲自使用过它,但我听说它可以处理的数据集的大小很好


既然您提到了Python库——另一个选项(也可能受到数据集大小的限制)是使用PyData工具,其中包括用于导入数据的Pandas(查看
Pandas.io.read_bq
)和用于运行集群算法的Scikit学习包。内置的速度优化功能相当多。

nltk。什么?99%的CPU支持1毫秒、5毫秒、几个小时?你的问题太不明确了(我很惊讶它能得到答案)