Cloud Bigquery-文本聚类_Cloud_Cluster Analysis_Data Mining_Google Bigquery_K Means

Cloud Bigquery-文本聚类

cloud google-bigquery

Cloud Bigquery-文本聚类,cloud,cluster-analysis,data-mining,google-bigquery,k-means,Cloud,Cluster Analysis,Data Mining,Google Bigquery,K Means,有人知道谁可以在google的bigquery表上运行文本聚类吗？我曾尝试在一些小数据集（2k行，单列）上使用nltk，但似乎要花很长时间（在四核、8GB机器、Linux上99%的CPU）谢谢由于您已经在使用谷歌云工具，因此值得研究。我没有亲自使用过它，但我听说它可以处理的数据集的大小很好既然您提到了Python库——另一个选项（也可能受到数据集大小的限制）是使用PyData工具，其中包括用于导入数据的Pandas（查看Pandas.io.read_bq）和用于运行集群算法的Scikit学

有人知道谁可以在google的bigquery表上运行文本聚类吗？我曾尝试在一些小数据集（2k行，单列）上使用nltk，但似乎要花很长时间（在四核、8GB机器、Linux上99%的CPU）

谢谢

由于您已经在使用谷歌云工具，因此值得研究。我没有亲自使用过它，但我听说它可以处理的数据集的大小很好

既然您提到了Python库——另一个选项（也可能受到数据集大小的限制）是使用PyData工具，其中包括用于导入数据的Pandas（查看

Pandas.io.read_bq

）和用于运行集群算法的Scikit学习包。内置的速度优化功能相当多。

nltk。什么？99%的CPU支持1毫秒、5毫秒、几个小时？你的问题太不明确了（我很惊讶它能得到答案）