Cloud Bigquery-文本聚类
有人知道谁可以在google的bigquery表上运行文本聚类吗?我曾尝试在一些小数据集(2k行,单列)上使用nltk,但似乎要花很长时间(在四核、8GB机器、Linux上99%的CPU)Cloud Bigquery-文本聚类,cloud,cluster-analysis,data-mining,google-bigquery,k-means,Cloud,Cluster Analysis,Data Mining,Google Bigquery,K Means,有人知道谁可以在google的bigquery表上运行文本聚类吗?我曾尝试在一些小数据集(2k行,单列)上使用nltk,但似乎要花很长时间(在四核、8GB机器、Linux上99%的CPU) 谢谢 由于您已经在使用谷歌云工具,因此值得研究。我没有亲自使用过它,但我听说它可以处理的数据集的大小很好 既然您提到了Python库——另一个选项(也可能受到数据集大小的限制)是使用PyData工具,其中包括用于导入数据的Pandas(查看Pandas.io.read_bq)和用于运行集群算法的Scikit学
谢谢 由于您已经在使用谷歌云工具,因此值得研究。我没有亲自使用过它,但我听说它可以处理的数据集的大小很好
既然您提到了Python库——另一个选项(也可能受到数据集大小的限制)是使用PyData工具,其中包括用于导入数据的Pandas(查看
Pandas.io.read_bq
)和用于运行集群算法的Scikit学习包。内置的速度优化功能相当多。nltk。什么?99%的CPU支持1毫秒、5毫秒、几个小时?你的问题太不明确了(我很惊讶它能得到答案)