Java tweet上的聚类
我有80万条推特。我将它们分类如下:Java tweet上的聚类,java,twitter,Java,Twitter,我有80万条推特。我将它们分类如下: for i <- 1 to 800,000 for j <- i+1 to 800,000 if ( dist(i,j) <= threhold_dist){ if (jacard_similarity(i,j) >= threshold_tweetsim){ cluster them.
for i <- 1 to 800,000
for j <- i+1 to 800,000
if ( dist(i,j) <= threhold_dist){
if (jacard_similarity(i,j) >= threshold_tweetsim){
cluster them.
}
}
}
}
对于我来说,与其读入tweet然后对其进行聚类,不如在读入tweet时对其进行聚类?@DanTemple在这种情况下,我必须对文件本身运行嵌套循环,我认为这也是一项困难的任务。你能检查正则表达式和doubleParse是否是一个瓶颈吗。如果是这样的话,那么您应该只执行一次,而不是在算法中执行两次。例如,考虑使用另一个容器将您的地理代码保存为double[]
。@Eypros是的,我认为这会减少时间,但我必须检查到什么程度:)。