Java tweet上的聚类

Java tweet上的聚类,java,twitter,Java,Twitter,我有80万条推特。我将它们分类如下: for i <- 1 to 800,000 for j <- i+1 to 800,000 if ( dist(i,j) <= threhold_dist){ if (jacard_similarity(i,j) >= threshold_tweetsim){ cluster them.

我有80万条推特。我将它们分类如下:

for i <- 1 to 800,000  
   for j <- i+1 to 800,000  
       if ( dist(i,j) <= threhold_dist){  
               if (jacard_similarity(i,j) >= threshold_tweetsim){  
                                 cluster them.  
               }  
       }   
   }  
}  

对于我来说,与其读入tweet然后对其进行聚类,不如在读入tweet时对其进行聚类?@DanTemple在这种情况下,我必须对文件本身运行嵌套循环,我认为这也是一项困难的任务。你能检查正则表达式和doubleParse是否是一个瓶颈吗。如果是这样的话,那么您应该只执行一次,而不是在算法中执行两次。例如,考虑使用另一个容器将您的地理代码保存为
double[]
。@Eypros是的,我认为这会减少时间,但我必须检查到什么程度:)。