Java tweet上的聚类_Java_Twitter

Java tweet上的聚类

java twitter

Java tweet上的聚类,java,twitter,Java,Twitter,我有80万条推特。我将它们分类如下： for i <- 1 to 800,000 for j <- i+1 to 800,000 if ( dist(i,j) <= threhold_dist){ if (jacard_similarity(i,j) >= threshold_tweetsim){ cluster them.

我有80万条推特。我将它们分类如下：

for i <- 1 to 800,000  
   for j <- i+1 to 800,000  
       if ( dist(i,j) <= threhold_dist){  
               if (jacard_similarity(i,j) >= threshold_tweetsim){  
                                 cluster them.  
               }  
       }   
   }  
}

对于我来说，与其读入tweet然后对其进行聚类，不如在读入tweet时对其进行聚类？@DanTemple在这种情况下，我必须对文件本身运行嵌套循环，我认为这也是一项困难的任务。你能检查正则表达式和doubleParse是否是一个瓶颈吗。如果是这样的话，那么您应该只执行一次，而不是在算法中执行两次。例如，考虑使用另一个容器将您的地理代码保存为double[]
。@Eypros是的，我认为这会减少时间，但我必须检查到什么程度：）。