Python 优化计算文档频率_Python_Nlp

Python 优化计算文档频率

python nlp

Python 优化计算文档频率,python,nlp,Python,Nlp,这需要太长时间： # Document-frequency phrases_final["doc_freq"] = len(phrases_final) * [0] # for each phrase, compute the number of clusters that phrase occurs in for phrase in phrases_final["extracted_phrases"]: for i in cluster_n

这需要太长时间：

# Document-frequency
phrases_final["doc_freq"] = len(phrases_final) * [0]


# for each phrase, compute the number of clusters that phrase occurs in

for phrase in phrases_final["extracted_phrases"]:
    for i in cluster_name:
        all_tweets = ""
        for tweet in df["tweets_to_consider"][df.cl_num == i]:
            all_tweets = all_tweets + tweet + ". "
        if phrase in all_tweets:
            phrases_final["doc_freq"][
                (phrases_final.extracted_phrases == phrase) & (phrases_final.cluster_num == i)
            ] = (
                phrases_final["doc_freq"][
                    (phrases_final.extracted_phrases == phrase) & (phrases_final.cluster_num == i)
                ]
                + 1
            )

您可能应该为每个集群预先计算
```
所有tweet
```
，而不是为每个短语再次计算。
- 或者，您可能根本不想构建
```
所有tweet
```
  ，因为
```
if短语in（此处为长字符串）
```
  会很慢；考虑一组集合，也许？

collections.defaultdict（collections.Counter）

cluster\u num

phrase

如果速度仍然太慢，请使用
```
multiprocessing.Pool（）
```
在短语或集群上并行执行此操作

您可能应该为每个集群预先计算
```
所有tweet
```
，而不是为每个短语再次计算。

collections.defaultdict（collections.Counter）

cluster\u num

phrase

如果速度仍然太慢，请使用
```
multiprocessing.Pool（）
```
在短语或集群上并行执行此操作