Python 在数据帧中的列上应用函数的更快方法_Python_Pandas_Nlp

Python 在数据帧中的列上应用函数的更快方法

python pandas nlp

Python 在数据帧中的列上应用函数的更快方法,python,pandas,nlp,Python,Pandas,Nlp,我必须对一个列应用一些多个函数来获得bigram列表，但是以我目前使用的方式使用apply函数的速度非常慢。你有办法提高速度吗 def remove_stop_words(text): cleantext = text.lower() cleantext = ' '.join(re.sub(r'[^\w]', ' ', cleantext).strip().split()) filtered_sentence= '' for w in word_tokenize(

我必须对一个列应用一些多个函数来获得bigram列表，但是以我目前使用的方式使用apply函数的速度非常慢。你有办法提高速度吗

def remove_stop_words(text):
    cleantext = text.lower()
    cleantext = ' '.join(re.sub(r'[^\w]', ' ', cleantext).strip().split())
    filtered_sentence= ''
    for w in word_tokenize(cleantext):
        if w not in stop_words: 
            filtered_sentence =  filtered_sentence + ' ' + w
    return  filtered_sentence.strip()

def lemmatize(text):
    lemma_word = []
    for w in word_tokenize(text.lower()):
        word1 = wordnet_lemmatizer.lemmatize(w, pos = "n")
        word2 = wordnet_lemmatizer.lemmatize(word1, pos = "v")
        word3 = wordnet_lemmatizer.lemmatize(word2, pos = ("a"))
        lemma_word.append(word3)
    return ' '.join(lemma_word)

def get_ngrams(text, n ):
    n_grams = ngrams(word_tokenize(text), n=2)
    return [ ' '.join(grams) for grams in n_grams]


df['bigrams'] = df.headline.apply(lambda x: get_ngrams(lemmatize(remove_stop_words(x)),n=2))

编辑：（根据评论）数据帧df包含2列-1。标题2。情绪得分

标题-它是新闻标题，基本上是文本，我必须在上面应用函数来获取标题的大图

情绪分数-我必须在df数据帧中保留分数，因此需要在同一数据帧中获得一个名为“bigram”的列

我发现最好的方法是使用多处理库并行化进程

import numpy as np
import pandas as pd
import re
import time
from nltk import pos_tag, word_tokenize
from nltk.util import ngrams
import nltk
from nltk.corpus import stopwords
import nltk.data
from nltk.stem import WordNetLemmatizer
import random
from multiprocessing import  Pool


def get_ngrams(text, n=2 ):
    n_grams = ngrams(text.split(), n=n)
    return [ ' '.join(grams) for grams in n_grams]


def bigrams(df):
    df['bigrams'] = df.headline.apply(lambda x: get_ngrams(lemmatize(remove_stop_words(x)),n=2))
    return df

def parallelize_dataframe(df, func, n_cores=20):
    df_split = np.array_split(df, n_cores)
    pool = Pool(n_cores)
    df = pd.concat(pool.map(func, df_split))
    pool.close()
    pool.join()
    return df

df2 = parallelize_dataframe(df, bigrams)
bigramScore = df2.explode('bigrams')

注意：只有当您有大量可用的内核时，这才有用，如果您只有2-3个可用的内核，这可能不是最好的方法，因为还需要考虑并行化过程的开销。

您将无法绕过

应用

来应用函数。因此，除非您设法加快这些速度，否则您可能需要考虑<代码>多重处理< /代码>，以便并行化进程，可以共享所有相关的代码和数据吗？请看：。我已经描述了数据框，并添加了它的外观图像，希望它能给您足够的信息idea@WhiteWalker请把数据放在帖子里，不要放在图片里。