Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python pyspark中拼写检查器内存使用量的不合理增长_Python_Apache Spark_Memory_Pyspark_Spell Checking - Fatal编程技术网

Python pyspark中拼写检查器内存使用量的不合理增长

Python pyspark中拼写检查器内存使用量的不合理增长,python,apache-spark,memory,pyspark,spell-checking,Python,Apache Spark,Memory,Pyspark,Spell Checking,我正在尝试用pyspark-v2.3编写一个简单的标记器和拼写检查器。输入不是太大——大约64M的数据。当我尝试在启用拼写更正选项的情况下运行时,内存使用量会增加到32GB ram。我知道罪魁祸首是python的autocorrect.spell(w)方法,但我不知道如何解决这个问题。欢迎任何帮助 我使用以下命令启动脚本: spark submit-v--master local[*]--conf“spark.driver.memory=16g”--conf“spark.driver.maxRe

我正在尝试用pyspark-v2.3编写一个简单的标记器和拼写检查器。输入不是太大——大约64M的数据。当我尝试在启用拼写更正选项的情况下运行时,内存使用量会增加到32GB ram。我知道罪魁祸首是python的autocorrect.spell(w)方法,但我不知道如何解决这个问题。欢迎任何帮助

我使用以下命令启动脚本: spark submit-v--master local[*]--conf“spark.driver.memory=16g”--conf“spark.driver.maxResultSize=16”pyspark\u create\u embeddings.py

注意,我没有得到Java堆异常。这是否意味着这是堆栈增长

import autocorrect.spell
def tokenize(text_rdd, clean_html=False, tokenizer="twitter", remove_reps=True, spell_correct=True):

    print("Processing {} tokns".format(text_rdd.count()))

    if(remove_reps):
        text_rdd = text_rdd.map(lambda text : re.sub(r'(.)\1{2,}', r'\1\1', text))

    tokens_rdd = text_rdd.map(lambda text: TweetTokenizer().tokenize(text))
    if spell_correct:
        tokens_rdd = tokens_rdd.map(lambda tokens: [spell(t) for t in tokens])
    #tokens_rdd = tokens_rdd.map(lambda tokens: [t for t in tokens])

    return tokens_rdd

是什么让你认为这与Spark有关?根据描述,这听起来更像是您使用的库的问题。Likz@user9613318说,您需要找出问题的根源,它可能来自您正在使用的库。