Python 3.x 如何在SPACY NLP中进行语料库预处理、柠檬化和向量化?

Python 3.x 如何在SPACY NLP中进行语料库预处理、柠檬化和向量化?,python-3.x,jupyter-notebook,natural-language-processing,Python 3.x,Jupyter Notebook,Natural Language Processing,我正在尝试使用spaCy对Jupyter笔记本(Python3)上的文件夹(带有.txt文件)进行标记化、柠檬化和矢量化 下面是我试图编写的代码,但可能是我弄错了。我希望整个文件夹被标记化、元素化和矢量化(不是任何特定的.txt文件,而是它的全部组合) #标记化 对于文件\u列表中的令牌: 打印(token.text,'\t',token.pos,'\t',token.lemma,'\t',token.lemma) #柠檬化 def显示引理(文件列表): 对于文本中的令牌: 打印(f'{toke

我正在尝试使用spaCy对Jupyter笔记本(Python3)上的文件夹(带有.txt文件)进行标记化、柠檬化和矢量化

下面是我试图编写的代码,但可能是我弄错了。我希望整个文件夹被标记化、元素化和矢量化(不是任何特定的.txt文件,而是它的全部组合)

#标记化
对于文件\u列表中的令牌:
打印(token.text,'\t',token.pos,'\t',token.lemma,'\t',token.lemma)
#柠檬化
def显示引理(文件列表):
对于文本中的令牌:

打印(f'{token.text:{12}}{token.pos{6}}{token.lemma:我建议将你的问题拆分,即不要将更多的内容混合在一起,更具体一些。在你的情况下,我将首先搜索问题的答案,以了解如何将不同文本文件中的所有文本粘合在一起-->例如如何从更多文件中创建字符串列表等。我建议拆分你的问题,即不要将更多内容混合在一起在您的案例中,我将首先搜索如何将不同文本文件中的所有文本粘合在一起的问题的答案-->例如,如何从更多文件中创建字符串列表等。
#tokenization
    for token in file_list:
        print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

#lemmatisation 
    def show_lemmas(file_list):
        for token in text:
            print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}') 
            show_lemmas(file_list)  

#Vectorization (Using TF-IDF to create a vectorized document term matrix)
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer(max_df=0.95,min_df=2, stop_words='english')
    dtm =tfidf.fit_transform(file_list)
    dtm