Nlp 我在土耳其数据集上做标记化,有这样的问题吗?

Nlp 我在土耳其数据集上做标记化,有这样的问题吗?,nlp,nltk,tokenize,Nlp,Nltk,Tokenize,代码: 输出: text="ürün çünkü çok kim güzel.sevdim. ama çünkü çok " stop_word_list = nltk.corpus.stopwords.words('turkish') tokenler=word_tokenize(text) filtre=[] for w in tokenler: if w not in stop_word_list: filtre.append(w) print(filt

代码:

输出:

text="ürün çünkü çok kim  güzel.sevdim. ama çünkü çok  "
stop_word_list = nltk.corpus.stopwords.words('turkish')
tokenler=word_tokenize(text)
filtre=[]
for w in tokenler:
  if w not in stop_word_list:
    filtre.append(w)
print(filtre)
print(tokenler)
我想把nice.sevdim这个短语单独标记出来,但没有实现(比如:“美丽”、“喜欢”)
我该怎么修理?提前感谢

注意:到目前为止,我已经阅读了csv文件中的数据集。我标记了数据集中的注释,并将它们列为一个列表。我正在尝试对列表执行上述操作。
['ürün', 'güzel.sevdim', '.']
['ürün', 'çünkü', 'çok', 'kim', 'güzel.sevdim', '.', 'ama', 'çünkü', 'çok']