Nlp 我在土耳其数据集上做标记化，有这样的问题吗？_Nlp_Nltk_Tokenize

Nlp 我在土耳其数据集上做标记化，有这样的问题吗？

nlp

Nlp 我在土耳其数据集上做标记化，有这样的问题吗？,nlp,nltk,tokenize,Nlp,Nltk,Tokenize,代码：输出： text="ürün çünkü çok kim güzel.sevdim. ama çünkü çok " stop_word_list = nltk.corpus.stopwords.words('turkish') tokenler=word_tokenize(text) filtre=[] for w in tokenler: if w not in stop_word_list: filtre.append(w) print(filt

代码：

输出：

text="ürün çünkü çok kim  güzel.sevdim. ama çünkü çok  "
stop_word_list = nltk.corpus.stopwords.words('turkish')
tokenler=word_tokenize(text)
filtre=[]
for w in tokenler:
  if w not in stop_word_list:
    filtre.append(w)
print(filtre)
print(tokenler)

我想把nice.sevdim这个短语单独标记出来，但没有实现（比如：“美丽”、“喜欢”）

我该怎么修理？提前感谢

注意：到目前为止，我已经阅读了csv文件中的数据集。我标记了数据集中的注释，并将它们列为一个列表。我正在尝试对列表执行上述操作。

['ürün', 'güzel.sevdim', '.']
['ürün', 'çünkü', 'çok', 'kim', 'güzel.sevdim', '.', 'ama', 'çünkü', 'çok']