Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sql-server-2005/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Keras 如何实现波斯语的单词嵌入_Keras_Nlp_Persian_Word Embedding - Fatal编程技术网

Keras 如何实现波斯语的单词嵌入

Keras 如何实现波斯语的单词嵌入,keras,nlp,persian,word-embedding,Keras,Nlp,Persian,Word Embedding,我的代码适用于英语,但不适用于波斯语 from gensim.models import Word2Vec as wv for sentence in sentences: tokens = sentence.strip().lower().split(" ") tokenized.append(tokens) model = wv(tokenized ,size=5, min_count=1) print('done2') model.save('F

我的代码适用于英语,但不适用于波斯语

from gensim.models import Word2Vec as wv
for sentence in sentences:
    tokens = sentence.strip().lower().split(" ")
    tokenized.append(tokens)
model = wv(tokenized
    ,size=5,
          min_count=1)
print('done2')
model.save('F:/text8/text8-phrases1')
print('done3')
print(model)
model = wv.load('F:/text8/text8-phrases1')

print(model.wv.vocab)
输出

> 'بر': <gensim.models.keyedvectors.Vocab object at 0x0000027716EEB0B8>,
> 'اساس': <gensim.models.keyedvectors.Vocab object at
> 0x0000027716EEB160>, 'قوانين': <gensim.models.keyedvectors.Vocab
> object at 0x0000027716EEB198>, 'دانشگاه':
> <gensim.models.keyedvectors.Vocab object at 0x0000027716EEB1D0>,
> 'اصفهان،': <gensim.models.keyedvectors.Vocab object at
> 0x0000027716EEB208>, 'نويسنده': <gensim.models.keyedvectors.Vocab
> object at 0x0000027716EEB240>, 'مسؤول':
> <gensim.models.keyedvectors.Vocab object at 0x0000027716EEB278>,
> 'مقاله': <gensim.models.keyedvectors.Vocab object at
> 0x0000027716EEB2B0>, 'بايد'
>“ب㶙”:,
>“0x0000027716EEB160>,“0x0000027716EEB198>处的对象”,“0x0000027716EEB160>,“0x0000027716EEB160>”:
> ,
>“0x0000027716EEB208>,“0x0000027716EEB240>的对象”
> ,
>“مقاه”:0x0000027716EEB2B0>,“بايد”
请以代码为例
谢谢你,我知道现在回答你的问题已经太迟了,但是可能有些人也有同样的问题。所以我在这里放了一些有用的代码。我在digikala评论中使用了下面的代码。我只假设您已经有了预处理部分(删除stopwords、HTML、emojis和…),数据已经准备好进行矢量化

from hazm import word_tokenize
import pandas as pd

import gensim
from gensim.models.word2vec import Word2Vec


# reading dataset
df = pd.read_csv('data/cleaned/data.csv')
df.title = df.title.apply(str)
df.comment = df.comment.apply(str)

# Storing comments in list
comments = [comment for comment in df.comment]

# converting each sentence to list of words and inserting in sents
sents = [word_tokenize(comment) for comment in comments]

model = Word2Vec(sentences=sents, size=64, window=10, min_count=5, seed=42, workers=5)

model.save('digikala_words.w2v')

# Check for vector
model['دیجیکالا']
我真的希望它能帮助你,我的朋友。 如果您仍有兴趣了解更多详细信息,请访问以下链接:

您可以发布文件
text8-phrases1
中的示例文本吗?如果你的输入不使用空格或者没有足够的文本,这可能是一个问题。只要你在单词之间有一个清晰的分隔符,比如空格,它应该和英语一样有效。您还可以查看nltk文档,其中有一部分是关于短语识别的,它可以自动收集固定元素(例如文本中的《纽约时报》)。如果你有两个或两个以上的单词短语在波斯语中算作一个单词,这也可以在这里使用。