Nlp 在非英语数据集上训练Fastext

Nlp 在非英语数据集上训练Fastext,nlp,fasttext,Nlp,Fasttext,我进入了一个新的项目,我希望将单词表示为向量,我读到了关于Fasttext库的文章,我看到他们已经为非英语的语言预先训练了模型。目的是预测不同单词之间的接近程度 我想知道的是,我是否可以在非英语数据和新闻网站的文章上训练Fasttext模型,以便在政治和时下话题等特定类型上获得更好的结果 我可以在非英语数据集上训练它吗 培训一个10 GB文本的模型需要多长时间?够大吗 有更好的解决办法吗 提前感谢 我可以在非英语数据集上训练它吗 当然可以。Fasttext在其网站上提供了157种不同语言的可用

我进入了一个新的项目,我希望将单词表示为向量,我读到了关于Fasttext库的文章,我看到他们已经为非英语的语言预先训练了模型。目的是预测不同单词之间的接近程度

我想知道的是,我是否可以在非英语数据和新闻网站的文章上训练Fasttext模型,以便在政治和时下话题等特定类型上获得更好的结果

  • 我可以在非英语数据集上训练它吗
  • 培训一个10 GB文本的模型需要多长时间?够大吗
  • 有更好的解决办法吗
  • 提前感谢

    我可以在非英语数据集上训练它吗

    当然可以。Fasttext在其网站上提供了157种不同语言的可用预培训模型列表,您也可以下载它们

    培训一个10 GB文本的模型需要多长时间

    这取决于您的系统和实现。e、 在Mac pro上安装16Gb ram,并在facebook上实现,大约需要8-10个小时

    够大吗

    如果清洁和预处理后的文件大小是10Gb,那就足够了

    有更好的解决办法吗

    什么是更好的解决方案?如果我站在你的立场,我会先试试那些经过训练的模特