Machine learning 使用社交生成内容培训fasttext模型

Machine learning 使用社交生成内容培训fasttext模型,machine-learning,nlp,text-classification,fasttext,Machine Learning,Nlp,Text Classification,Fasttext,我目前正在学习使用Facebook FastText进行文本分类。我从Kaggle中找到了一些包含以下字符的数据:�� 或者twitter用户名和标签。我试着在网上搜索,但是没有明确说明在培训模特之前你到底需要如何清理/预处理你的文本 在一些博客中,我看到一些作者在写关于标记化的文章,但是fasttext中没有提到它。另一点是fasttext git有干净数据的例子,比如stackoverflow,但对于twitter或类似平台则没有 问题是,在培训模型之前预处理用户(社交)生成的内容的最佳实践

我目前正在学习使用Facebook FastText进行文本分类。我从Kaggle中找到了一些包含以下字符的数据:�� 或者twitter用户名和标签。我试着在网上搜索,但是没有明确说明在培训模特之前你到底需要如何清理/预处理你的文本

在一些博客中,我看到一些作者在写关于标记化的文章,但是fasttext中没有提到它。另一点是fasttext git有干净数据的例子,比如stackoverflow,但对于twitter或类似平台则没有

问题是,在培训模型之前预处理用户(社交)生成的内容的最佳实践是什么?什么需要修改


谢谢

因为FastText分类器不适用于预训练嵌入,所以您可以选择自己的方式来清理数据。我建议你:

  • 将所有内容都转换为小写(或者大写,如果你愿意的话,应该没关系)

  • 我会删除#和@旁边的特殊字符

    其他一切由你决定。您可以决定保留或删除hashtag,用户名也是如此。我可能会删除用户名,因为我想其中没有太多信息。但在某些情况下,它可能会提供信息:想想唐纳德·特朗普的推特和答案,我想他的用户名经常被使用。试着做最适合你的事情。FastText的速度非常快,所以进行一些实验不会有太大问题


谢谢,这很有道理。我同意用户名的观点,这取决于用例。