Machine learning 使用社交生成内容培训fasttext模型_Machine Learning_Nlp_Text Classification_Fasttext

Machine learning 使用社交生成内容培训fasttext模型

machine-learning nlp

Machine learning 使用社交生成内容培训fasttext模型,machine-learning,nlp,text-classification,fasttext,Machine Learning,Nlp,Text Classification,Fasttext,我目前正在学习使用Facebook FastText进行文本分类。我从Kaggle中找到了一些包含以下字符的数据：�� 或者twitter用户名和标签。我试着在网上搜索，但是没有明确说明在培训模特之前你到底需要如何清理/预处理你的文本在一些博客中，我看到一些作者在写关于标记化的文章，但是fasttext中没有提到它。另一点是fasttext git有干净数据的例子，比如stackoverflow，但对于twitter或类似平台则没有问题是，在培训模型之前预处理用户（社交）生成的内容的最佳实践

我目前正在学习使用Facebook FastText进行文本分类。我从Kaggle中找到了一些包含以下字符的数据：�� 或者twitter用户名和标签。我试着在网上搜索，但是没有明确说明在培训模特之前你到底需要如何清理/预处理你的文本

在一些博客中，我看到一些作者在写关于标记化的文章，但是fasttext中没有提到它。另一点是fasttext git有干净数据的例子，比如stackoverflow，但对于twitter或类似平台则没有

问题是，在培训模型之前预处理用户（社交）生成的内容的最佳实践是什么？什么需要修改

谢谢

因为FastText分类器不适用于预训练嵌入，所以您可以选择自己的方式来清理数据。我建议你：

将所有内容都转换为小写（或者大写，如果你愿意的话，应该没关系）
我会删除#和@旁边的特殊字符
其他一切由你决定。您可以决定保留或删除hashtag，用户名也是如此。我可能会删除用户名，因为我想其中没有太多信息。但在某些情况下，它可能会提供信息：想想唐纳德·特朗普的推特和答案，我想他的用户名经常被使用。试着做最适合你的事情。FastText的速度非常快，所以进行一些实验不会有太大问题

谢谢，这很有道理。我同意用户名的观点，这取决于用例。