Facebook如何';s fasttext库处理输入中的数字数据以实现文字矢量化?

Facebook如何';s fasttext库处理输入中的数字数据以实现文字矢量化?,facebook,nlp,vectorization,fasttext,Facebook,Nlp,Vectorization,Fasttext,我使用Facebook的Fasttext进行文本分类。 我想知道fasttext库如何处理作为单词矢量化输入的文本字符串中的数字 在创建单词向量之前,fasttext是否会将每个数字转换为字符串 例如1124至“1124” 或在培训前在后台执行任何其他转换/预处理 例如1124到“一一二四” 如果fasttext的输入文本包含数字,那么处理数字数据的最佳方法应该是什么?fasttext不会对数字标记进行任何预处理。它们被视为其他空格分隔的“单词” 除非您的输入中已经有关于fasttext和数字的

我使用Facebook的Fasttext进行文本分类。 我想知道fasttext库如何处理作为单词矢量化输入的文本字符串中的数字

  • 在创建单词向量之前,fasttext是否会将每个数字转换为字符串

    例如1124至“1124”

  • 或在培训前在后台执行任何其他转换/预处理

    例如1124到“一一二四”


  • 如果fasttext的输入文本包含数字,那么处理数字数据的最佳方法应该是什么?

    fasttext不会对数字标记进行任何预处理。它们被视为其他空格分隔的“单词”

    除非您的输入中已经有关于fasttext和数字的特定问题,否则我不会担心fasttext如何处理数字。像平常一样使用它

    如果您有很多数字,并且它们导致了问题-这是可能的,因为fasttext对于大多数特定的数字可能没有任何有用的向量-您可以预处理您的输入,用
    或其他虚拟标记替换它们。这样,这些句子与fasttext相同:

  • 我吃了1023个橙子
  • 我吃了1024个橘子
  • 您是否希望将它们视为相同的,取决于您的应用程序