Python 如何为文本数据设置整数编码值？_Python_Tensorflow_Text_Deep Learning_Nlp

Python 如何为文本数据设置整数编码值？

python tensorflow text deep-learning nlp

Python 如何为文本数据设置整数编码值？,python,tensorflow,text,deep-learning,nlp,Python,Tensorflow,Text,Deep Learning,Nlp,我一直在研究如何为深度学习模型准备数据集如果我们有这样的数据 data = [['this', 'is'], ['not', 'with']] 首先，他们得到我们语料库中单词的频率。根据字频，将整数标签分配给word 频率较高的单词被分配为1，然后是2，依此类推我的问题是我们为什么要这样做？我们不能为单词随机分配整数值吗。如果我们遵循这个规则，它会提高准确性吗？我怀疑它对准确性有任何影响，除非你以后做了一些不寻常的事情我可以看到它对以下方面产生影响：性能：公共字将聚集在第0个索引附近，

我一直在研究如何为深度学习模型准备数据集

如果我们有这样的数据

data = [['this', 'is'], ['not', 'with']]

首先，他们得到我们语料库中单词的频率。根据字频，将整数标签分配给word

频率较高的单词被分配为1，然后是2，依此类推

我的问题是我们为什么要这样做？我们不能为单词随机分配整数值吗。如果我们遵循这个规则，它会提高准确性吗？

我怀疑它对准确性有任何影响，除非你以后做了一些不寻常的事情

我可以看到它对以下方面产生影响：

性能：公共字将聚集在第0个索引附近，因此可能会一起在缓存中结束人工解释/可读性：字符串/显示输出将更整洁，普通单词需要更少的数字容易处理稀有词语；超过某个阈值的所有索引值都表明该词很少见，并且可以映射到某个占位符/忽略该词，具体取决于模型如何处理该词