Python 如何为文本数据设置整数编码值?
我一直在研究如何为深度学习模型准备数据集 如果我们有这样的数据Python 如何为文本数据设置整数编码值?,python,tensorflow,text,deep-learning,nlp,Python,Tensorflow,Text,Deep Learning,Nlp,我一直在研究如何为深度学习模型准备数据集 如果我们有这样的数据 data = [['this', 'is'], ['not', 'with']] 首先,他们得到我们语料库中单词的频率。根据字频,将整数标签分配给word 频率较高的单词被分配为1,然后是2,依此类推 我的问题是我们为什么要这样做?我们不能为单词随机分配整数值吗。如果我们遵循这个规则,它会提高准确性吗?我怀疑它对准确性有任何影响,除非你以后做了一些不寻常的事情 我可以看到它对以下方面产生影响: 性能:公共字将聚集在第0个索引附近,
data = [['this', 'is'], ['not', 'with']]
首先,他们得到我们语料库中单词的频率。根据字频,将整数标签分配给word
频率较高的单词被分配为1,然后是2,依此类推
我的问题是我们为什么要这样做?我们不能为单词随机分配整数值吗。如果我们遵循这个规则,它会提高准确性吗?我怀疑它对准确性有任何影响,除非你以后做了一些不寻常的事情 我可以看到它对以下方面产生影响: 性能:公共字将聚集在第0个索引附近,因此可能会一起在缓存中结束 人工解释/可读性:字符串/显示输出将更整洁,普通单词需要更少的数字 容易处理稀有词语;超过某个阈值的所有索引值都表明该词很少见,并且可以映射到某个占位符/忽略该词,具体取决于模型如何处理该词