Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何为文本数据设置整数编码值?_Python_Tensorflow_Text_Deep Learning_Nlp - Fatal编程技术网

Python 如何为文本数据设置整数编码值?

Python 如何为文本数据设置整数编码值?,python,tensorflow,text,deep-learning,nlp,Python,Tensorflow,Text,Deep Learning,Nlp,我一直在研究如何为深度学习模型准备数据集 如果我们有这样的数据 data = [['this', 'is'], ['not', 'with']] 首先,他们得到我们语料库中单词的频率。根据字频,将整数标签分配给word 频率较高的单词被分配为1,然后是2,依此类推 我的问题是我们为什么要这样做?我们不能为单词随机分配整数值吗。如果我们遵循这个规则,它会提高准确性吗?我怀疑它对准确性有任何影响,除非你以后做了一些不寻常的事情 我可以看到它对以下方面产生影响: 性能:公共字将聚集在第0个索引附近,

我一直在研究如何为深度学习模型准备数据集

如果我们有这样的数据

data = [['this', 'is'], ['not', 'with']]
首先,他们得到我们语料库中单词的频率。根据字频,将整数标签分配给word

频率较高的单词被分配为1,然后是2,依此类推


我的问题是我们为什么要这样做?我们不能为单词随机分配整数值吗。如果我们遵循这个规则,它会提高准确性吗?

我怀疑它对准确性有任何影响,除非你以后做了一些不寻常的事情

我可以看到它对以下方面产生影响:

性能:公共字将聚集在第0个索引附近,因此可能会一起在缓存中结束 人工解释/可读性:字符串/显示输出将更整洁,普通单词需要更少的数字 容易处理稀有词语;超过某个阈值的所有索引值都表明该词很少见,并且可以映射到某个占位符/忽略该词,具体取决于模型如何处理该词