我应该在Python中将分类变量存储为整数还是字母?

我应该在Python中将分类变量存储为整数还是字母?,python,Python,我试图将生物病毒的序列表示为ATGCs,但我看到的代码是将其表示为1234s。如果我们将其存储为整数而不是字母[A,T,G,C],那么内存使用或代码速度是否有任何差异 对于那些可能需要更多上下文的人,我不会对数字/字母串进行任何数学运算,除了在随机位置改变它们的身份(即变异),跟踪字典中偏离参考序列的变异位置(例如:{2:'G',52:'a'}或{2:3,52:1}),并通过迭代参考序列并检查突变字典中的任何突变来导出任何生物病毒株的完整序列。字符串或整数的使用取决于DNA序列的大小。我知道有些

我试图将生物病毒的序列表示为
ATGC
s,但我看到的代码是将其表示为
1234
s。如果我们将其存储为整数而不是字母
[A,T,G,C]
,那么内存使用或代码速度是否有任何差异


对于那些可能需要更多上下文的人,我不会对数字/字母串进行任何数学运算,除了在随机位置改变它们的身份(即变异),跟踪字典中偏离参考序列的变异位置(例如:
{2:'G',52:'a'}
{2:3,52:1}
),并通过迭代参考序列并检查突变字典中的任何突变来导出任何生物病毒株的完整序列。

字符串或整数的使用取决于DNA序列的大小。我知道有些序列可能超过数百万个元素。
如果您处理大量信息,最好使用类型化整数。否则,如果字符串更适合您,您可以使用字符串。

如果用作列表中的索引,则查找速度更快,存储更紧凑。在字典中,不需要这么多。另请参阅有关测量内存大小的回答: