Database design 如何在数据库设计中确定元字段?
我正在处理一个非常大的数据集,我想创建一个元表,其中包含关于数据集中列的元数据 例如,对于Database design 如何在数据库设计中确定元字段?,database-design,Database Design,我正在处理一个非常大的数据集,我想创建一个元表,其中包含关于数据集中列的元数据 例如,对于int列,我可能需要total,max value,average value,min value,等等。因此,包含数百万条年龄记录的列“年龄”将有一个元表,其中包含: total = 1000000 max-value = 110 min-value = 4 average-value = 32 etcetera... 我有int,boolean,string,date,float和date列 问题:
int
列,我可能需要total
,max value
,average value
,min value
,等等。因此,包含数百万条年龄记录的列“年龄”将有一个元表,其中包含:
total = 1000000
max-value = 110
min-value = 4
average-value = 32
etcetera...
我有int
,boolean
,string
,date
,float
和date
列
问题:我在哪里可以找到这些字段的基本元数据列表?或者我能做的比上述更多?从统计角度来看,
int
和float
是典型的因变量(图表上的Y轴)。对于那些(在给定集合上)计算统计值,如算术/几何平均值、中值、标准差、方差等
字符串
、布尔值
和日期
通常是自变量(或回归器-图表上的X轴)。因此,不应该对它们进行描述。从技术上讲,你可以在一组布尔值或日期上计算一个中值(你可以认为它们是依赖的),但一般来说没有多大意义。在字符串列上,可以计算字符串的平均长度、字符串中使用的不同字符数,甚至可以计算大小写字母数。但我真的不认为这些信息对任何人都有用。谢谢你的回答,鲍里斯。这很有帮助,你的评论也很有意义。