Database design 如何在数据库设计中确定元字段?

Database design 如何在数据库设计中确定元字段?,database-design,Database Design,我正在处理一个非常大的数据集,我想创建一个元表,其中包含关于数据集中列的元数据 例如,对于int列,我可能需要total,max value,average value,min value,等等。因此,包含数百万条年龄记录的列“年龄”将有一个元表,其中包含: total = 1000000 max-value = 110 min-value = 4 average-value = 32 etcetera... 我有int,boolean,string,date,float和date列 问题:

我正在处理一个非常大的数据集,我想创建一个元表,其中包含关于数据集中列的元数据

例如,对于
int
列,我可能需要
total
max value
average value
min value
,等等。因此,包含数百万条年龄记录的列“年龄”将有一个元表,其中包含:

total = 1000000
max-value = 110
min-value = 4
average-value = 32
etcetera...
我有
int
boolean
string
date
float
date

问题

我在哪里可以找到这些字段的基本元数据列表?或者我能做的比上述更多?

从统计角度来看,
int
float
是典型的因变量(图表上的Y轴)。对于那些(在给定集合上)计算统计值,如算术/几何平均值、中值、标准差、方差等


字符串
布尔值
日期
通常是自变量(或回归器-图表上的X轴)。因此,不应该对它们进行描述。从技术上讲,你可以在一组布尔值或日期上计算一个中值(你可以认为它们是依赖的),但一般来说没有多大意义。在字符串列上,可以计算字符串的平均长度、字符串中使用的不同字符数,甚至可以计算大小写字母数。但我真的不认为这些信息对任何人都有用。

谢谢你的回答,鲍里斯。这很有帮助,你的评论也很有意义。