Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/sql-server/27.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/sql-server-2005/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sql 与外部世界交换大型数据集的正确格式?_Sql_Sql Server_Sql Server 2005_Sql Server 2008_Etl - Fatal编程技术网

Sql 与外部世界交换大型数据集的正确格式?

Sql 与外部世界交换大型数据集的正确格式?,sql,sql-server,sql-server-2005,sql-server-2008,etl,Sql,Sql Server,Sql Server 2005,Sql Server 2008,Etl,在我的工作中,我们经常从各种不同的来源发送和接收大型数据集。我经常被问到的一个问题是“您希望数据采用什么格式?” 我通常要求提供TSV、CSV或XML格式的数据。我能够轻松地将所有这些导入到基于MS SQL的环境中 这是我的问题,如果我主要考虑的是1)导入的方便性2)数据完整性和3)大小(在磁盘上),还有更理想的格式吗?我使用CSV已经一年多了,我讨厌它只错了一个字符,导入失败。XML太重了。TSV非常好,但如果您可以选择固定宽度,文本文件很容易读取并导入到表中。制表符或逗号分隔符通常可以。易于

在我的工作中,我们经常从各种不同的来源发送和接收大型数据集。我经常被问到的一个问题是“您希望数据采用什么格式?”

我通常要求提供TSV、CSV或XML格式的数据。我能够轻松地将所有这些导入到基于MS SQL的环境中


这是我的问题,如果我主要考虑的是1)导入的方便性2)数据完整性和3)大小(在磁盘上),还有更理想的格式吗?

我使用CSV已经一年多了,我讨厌它只错了一个字符,导入失败。XML太重了。TSV非常好,但如果您可以选择固定宽度,文本文件很容易读取并导入到表中。

制表符或逗号分隔符通常可以。易于导入/导出到几乎任何系统。强调通常是,不过:嵌入换行符或列分隔符的数据可能会有问题。制表符/逗号分隔的数据也很容易通过其他软件“按原样”操作——perl脚本、javascript、Excel等

XML也是相当通用的。由于角括号税,它同时受到膨胀和缺乏可读性的影响:信号:噪声比相当低。它还需要支持XML的软件来处理或操作。另一方面,XML确实具有显式标识数据类型的能力。在系统之间传输数据时,日期/时间值可能有问题。XML[假定依赖于文档生产者的自愿一致性]标准化了日期/时间值的表示(ISO 8601,非常感谢)


但是,您忘记了另一个选项:使用JSON、YAML或其他轻量级标记语言。

提供一致的格式,这样您只需编写1个脚本:D,每个人都使用相同的格式:D,怎么样