Mysql 如何将数据从ASCII(ISO/IEC 8859-1)导入Rails/PGSQL数据库?
我试图使用美国农业部的数据,在这里可以找到: ASCII(8.6Mb)-此文件包含ASCII(ISO/IEC 8859-1)分隔文件中的SR26数据。这些表是以关系格式组织的,最好与关系数据库管理系统(RDBMS)一起使用,它允许您形成自己的数据库查询并生成自定义报告 我对这样处理数据还不熟悉,我想我可能会把它放在CSV中?但是,我可能会失去这些关系,所以我应该直接使用PGSQL。我不知道该怎么做Mysql 如何将数据从ASCII(ISO/IEC 8859-1)导入Rails/PGSQL数据库?,mysql,ruby-on-rails,postgresql,ruby-on-rails-4,import,Mysql,Ruby On Rails,Postgresql,Ruby On Rails 4,Import,我试图使用美国农业部的数据,在这里可以找到: ASCII(8.6Mb)-此文件包含ASCII(ISO/IEC 8859-1)分隔文件中的SR26数据。这些表是以关系格式组织的,最好与关系数据库管理系统(RDBMS)一起使用,它允许您形成自己的数据库查询并生成自定义报告 我对这样处理数据还不熟悉,我想我可能会把它放在CSV中?但是,我可能会失去这些关系,所以我应该直接使用PGSQL。我不知道该怎么做 正在寻找指导,谢谢。zip包含许多文件: inflating: DATA_SRC.txt
正在寻找指导,谢谢。zip包含许多文件:
inflating: DATA_SRC.txt
inflating: DATSRCLN.txt
inflating: DERIV_CD.txt
inflating: FD_GROUP.txt
inflating: FOOD_DES.txt
inflating: FOOTNOTE.txt
inflating: LANGDESC.txt
inflating: LANGUAL.txt
inflating: NUT_DATA.txt
inflating: NUTR_DEF.txt
inflating: sr26_doc.pdf
inflating: SRC_CD.txt
inflating: WEIGHT.txt
每一个都是一种奇怪的几乎类似CSV的格式,例如NUTR_DEF.txt
:
~287~^~g~^~GALS~^~Galactose~^~2~^~2100~
~291~^~g~^~FIBTG~^~Fiber, total dietary~^~1~^~1200~
加上sr26_doc.pdf
,文档
创建表定义
因此,您需要在这里为数据库创建SQL表定义—每个输入文件有一个表。为此,您需要创建表命令;请参阅PostgreSQL文档
PDF的第35页应该对您有所帮助-“图1.美国农业部国家营养素数据库中标准参考文件之间的关系”。以下几页描述了文件格式,告诉您每列的含义。您可以基于此描述编写CREATE TABLE
语句
这里有一个例子,第一个条目是FOOD_DES.txt
(FOOD description)
CREATE TABLE food_des (
"NDB_No" varchar(5) NOT NULL PRIMARY KEY,
"FdGrp_Cd" varchar(4) NOT NULL,
"Long_Desc" varchar(200) NOT NULL,
"Shrt_Desc" varchar(60) NOT NULL,
"ComName" varchar(100),
"ManufacName" varchar(65),
"Survey" varchar(1),
"Ref_desc" varchar(135),
"Refuse" smallint,
"SciName" varchar(65),
"N_Factor" NUMERIC(4,2),
"Pro_Factor" NUMERIC(4,2),
"Fat_Factor" NUMERIC(4,2),
"CHO_Factor" NUMERIC(4,2)
);
这是一个相当字面的描述副本。这不是我设计桌子的方式
我使用了NUMERIC
任意精度十进制浮点类型来提高非整数数字类型的精度。如果性能比准确性更重要,您可以使用float4
对于关系,可以使用外键
约束-只要colname coltype引用othertable(othercol)
就足以创建一个约束
重要信息:我用双引号引用了列名,以保留与定义中相同的名称。这意味着您在引用它们时必须始终使用双引号,例如从food_des中选择“NDB_No”代码>。如果你不想这样,就不要用双引号,或者选择不同的名字。你不必拘泥于他们使用的笨拙的缩写列名,写下以下内容也很合理:
CREATE TABLE food_description (
ndb_no varchar(5) NOT NULL PRIMARY KEY,
foodgroup_code varchar(4) NOT NULL,
long_description varchar(200) NOT NULL,
short_description varchar(60) NOT NULL,
common_name varchar(100),
manufacturer_name varchar(65),
类似地,如果您使用Rails,您可以将表定义转换为遵循Rails的约定,特别是如果您打算通过Rails进行数据加载
加载数据
如果这些文件是合理的分隔文件,则可以使用psql
命令\copy
或PgAdmin III的“导入”选项加载每个表
实际上是CSV,他们刚刚决定使用完全奇怪的分隔符和引号字符。通过以下方式通过psql导入:
\copy food_des FROM 'FOOD_DES.txt' (FORMAT CSV, DELIMITER '^', QUOTE '~');
或者在与PostgreSQL对话时使用的任何工具中的等效工具
结果是一个合理的表格:
craig=> select * from food_des limit 2;
NDB_No | FdGrp_Cd | Long_Desc | Shrt_Desc | ComName | ManufacName | Survey | Ref_desc | Refuse | SciName | N_Factor | Pro_Factor | Fat_Factor | CHO_Factor
--------+----------+----------------------------+--------------------------+---------+-------------+--------+----------+--------+---------+----------+------------+------------+------------
01001 | 0100 | Butter, salted | BUTTER,WITH SALT | | | Y | | 0 | | 6.38 | 4.27 | 8.79 | 3.87
01002 | 0100 | Butter, whipped, with salt | BUTTER,WHIPPED,WITH SALT | | | Y | | 0 | | 6.38 | 4.27 | 8.79 | 3.87
(2 rows)
类似地,如果使用Rails,您可以使用任何想要的Rails CSV库并批量加载到模型中。使用@craig ringer的提示,我创建了一个脚本,将原始USDA营养数据库文件迁移到postgreSQL
目前情况很艰难,但应该有助于开始
在这里查看:
他们有一个用于Microsoft access的数据库版本,如果你有,你可以下载到access,然后使用转换成MySQL。这是一个非常棒的响应。我要试一试。这是我第一次尝试这样的事情,所以我可能有更多的问题。非常感谢您的详尽回答和解释。对于完全相同的数据库有完全相同的问题:pI来到这里是为了完全相同的问题:P他们可能是唯一使用这种不常见格式的人