Mysql 如何将数据从ASCII(ISO/IEC 8859-1)导入Rails/PGSQL数据库?

Mysql 如何将数据从ASCII(ISO/IEC 8859-1)导入Rails/PGSQL数据库?,mysql,ruby-on-rails,postgresql,ruby-on-rails-4,import,Mysql,Ruby On Rails,Postgresql,Ruby On Rails 4,Import,我试图使用美国农业部的数据,在这里可以找到: ASCII(8.6Mb)-此文件包含ASCII(ISO/IEC 8859-1)分隔文件中的SR26数据。这些表是以关系格式组织的,最好与关系数据库管理系统(RDBMS)一起使用,它允许您形成自己的数据库查询并生成自定义报告 我对这样处理数据还不熟悉,我想我可能会把它放在CSV中?但是,我可能会失去这些关系,所以我应该直接使用PGSQL。我不知道该怎么做 正在寻找指导,谢谢。zip包含许多文件: inflating: DATA_SRC.txt

我试图使用美国农业部的数据,在这里可以找到:

ASCII(8.6Mb)-此文件包含ASCII(ISO/IEC 8859-1)分隔文件中的SR26数据。这些表是以关系格式组织的,最好与关系数据库管理系统(RDBMS)一起使用,它允许您形成自己的数据库查询并生成自定义报告

我对这样处理数据还不熟悉,我想我可能会把它放在CSV中?但是,我可能会失去这些关系,所以我应该直接使用PGSQL。我不知道该怎么做


正在寻找指导,谢谢。

zip包含许多文件:

  inflating: DATA_SRC.txt            
  inflating: DATSRCLN.txt            
  inflating: DERIV_CD.txt            
  inflating: FD_GROUP.txt            
  inflating: FOOD_DES.txt            
  inflating: FOOTNOTE.txt            
  inflating: LANGDESC.txt            
  inflating: LANGUAL.txt             
  inflating: NUT_DATA.txt            
  inflating: NUTR_DEF.txt            
  inflating: sr26_doc.pdf            
  inflating: SRC_CD.txt              
  inflating: WEIGHT.txt         
每一个都是一种奇怪的几乎类似CSV的格式,例如
NUTR_DEF.txt

~287~^~g~^~GALS~^~Galactose~^~2~^~2100~
~291~^~g~^~FIBTG~^~Fiber, total dietary~^~1~^~1200~
加上
sr26_doc.pdf
,文档

创建表定义 因此,您需要在这里为数据库创建SQL表定义—每个输入文件有一个表。为此,您需要
创建表
命令;请参阅PostgreSQL文档

PDF的第35页应该对您有所帮助-“图1.美国农业部国家营养素数据库中标准参考文件之间的关系”。以下几页描述了文件格式,告诉您每列的含义。您可以基于此描述编写
CREATE TABLE
语句

这里有一个例子,第一个条目是
FOOD_DES.txt
(FOOD description)

CREATE TABLE food_des (
    "NDB_No"      varchar(5) NOT NULL PRIMARY KEY,
    "FdGrp_Cd"    varchar(4) NOT NULL,
    "Long_Desc"   varchar(200) NOT NULL,
    "Shrt_Desc"   varchar(60) NOT NULL,
    "ComName"     varchar(100),
    "ManufacName" varchar(65),
    "Survey"      varchar(1),
    "Ref_desc"    varchar(135),
    "Refuse"      smallint,
    "SciName"     varchar(65),
    "N_Factor"    NUMERIC(4,2),
    "Pro_Factor"  NUMERIC(4,2),
    "Fat_Factor"  NUMERIC(4,2),
    "CHO_Factor"  NUMERIC(4,2)
);
这是一个相当字面的描述副本。这不是我设计桌子的方式

我使用了
NUMERIC
任意精度十进制浮点类型来提高非整数数字类型的精度。如果性能比准确性更重要,您可以使用
float4

对于关系,可以使用
外键
约束-只要
colname coltype引用othertable(othercol)
就足以创建一个约束

重要信息:我用双引号引用了列名,以保留与定义中相同的名称。这意味着您在引用它们时必须始终使用双引号,例如从food_des中选择“NDB_No”。如果你不想这样,就不要用双引号,或者选择不同的名字。你不必拘泥于他们使用的笨拙的缩写列名,写下以下内容也很合理:

CREATE TABLE food_description (
    ndb_no              varchar(5) NOT NULL PRIMARY KEY,
    foodgroup_code      varchar(4) NOT NULL,
    long_description    varchar(200) NOT NULL,
    short_description   varchar(60) NOT NULL,
    common_name         varchar(100),
    manufacturer_name   varchar(65),
类似地,如果您使用Rails,您可以将表定义转换为遵循Rails的约定,特别是如果您打算通过Rails进行数据加载

加载数据 如果这些文件是合理的分隔文件,则可以使用
psql
命令
\copy
或PgAdmin III的“导入”选项加载每个表

实际上是CSV,他们刚刚决定使用完全奇怪的分隔符和引号字符。通过以下方式通过psql导入:

\copy food_des FROM 'FOOD_DES.txt' (FORMAT CSV, DELIMITER '^', QUOTE '~');
或者在与PostgreSQL对话时使用的任何工具中的等效工具

结果是一个合理的表格:

craig=> select * from food_des limit 2;
 NDB_No | FdGrp_Cd |         Long_Desc          |        Shrt_Desc         | ComName | ManufacName | Survey | Ref_desc | Refuse | SciName | N_Factor | Pro_Factor | Fat_Factor | CHO_Factor 
--------+----------+----------------------------+--------------------------+---------+-------------+--------+----------+--------+---------+----------+------------+------------+------------
 01001  | 0100     | Butter, salted             | BUTTER,WITH SALT         |         |             | Y      |          |      0 |         |     6.38 |       4.27 |       8.79 |       3.87
 01002  | 0100     | Butter, whipped, with salt | BUTTER,WHIPPED,WITH SALT |         |             | Y      |          |      0 |         |     6.38 |       4.27 |       8.79 |       3.87
(2 rows)

类似地,如果使用Rails,您可以使用任何想要的Rails CSV库并批量加载到模型中。

使用@craig ringer的提示,我创建了一个脚本,将原始USDA营养数据库文件迁移到postgreSQL

目前情况很艰难,但应该有助于开始

在这里查看:

他们有一个用于Microsoft access的数据库版本,如果你有,你可以下载到access,然后使用转换成MySQL。

这是一个非常棒的响应。我要试一试。这是我第一次尝试这样的事情,所以我可能有更多的问题。非常感谢您的详尽回答和解释。对于完全相同的数据库有完全相同的问题:pI来到这里是为了完全相同的问题:P他们可能是唯一使用这种不常见格式的人