Mysql 如何将数据从ASCII（ISO/IEC 8859-1）导入Rails/PGSQL数据库？_Mysql_Ruby On Rails_Postgresql_Ruby On Rails 4_Import

Mysql 如何将数据从ASCII（ISO/IEC 8859-1）导入Rails/PGSQL数据库？

mysql ruby-on-rails postgresql ruby-on-rails-4 import

Mysql 如何将数据从ASCII（ISO/IEC 8859-1）导入Rails/PGSQL数据库？,mysql,ruby-on-rails,postgresql,ruby-on-rails-4,import,Mysql,Ruby On Rails,Postgresql,Ruby On Rails 4,Import,我试图使用美国农业部的数据，在这里可以找到： ASCII（8.6Mb）-此文件包含ASCII（ISO/IEC 8859-1）分隔文件中的SR26数据。这些表是以关系格式组织的，最好与关系数据库管理系统（RDBMS）一起使用，它允许您形成自己的数据库查询并生成自定义报告我对这样处理数据还不熟悉，我想我可能会把它放在CSV中？但是，我可能会失去这些关系，所以我应该直接使用PGSQL。我不知道该怎么做正在寻找指导，谢谢。zip包含许多文件： inflating: DATA_SRC.txt

我试图使用美国农业部的数据，在这里可以找到：

ASCII（8.6Mb）-此文件包含ASCII（ISO/IEC 8859-1）分隔文件中的SR26数据。这些表是以关系格式组织的，最好与关系数据库管理系统（RDBMS）一起使用，它允许您形成自己的数据库查询并生成自定义报告

我对这样处理数据还不熟悉，我想我可能会把它放在CSV中？但是，我可能会失去这些关系，所以我应该直接使用PGSQL。我不知道该怎么做

正在寻找指导，谢谢。

zip包含许多文件：

  inflating: DATA_SRC.txt            
  inflating: DATSRCLN.txt            
  inflating: DERIV_CD.txt            
  inflating: FD_GROUP.txt            
  inflating: FOOD_DES.txt            
  inflating: FOOTNOTE.txt            
  inflating: LANGDESC.txt            
  inflating: LANGUAL.txt             
  inflating: NUT_DATA.txt            
  inflating: NUTR_DEF.txt            
  inflating: sr26_doc.pdf            
  inflating: SRC_CD.txt              
  inflating: WEIGHT.txt

每一个都是一种奇怪的几乎类似CSV的格式，例如

NUTR_DEF.txt

：

~287~^~g~^~GALS~^~Galactose~^~2~^~2100~
~291~^~g~^~FIBTG~^~Fiber, total dietary~^~1~^~1200~

加上

sr26_doc.pdf

，文档

创建表定义因此，您需要在这里为数据库创建SQL表定义—每个输入文件有一个表。为此，您需要

创建表命令；请参阅PostgreSQL文档
PDF的第35页应该对您有所帮助-“图1.美国农业部国家营养素数据库中标准参考文件之间的关系”。以下几页描述了文件格式，告诉您每列的含义。您可以基于此描述编写CREATE TABLE
语句
这里有一个例子，第一个条目是FOOD_DES.txt
（FOOD description）
CREATE TABLE food_des (
    "NDB_No"      varchar(5) NOT NULL PRIMARY KEY,
    "FdGrp_Cd"    varchar(4) NOT NULL,
    "Long_Desc"   varchar(200) NOT NULL,
    "Shrt_Desc"   varchar(60) NOT NULL,
    "ComName"     varchar(100),
    "ManufacName" varchar(65),
    "Survey"      varchar(1),
    "Ref_desc"    varchar(135),
    "Refuse"      smallint,
    "SciName"     varchar(65),
    "N_Factor"    NUMERIC(4,2),
    "Pro_Factor"  NUMERIC(4,2),
    "Fat_Factor"  NUMERIC(4,2),
    "CHO_Factor"  NUMERIC(4,2)
);

这是一个相当字面的描述副本。这不是我设计桌子的方式
我使用了NUMERIC
任意精度十进制浮点类型来提高非整数数字类型的精度。如果性能比准确性更重要，您可以使用float4

对于关系，可以使用外键
约束-只要colname coltype引用othertable（othercol）
就足以创建一个约束
重要信息：我用双引号引用了列名，以保留与定义中相同的名称。这意味着您在引用它们时必须始终使用双引号，例如从food_des中选择“NDB_No”。如果你不想这样，就不要用双引号，或者选择不同的名字。你不必拘泥于他们使用的笨拙的缩写列名，写下以下内容也很合理：
CREATE TABLE food_description (
    ndb_no              varchar(5) NOT NULL PRIMARY KEY,
    foodgroup_code      varchar(4) NOT NULL,
    long_description    varchar(200) NOT NULL,
    short_description   varchar(60) NOT NULL,
    common_name         varchar(100),
    manufacturer_name   varchar(65),

类似地，如果您使用Rails，您可以将表定义转换为遵循Rails的约定，特别是如果您打算通过Rails进行数据加载
加载数据
如果这些文件是合理的分隔文件，则可以使用psql
命令\copy
或PgAdmin III的“导入”选项加载每个表
实际上是CSV，他们刚刚决定使用完全奇怪的分隔符和引号字符。通过以下方式通过psql导入：
\copy food_des FROM 'FOOD_DES.txt' (FORMAT CSV, DELIMITER '^', QUOTE '~');

或者在与PostgreSQL对话时使用的任何工具中的等效工具
结果是一个合理的表格：
craig=> select * from food_des limit 2;
 NDB_No | FdGrp_Cd |         Long_Desc          |        Shrt_Desc         | ComName | ManufacName | Survey | Ref_desc | Refuse | SciName | N_Factor | Pro_Factor | Fat_Factor | CHO_Factor 
--------+----------+----------------------------+--------------------------+---------+-------------+--------+----------+--------+---------+----------+------------+------------+------------
 01001  | 0100     | Butter, salted             | BUTTER,WITH SALT         |         |             | Y      |          |      0 |         |     6.38 |       4.27 |       8.79 |       3.87
 01002  | 0100     | Butter, whipped, with salt | BUTTER,WHIPPED,WITH SALT |         |             | Y      |          |      0 |         |     6.38 |       4.27 |       8.79 |       3.87
(2 rows)

类似地，如果使用Rails，您可以使用任何想要的Rails CSV库并批量加载到模型中。
使用@craig ringer的提示，我创建了一个脚本，将原始USDA营养数据库文件迁移到postgreSQL
目前情况很艰难，但应该有助于开始
在这里查看：
他们有一个用于Microsoft access的数据库版本，如果你有，你可以下载到access，然后使用转换成MySQL。
这是一个非常棒的响应。我要试一试。这是我第一次尝试这样的事情，所以我可能有更多的问题。非常感谢您的详尽回答和解释。对于完全相同的数据库有完全相同的问题：pI来到这里是为了完全相同的问题：P他们可能是唯一使用这种不常见格式的人