使用Talend循环浏览.csv文件

使用Talend循环浏览.csv文件,talend,Talend,在这里完成noob,以实现总体上的数据集成。我们做了一些简单的事情,比如使用Talend将CSV加载到Oracle表。下面是现在的要求,并寻找一些想法开始请 请求: 在Unix环境中有一个文件夹,源应用程序在其中推出.csv文件daily@5AM. 它们的名称如下 文件名_20200301.csv 文件名_20200302.csv 文件名\u 20200303.csv . . 等等,直到今天 我必须每天早上创建一个Talend作业来解析这些csv文件,并将它们加载到oracle表中,我的BI/报

在这里完成noob,以实现总体上的数据集成。我们做了一些简单的事情,比如使用Talend将CSV加载到Oracle表。下面是现在的要求,并寻找一些想法开始请

请求: 在Unix环境中有一个文件夹,源应用程序在其中推出.csv文件daily@5AM. 它们的名称如下

文件名_20200301.csv 文件名_20200302.csv 文件名\u 20200303.csv . . 等等,直到今天

我必须每天早上创建一个Talend作业来解析这些csv文件,并将它们加载到oracle表中,我的BI/报告团队可以在其中使用数据。此表将用作查找表,源将确保不以csv格式发送重复记录。 这些文件通常每天大约有250-300行。计划是保持警惕,如果将来行的数量增加,那么可以考虑将日期的时间限制为滚动12个月。 目前我有2020年3月1日至今的文件。 目标Oracle架构/表始终相同

工具:Talend Data Fabric 7.1

我能想到以下步骤,但不知道如何开始步骤1)和步骤2) 1) 连接到Unix服务器/共享位置。我有服务器详细信息/用户名/密码,但元数据中使用什么组件? 2) 解析上述位置上的文件。我应该使用TfileList吗?TFileInputDelimited从何而来? 3) 在使用TDBOutput推入oracle之前,可以使用Tmap进行一些清理/更改数据类型。我以前使用过这些组件,只是需要弄清楚如何插入到oracle表中,而不是截断/加载


有什么想法/其他很酷的方法吗。我走的路对吗?

对于步骤1,您可以使用tFTPGet将文件从Unix服务器/共享位置保存到本地计算机或作业服务器

然后,对于步骤2,正如您所提到的,您可以使用tFileList和tFileInputDelimited的组合

  • 将tFileList设置为现在保存文件的目录(基于步骤1)
  • tFileList将遍历在目录中找到的文件
  • 接下来,tFileInputDelimited将逐个解析每个csv
  • 之后,您可以通过tMap进行所需的任何转换,并将其写入您的oracledb。您可以执行的另一个可选步骤是tUnite,这样您就可以一次性将数据写入数据库
希望这有帮助。

请使用下面的流程

tFTPFileList-->tFileInputDelimited-->tMap-->tOracleOutput

如果您不是从本地服务器拾取文件,请使用tFileList而不是tFTPFileList