使用Talend循环浏览.csv文件_Talend

使用Talend循环浏览.csv文件

talend

使用Talend循环浏览.csv文件,talend,Talend,在这里完成noob，以实现总体上的数据集成。我们做了一些简单的事情，比如使用Talend将CSV加载到Oracle表。下面是现在的要求，并寻找一些想法开始请请求：在Unix环境中有一个文件夹，源应用程序在其中推出.csv文件daily@5AM. 它们的名称如下文件名_20200301.csv 文件名_20200302.csv 文件名\u 20200303.csv . . 等等，直到今天我必须每天早上创建一个Talend作业来解析这些csv文件，并将它们加载到oracle表中，我的BI/报

在这里完成noob，以实现总体上的数据集成。我们做了一些简单的事情，比如使用Talend将CSV加载到Oracle表。下面是现在的要求，并寻找一些想法开始请

请求：在Unix环境中有一个文件夹，源应用程序在其中推出.csv文件daily@5AM. 它们的名称如下

文件名_20200301.csv 文件名_20200302.csv 文件名\u 20200303.csv . . 等等，直到今天

我必须每天早上创建一个Talend作业来解析这些csv文件，并将它们加载到oracle表中，我的BI/报告团队可以在其中使用数据。此表将用作查找表，源将确保不以csv格式发送重复记录。这些文件通常每天大约有250-300行。计划是保持警惕，如果将来行的数量增加，那么可以考虑将日期的时间限制为滚动12个月。目前我有2020年3月1日至今的文件。目标Oracle架构/表始终相同

工具：Talend Data Fabric 7.1

我能想到以下步骤，但不知道如何开始步骤1）和步骤2） 1）连接到Unix服务器/共享位置。我有服务器详细信息/用户名/密码，但元数据中使用什么组件？ 2）解析上述位置上的文件。我应该使用TfileList吗？TFileInputDelimited从何而来？ 3）在使用TDBOutput推入oracle之前，可以使用Tmap进行一些清理/更改数据类型。我以前使用过这些组件，只是需要弄清楚如何插入到oracle表中，而不是截断/加载

有什么想法/其他很酷的方法吗。我走的路对吗？

对于步骤1，您可以使用tFTPGet将文件从Unix服务器/共享位置保存到本地计算机或作业服务器

然后，对于步骤2，正如您所提到的，您可以使用tFileList和tFileInputDelimited的组合

将tFileList设置为现在保存文件的目录（基于步骤1）
tFileList将遍历在目录中找到的文件
接下来，tFileInputDelimited将逐个解析每个csv
之后，您可以通过tMap进行所需的任何转换，并将其写入您的oracledb。您可以执行的另一个可选步骤是tUnite，这样您就可以一次性将数据写入数据库

希望这有帮助。

请使用下面的流程

tFTPFileList-->tFileInputDelimited-->tMap-->tOracleOutput

如果您不是从本地服务器拾取文件，请使用tFileList而不是tFTPFileList