Hadoop 水槽NG和HDFS
我对hadoop非常陌生,所以请原谅这些愚蠢的问题 我有以下知识 Hadoop的最佳用例是大文件,因此在运行mapreduce任务时有助于提高效率 记住以上几点,我对Flume NG有些困惑。 假设我跟踪一个日志文件,每秒钟生成一次日志,当日志获得新行时,它将通过Flume传输到hdfs a) 这是否意味着flume会在我跟踪的日志文件中记录的每一行上创建一个新文件,还是会附加到现有的hdfs文件中 b) hdfs中首先允许追加吗 c) 如果b的答案为真??ie内容不断追加,我应该如何以及何时运行mapreduce应用程序 上述问题听起来可能很愚蠢,但如果您能回答同样的问题,我们将不胜感激Hadoop 水槽NG和HDFS,hadoop,hdfs,flume,Hadoop,Hdfs,Flume,我对hadoop非常陌生,所以请原谅这些愚蠢的问题 我有以下知识 Hadoop的最佳用例是大文件,因此在运行mapreduce任务时有助于提高效率 记住以上几点,我对Flume NG有些困惑。 假设我跟踪一个日志文件,每秒钟生成一次日志,当日志获得新行时,它将通过Flume传输到hdfs a) 这是否意味着flume会在我跟踪的日志文件中记录的每一行上创建一个新文件,还是会附加到现有的hdfs文件中 b) hdfs中首先允许追加吗 c) 如果b的答案为真??ie内容不断追加,我应该如何以及何时运
PS:我还没有建立Flume NG或hadoop,只是阅读文章来了解它如何为我的公司增加价值。Flume通过HDFS接收器写入HDFS。当Flume启动并开始接收事件时,接收器打开新文件并将事件写入其中。在某个点上,以前打开的文件应该被关闭,直到那时,正在写入的当前块中的数据对其他redaer是不可见的 如中所述,Flume HDFS接收器有几种文件关闭策略:
- 每N秒(由
选项指定)rollInterval
- 写入N字节后(
选项)rollSize
- 写入N个已接收事件后(
选项)rollCount
- N秒不活动后(
option)idleTimeout
inUsePrefix
选项-名称以开头的所有文件对MR作业不可见