Java 如何将HADOOP示例应用程序连接到活动网站以读取实时数据

Java 如何将HADOOP示例应用程序连接到活动网站以读取实时数据,java,hadoop,Java,Hadoop,我已经使用HADOOP创建了一个应用程序,用于从大量垃圾数据中检索某些信息。现在我想对从活动网站生成的数据执行同样的操作,因此请帮助我如何连接我的应用程序以从网站读取数据这是一个非常模糊的问题。您是否需要一个与Java一起使用的web抓取库?您希望如何实现这一点?数据存储在哪里?嘿,很简单,我想对大数据进行分析,所以我使用HADOOP创建了一个应用程序,该应用程序的功能是当我们将一个巨大的垃圾数据作为输入时,它将分析整个数据,并向我们提供所需的结果。结果可能是任何东西(一个城市名称、某个城市的天

我已经使用HADOOP创建了一个应用程序,用于从大量垃圾数据中检索某些信息。现在我想对从活动网站生成的数据执行同样的操作,因此请帮助我如何连接我的应用程序以从网站读取数据这是一个非常模糊的问题。您是否需要一个与Java一起使用的web抓取库?您希望如何实现这一点?数据存储在哪里?嘿,很简单,我想对大数据进行分析,所以我使用HADOOP创建了一个应用程序,该应用程序的功能是当我们将一个巨大的垃圾数据作为输入时,它将分析整个数据,并向我们提供所需的结果。结果可能是任何东西(一个城市名称、某个城市的天气信息、某个国家的交通信息等)现在我想对活动网站LIVE生成的数据做同样的事情。对于数据流,您可以使用kakfka(读取数据并发送给kafka broker-一个消息系统)和storm(从kafka读取流数据)的组合。在storm的另一端,您可以将数据存储在hadoop/hbase中。这是分析部分的第一部分(存储流式数据)。对于分析部分,您可以使用Map reduce/hive获取上面存储的数据。以上内容基于您的一般问题-处理流式数据。