Graph 用于绘制大量web相关数据的应用程序

Graph 用于绘制大量web相关数据的应用程序,graph,Graph,我知道这与编程无关,但我希望一些反馈能帮助我走出困境 事实上,我们从web应用程序中获得了很多不同的数据,这些数据可以追溯到几年前 例如,我们 Apache日志文件 来自我们的跟踪软件(CSV)的每日统计数据文件 另一项来自全国广告排名(CSV)的每日统计数据 。。我也可以从其他来源获得新的数据 一些数据记录始于2005年,一些始于2006年,等等。然而,在某个时间点,我们开始拥有所有这些记录的数据 我正在寻找的是一个应用程序,可以理解所有数据,让我加载它们,比较单个数据集和时间线(以图形方

我知道这与编程无关,但我希望一些反馈能帮助我走出困境

事实上,我们从web应用程序中获得了很多不同的数据,这些数据可以追溯到几年前

例如,我们

  • Apache日志文件
  • 来自我们的跟踪软件(CSV)的每日统计数据文件
  • 另一项来自全国广告排名(CSV)的每日统计数据
  • 。。我也可以从其他来源获得新的数据
一些数据记录始于2005年,一些始于2006年,等等。然而,在某个时间点,我们开始拥有所有这些记录的数据

我正在寻找的是一个应用程序,可以理解所有数据,让我加载它们,比较单个数据集和时间线(以图形方式),比较同一时间跨度内的不同数据集,允许我过滤(尤其是Apache日志文件);当然,这一切都应该是互动的

仅BZ2压缩的Apache日志文件就已经达到21GB,每周都在增长

我在awstats、Nihu Web日志分析器或类似工具方面没有取得真正的成功。它们只能生成静态信息,但我需要交互式查询信息、应用过滤器、覆盖其他数据等等

我也尝试过数据挖掘工具,希望它们能帮助我,但并没有真正成功地使用它们(也就是说,它们超出了我的能力范围),例如RapidMiner

只是为了确保:它可以是一个商业应用程序。但我们必须找到真正有用的东西

不知何故,我得到的印象是,我在寻找一些不存在的东西,或者我的方法是错误的。欢迎任何提示

更新:

最后,我发现这是以下因素的混合:

  • 编写bash和PHP脚本来解析和管理日志文件的解析,包括许多过滤功能
  • 生成的普通旧CSV文件要读取到Excel中。我很幸运地使用了Excel2007,它的图形功能(尽管仍在处理一组固定的数据)帮助了我很多
  • 我使用AmazonEC2运行脚本并通过电子邮件向我发送CSV。我必须遍历大约200GB的数据,因此使用了一个大型实例来并行解析。我不得不执行多次解析尝试以获得正确的数据,总的处理时间为45分钟。我不知道没有亚马逊EC2我能做什么。我为它付出的每一分钱都是值得的

Splunk就是针对这类产品的。 不过我自己还没用过。

为了充分披露,我没有使用任何商业工具来描述您所描述的内容

你看过吗?它可能比您想要的更加手动,但它允许您查询许多不同的结构化格式

至于图形方面,它内置了一些基本的图表功能,但是通过将日志解析器输出转换为表格/分隔格式并加载到Excel中,您可能会获得更多的收益。从那里你可以绘制任何东西的图表


至于交叉连接不同的数据源,您可以随时将所有数据输入数据库,在那里您将拥有更丰富的数据查询语言。

您需要的是一个“数据挖掘框架”,也就是说,它会很高兴地吃掉千兆字节的随机数据,然后让你以未知的方式对其进行切片,以找到埋藏在静电层深处的金块

一些链接:

  • :“CloudBase是一个建立在Map Reduce体系结构之上的高性能数据仓库系统。它使业务分析师能够使用ANSI SQL直接查询网站、电信或It运营中产生的大规模日志文件。”

  • :“RapidMiner aleady是一个完整的数据挖掘和商业智能引擎,它还涵盖了从ETL(提取、转换和加载)到分析到报告的许多相关方面。”


开源数据挖掘和web挖掘软件可以导入Apache web服务器日志文件和CSV文件,还可以导入和导出Excel工作表。Rapid-I为RapidMiner提供了很多培训课程,其中一些课程还涉及web挖掘和web使用挖掘。

正如我所说,RapidMiner并不适合我。CloudBase阅读起来非常有趣,但从文档中收集到的信息看起来仍然非常原始,就像是一个“lucene”,没有任何内置的东西,可以像“Solr”一样开箱即用。或者换句话说:在我看来,对加载不同数据文件(SQL和GUI除外)的开箱即用支持并不是其中的一部分。ThxMark,在解析web服务器/ad数据时,您发现哪些类型的分析有用?您最想要什么互动功能?我正在考虑制作一个基于网络的程序,可以帮助你完成所有的工作。任何基于您的经验的见解都会很有帮助!