Graph 用于绘制大量web相关数据的应用程序
我知道这与编程无关,但我希望一些反馈能帮助我走出困境 事实上,我们从web应用程序中获得了很多不同的数据,这些数据可以追溯到几年前 例如,我们Graph 用于绘制大量web相关数据的应用程序,graph,Graph,我知道这与编程无关,但我希望一些反馈能帮助我走出困境 事实上,我们从web应用程序中获得了很多不同的数据,这些数据可以追溯到几年前 例如,我们 Apache日志文件 来自我们的跟踪软件(CSV)的每日统计数据文件 另一项来自全国广告排名(CSV)的每日统计数据 。。我也可以从其他来源获得新的数据 一些数据记录始于2005年,一些始于2006年,等等。然而,在某个时间点,我们开始拥有所有这些记录的数据 我正在寻找的是一个应用程序,可以理解所有数据,让我加载它们,比较单个数据集和时间线(以图形方
- Apache日志文件
- 来自我们的跟踪软件(CSV)的每日统计数据文件
- 另一项来自全国广告排名(CSV)的每日统计数据
- 。。我也可以从其他来源获得新的数据
- 编写bash和PHP脚本来解析和管理日志文件的解析,包括许多过滤功能
- 生成的普通旧CSV文件要读取到Excel中。我很幸运地使用了Excel2007,它的图形功能(尽管仍在处理一组固定的数据)帮助了我很多
- 我使用AmazonEC2运行脚本并通过电子邮件向我发送CSV。我必须遍历大约200GB的数据,因此使用了一个大型实例来并行解析。我不得不执行多次解析尝试以获得正确的数据,总的处理时间为45分钟。我不知道没有亚马逊EC2我能做什么。我为它付出的每一分钱都是值得的
为了充分披露,我没有使用任何商业工具来描述您所描述的内容 你看过吗?它可能比您想要的更加手动,但它允许您查询许多不同的结构化格式 至于图形方面,它内置了一些基本的图表功能,但是通过将日志解析器输出转换为表格/分隔格式并加载到Excel中,您可能会获得更多的收益。从那里你可以绘制任何东西的图表
至于交叉连接不同的数据源,您可以随时将所有数据输入数据库,在那里您将拥有更丰富的数据查询语言。您需要的是一个“数据挖掘框架”,也就是说,它会很高兴地吃掉千兆字节的随机数据,然后让你以未知的方式对其进行切片,以找到埋藏在静电层深处的金块 一些链接:
- :“CloudBase是一个建立在Map Reduce体系结构之上的高性能数据仓库系统。它使业务分析师能够使用ANSI SQL直接查询网站、电信或It运营中产生的大规模日志文件。”
- :“RapidMiner aleady是一个完整的数据挖掘和商业智能引擎,它还涵盖了从ETL(提取、转换和加载)到分析到报告的许多相关方面。”