Hadoop 处理从facebook导入的海量数据_Hadoop_Parallel Processing_Bigdata_Batch Processing_Job Scheduling

Hadoop 处理从facebook导入的海量数据

hadoop parallel-processing

Hadoop 处理从facebook导入的海量数据,hadoop,parallel-processing,bigdata,batch-processing,job-scheduling,Hadoop,Parallel Processing,Bigdata,Batch Processing,Job Scheduling,我目前正在创建一个程序，从Facebook导入用户想要的所有群组和订阅源。我曾经将GraphAPI与OAuth一起使用，效果非常好但我意识到一个请求无法处理1000组加上提要的导入因此，我正在寻找一种在后台将这些数据（如cron作业）导入数据库的解决方案要求在后台运行在Linux下运行宁静的问题你对此有什么经验 hadoop是正确的解决方案吗有趣的是，您已经自己设计了合适的解决方案。因此，实际上您需要以下组件：关系数据库，因为您希望以结构化、快速的方式请求数据 ->

我目前正在创建一个程序，从Facebook导入用户想要的所有群组和订阅源。我曾经将GraphAPI与OAuth一起使用，效果非常好

但我意识到一个请求无法处理1000组加上提要的导入

因此，我正在寻找一种在后台将这些数据（如cron作业）导入数据库的解决方案

要求

在后台运行
在Linux下运行
宁静的

问题

你对此有什么经验
hadoop是正确的解决方案吗

关系数据库，因为您希望以结构化、快速的方式请求数据
->根据经验，我希望有一个完全规范化的数据模型（在你的例子中是表用户、组、用户2组），在facebook的较大键上也有4字节的代理键（对于反向引用，你可以将它们的键存储为属性，但内部关系在代理键上更有效）
->基于散列而不是字符串（例如crc32（较低的（字符串）））建立索引-一个示例选择不是这样的：从name=SEARCHSTRING和hash=crc32（较低的（SEARCHSTRING））的用户中选择一些有用的内容
->永远不要基于长度>8字节的字符串建立唯一的列；通过insert…select，可以基于哈希+字符串检查完成唯一的批量插入
->一旦你解决了这个问题，你还可以研究稀疏矩阵（见维基百科）和位图来优化你的用户2组（不过我知道这是一个额外的，不应该妨碍你尽快拿出第一个版本）
定期运行的cron作业
->理想情况下，facebook会给你（因此，如果他们规定你的请求频率不超过每秒一次，请坚持这一点——不要超过每秒一次，但也要尽量接近上限）->如果需要触发不同类型的请求，请投入一些时间来解决这一问题（请求用户记录请求组记录，但可能受到相同上限的影响）
->大多数优化只能通过开发来完成——因此，如果我是你，我会坚持使用任何高级编程语言，这些语言不需要太多地处理var类型的杂耍，同时还广泛支持PHP等关联数组，我会自己编程
->我在将cron作业设置为带有停用输出缓冲的网页（对于php，请查看ob_end_flush（void））-易于测试，并且可以通过curl触发cron作业；如果您通过自己的函数（例如带有时间戳）传递状态输出这样也可以灵活地运行viw浏览器或通过命令行->这意味着高效测试+高效生产运行
您的用户界面，它只请求您的数据库，而从不请求外部系统api
大量内存，以保持高性能（最佳：所有数据+索引数据都适合数据库专用的数据库内存/缓存）
->如果您使用mysql作为数据库，您应该查看innodb\u flush\u log\u在\u trx\u commit=0，以及innodb\u buffer\u pool\u大小（如果有兴趣，只需谷歌）

MYSQL+足够的专用于数据库的RAM来加载所有数据
NEO4J+专用于数据库的足够RAM以加载所有数据

NEO4J+专用于数据库的RAM不足，无法加载所有数据
MYSQL+没有足够的专用于数据库的RAM来加载所有数据