Hadoop和Stata

Hadoop和Stata,hadoop,hive,apache-pig,stata,Hadoop,Hive,Apache Pig,Stata,有人有使用Stata和Hadoop的经验吗?斯塔塔13现在有了一个好机会,所以我认为让他们踢得好应该是很简单的 我特别感兴趣的是能够解析weblog数据,将其转换为适合统计分析的形式 最近有人提出了这个问题,但没有人回答,所以我想我会在观众更有可能体验到这项技术的地方尝试一下。我将(不)尝试一下。从JavaAPI的外观来看,调用方似乎将Stata本质上视为一个数据存储。如果是这样的话,那么我可以想象Stata将作为一个数据库融入hadoop世界,并通过其自己的InputFormat和Output

有人有使用Stata和Hadoop的经验吗?斯塔塔13现在有了一个好机会,所以我认为让他们踢得好应该是很简单的

我特别感兴趣的是能够解析weblog数据,将其转换为适合统计分析的形式

最近有人提出了这个问题,但没有人回答,所以我想我会在观众更有可能体验到这项技术的地方尝试一下。

我将(不)尝试一下。从JavaAPI的外观来看,调用方似乎将Stata本质上视为一个数据存储。如果是这样的话,那么我可以想象Stata将作为一个数据库融入hadoop世界,并通过其自己的InputFormat和OutputFormat进行访问。在您的特定情况下,我会想象您会编写一个StataOutputFormat,您的reducer将使用它来编写解析数据。唯一的缺点似乎是您引用的评论,即Stata应用程序往往是I/O绑定的,因此我不知道使用hadoop是否真的会对您有所帮助

  • 不管怎样,你都必须写下所有的数据
  • 无论您是否使用hadoop,该写操作都将是I/O绑定的
    • 迪米特里

      我认为使用麋鹿堆栈()做类似的事情会更容易。Logstash(中间层)在ApacheLucene引擎上构建了几个解析器/令牌化器/分析程序,用于清理和格式化日志数据,并可以将结果数据推送到elasticsearch中,elasticsearch公开了一个HTTP API,您可以很容易地卷曲以获得结果(例如,使用insheetjson并将HTTP GET请求作为URL传递,应该将其导入Stata,不会有太多问题)

      我一直在尝试拼凑一个程序来使用Jackson JSON库从Stata内部构建更健壮的JSON I/O功能,我绝对不介意尝试与其他人合作来完成它

      希望这有帮助,
      比利

      作为一名长期的体育坚定主义者,我觉得这种比较虽然善意,但有点令人反感。我自己的猜测是,你没有得到答案,因为答案是“不”@Nick Cox我不是故意侮辱。我非常尊重Statalist及其成员。我会改变我尴尬的措辞。最近有没有成功@DimitriyV.Masterov?一定要让我们知道这是怎么回事