Parquet 使用拼花地板进行实时查询
我正试图想出一个解决方案来实现实时性(可能在0.x秒内),我将使用拼花来存储数据。我想使用Presto和API来查询数据 我的问题是,由于拼花地板在HDFS中存储数据,文件在关闭之前是不可见的,因此如何有效地实现近实时查询结果 拼花地板文件必须在HDFS中足够快地关闭,以便查询工具能够查看和使用它们。但是,这意味着我不能在每个拼花地板文件中放入太多的数据,结果是有太多的小文件和/或不够实时。有没有更好的主意,或者拼花地板不是实时解决方案的好格式Parquet 使用拼花地板进行实时查询,parquet,presto,Parquet,Presto,我正试图想出一个解决方案来实现实时性(可能在0.x秒内),我将使用拼花来存储数据。我想使用Presto和API来查询数据 我的问题是,由于拼花地板在HDFS中存储数据,文件在关闭之前是不可见的,因此如何有效地实现近实时查询结果 拼花地板文件必须在HDFS中足够快地关闭,以便查询工具能够查看和使用它们。但是,这意味着我不能在每个拼花地板文件中放入太多的数据,结果是有太多的小文件和/或不够实时。有没有更好的主意,或者拼花地板不是实时解决方案的好格式 谢谢你的意见 你有没有想过如何做到这一点?我现在正
谢谢你的意见 你有没有想过如何做到这一点?我现在正在做一个类似的项目,需要近乎实时的查询,但运气不好。对不起,还没有。我在这个问题上没有花太多时间。