Scala 使用Akka流读取大文件
我正在尝试Akka Streams,这里有一个简短的片段:Scala 使用Akka流读取大文件,scala,akka-stream,Scala,Akka Stream,我正在尝试Akka Streams,这里有一个简短的片段: override def main(args: Array[String]) { val filePath = "/Users/joe/Softwares/data/FoodFacts.csv"//args(0) val file = new File(filePath) println(file.getAbsolutePath) // read 1MB of file as a stream
override def main(args: Array[String]) {
val filePath = "/Users/joe/Softwares/data/FoodFacts.csv"//args(0)
val file = new File(filePath)
println(file.getAbsolutePath)
// read 1MB of file as a stream
val fileSource = SynchronousFileSource(file, 1 * 1024 * 1024)
val shaFlow = fileSource.map(chunk => {
println(s"the string obtained is ${chunk.toString}")
})
shaFlow.to(Sink.foreach(println(_))).run // fails with a null pointer
def sha256(s: String) = {
val messageDigest = MessageDigest.getInstance("SHA-256")
messageDigest.digest(s.getBytes("UTF-8"))
}
}
当我运行此代码段时,我得到:
Exception in thread "main" java.lang.NullPointerException
at akka.stream.scaladsl.RunnableGraph.run(Flow.scala:365)
at com.test.api.consumer.DataScienceBoot$.main(DataScienceBoot.scala:30)
at com.test.api.consumer.DataScienceBoot.main(DataScienceBoot.scala)
在我看来,文件源不是空的吗?为什么会这样?有什么想法吗?FoodFacts.csv的大小为40MB,而我要做的就是创建1MB的数据流
即使使用defaultChunkSize 8192也不起作用 井
1.0
已被弃用。如果可以,请使用2.x
当我使用FileIO.fromFile(file)
而不是SynchronousFileSource
尝试使用2.0.1
版本时,这是一个编译失败,消息为失败,指针为null
。这仅仅是因为它的作用域中没有actormatarializer
。包括它,使它工作:
object TImpl extends App {
import java.io.File
implicit val system = ActorSystem("Sys")
implicit val materializer = ActorMaterializer()
val file = new File("somefile.csv")
val fileSource = FileIO.fromFile(file,1 * 1024 * 1024 )
val shaFlow: Source[String, Future[Long]] = fileSource.map(chunk => {
s"the string obtained is ${chunk.toString()}"
})
shaFlow.runForeach(println(_))
}
这适用于任何大小的文件。有关dispatcher配置的更多信息,请参阅。您使用的是什么版本的akka streams?我认为SynchronousFileSource现在不推荐使用1.0。我应该使用哪一个来读取一个巨大的文件,并将块作为流传递?有什么线索吗?