Hadoop Reduce代码在postgres中插入数据时会随机卡住

Hadoop Reduce代码在postgres中插入数据时会随机卡住,hadoop,mapreduce,postgresql-9.1,Hadoop,Mapreduce,Postgresql 9.1,我们有一个用Java编写的map reduce代码,它读取驱动程序中的多个小文件(比如10k+)转换为单个avro文件,reducer将一组简化的记录插入postgres数据库。这个过程每小时发生一次。但有多个map reduce作业同时运行,处理不同的avro文件,并为每个作业打开不同的数据库连接。因此,有时(非常随机)所有任务都卡在减速器阶段,但以下情况除外- "C2 CompilerThread0" daemon prio=10 tid=0x00007f78701ae000 nid

我们有一个用Java编写的map reduce代码,它读取驱动程序中的多个小文件(比如10k+)转换为单个avro文件,reducer将一组简化的记录插入postgres数据库。这个过程每小时发生一次。但有多个map reduce作业同时运行,处理不同的avro文件,并为每个作业打开不同的数据库连接。因此,有时(非常随机)所有任务都卡在减速器阶段,但以下情况除外-

    "C2 CompilerThread0" daemon prio=10 tid=0x00007f78701ae000 nid=0x6db5 waiting on condition [0x0000000000000000]
   java.lang.Thread.State: RUNNABLE

"Signal Dispatcher" daemon prio=10 tid=0x00007f78701ab800 nid=0x6db4 waiting on condition [0x0000000000000000]
   java.lang.Thread.State: RUNNABLE

"Surrogate Locker Thread (Concurrent GC)" daemon prio=10 tid=0x00007f78701a1800 nid=0x6db3 waiting on condition [0x0000000000000000]
   java.lang.Thread.State: RUNNABLE

"Finalizer" daemon prio=10 tid=0x00007f787018a800 nid=0x6db2 in Object.wait() [0x00007f7847941000]
   java.lang.Thread.State: WAITING (on object monitor)
    at java.lang.Object.wait(Native Method)
    - waiting on <0x00000006e5d34418> (a java.lang.ref.ReferenceQueue$Lock)
    at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:135)
    - locked <0x00000006e5d34418> (a java.lang.ref.ReferenceQueue$Lock)
    at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:151)
    at java.lang.ref.Finalizer$FinalizerThread.run(Finalizer.java:189)

"Reference Handler" daemon prio=10 tid=0x00007f7870181000 nid=0x6db1 in Object.wait() [0x00007f7847a42000]
   java.lang.Thread.State: WAITING (on object monitor)
    at java.lang.Object.wait(Native Method)
    - waiting on <0x00000006e5d32b50> (a java.lang.ref.Reference$Lock)
    at java.lang.Object.wait(Object.java:503)
    at java.lang.ref.Reference$ReferenceHandler.run(Reference.java:133)
    - locked <0x00000006e5d32b50> (a java.lang.ref.Reference$Lock)

"main" prio=10 tid=0x00007f7870013800 nid=0x6da1 runnable [0x00007f7877a7b000]
   java.lang.Thread.State: RUNNABLE
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.read(SocketInputStream.java:152)
    at java.net.SocketInputStream.read(SocketInputStream.java:122)
    at org.postgresql.core.VisibleBufferedInputStream.readMore(VisibleBufferedInputStream.java:143)
    at org.postgresql.core.VisibleBufferedInputStream.ensureBytes(VisibleBufferedInputStream.java:112)
    at org.postgresql.core.VisibleBufferedInputStream.read(VisibleBufferedInputStream.java:71)
    at org.postgresql.core.PGStream.ReceiveChar(PGStream.java:269)
    at org.postgresql.core.v3.QueryExecutorImpl.processResults(QueryExecutorImpl.java:1700)
    at org.postgresql.core.v3.QueryExecutorImpl.execute(QueryExecutorImpl.java:255)
    - locked <0x00000006e5d34520> (a org.postgresql.core.v3.QueryExecutorImpl)
    at org.postgresql.jdbc2.AbstractJdbc2Statement.execute(AbstractJdbc2Statement.java:555)
    at org.postgresql.jdbc2.AbstractJdbc2Statement.executeWithFlags(AbstractJdbc2Statement.java:417)
    at org.postgresql.jdbc2.AbstractJdbc2Statement.executeQuery(AbstractJdbc2Statement.java:302)
    at ComputeReducer.setup(ComputeReducer.java:299)
    at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:162)
    at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:610)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:444)
    at org.apache.hadoop.mapred.Child$4.run(Child.java:268)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1438)
    at org.apache.hadoop.mapred.Child.main(Child.java:262)

"VM Thread" prio=10 tid=0x00007f787017e800 nid=0x6db0 runnable 

"Gang worker#0 (Parallel GC Threads)" prio=10 tid=0x00007f7870024800 nid=0x6da2 runnable 

"Gang worker#1 (Parallel GC Threads)" prio=10 tid=0x00007f7870026800 nid=0x6da3 runnable 
“C2编译器线程0”守护程序prio=10 tid=0x00007f78701ae000 nid=0x6db5等待条件[0x0000000000000000]
java.lang.Thread.State:可运行
“信号调度器”守护程序prio=10 tid=0x00007f78701ab800 nid=0x6db4等待条件[0x0000000000000000]
java.lang.Thread.State:可运行
“代理锁线程(并发GC)”守护进程prio=10 tid=0x00007f78701a1800 nid=0x6db3等待条件[0x0000000000000000]
java.lang.Thread.State:可运行
对象中的“终结器”守护程序prio=10 tid=0x00007f787018a800 nid=0x6db2.wait()[0x00007f7847941000]
java.lang.Thread.State:正在等待(在对象监视器上)
在java.lang.Object.wait(本机方法)
-等待(java.lang.ref.ReferenceQueue$Lock)
位于java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:135)
-锁定(java.lang.ref.ReferenceQueue$Lock)
位于java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:151)
位于java.lang.ref.Finalizer$FinalizerThread.run(Finalizer.java:189)
对象中的“引用处理程序”守护程序prio=10 tid=0x00007f7870181000 nid=0x6db1.wait()[0x00007f7847a42000]
java.lang.Thread.State:正在等待(在对象监视器上)
在java.lang.Object.wait(本机方法)
-等待(java.lang.ref.Reference$Lock)
等待(Object.java:503)
在java.lang.ref.Reference$ReferenceHandler.run(Reference.java:133)
-锁定(一个java.lang.ref.Reference$Lock)
“主”优先级=10 tid=0x00007F787013800 nid=0x6da1可运行[0x00007F787A7B000]
java.lang.Thread.State:可运行
位于java.net.SocketInputStream.socketRead0(本机方法)
位于java.net.SocketInputStream.read(SocketInputStream.java:152)
位于java.net.SocketInputStream.read(SocketInputStream.java:122)
位于org.postgresql.core.VisibleBufferedInputStream.readMore(VisibleBufferedInputStream.java:143)
位于org.postgresql.core.VisibleBufferedInputStream.ensureBytes(VisibleBufferedInputStream.java:112)
位于org.postgresql.core.VisibleBufferedInputStream.read(VisibleBufferedInputStream.java:71)
位于org.postgresql.core.PGStream.ReceiveChar(PGStream.java:269)
位于org.postgresql.core.v3.QueryExecutorImpl.processResults(QueryExecutorImpl.java:1700)
位于org.postgresql.core.v3.QueryExecutorImpl.execute(QueryExecutorImpl.java:255)
-锁定(一个org.postgresql.core.v3.QueryExecutorImpl)
位于org.postgresql.jdbc2.AbstractJdbc2Statement.execute(AbstractJdbc2Statement.java:555)
位于org.postgresql.jdbc2.AbstractJdbc2Statement.executeWithFlags(AbstractJdbc2Statement.java:417)
位于org.postgresql.jdbc2.AbstractJdbc2Statement.executeQuery(AbstractJdbc2Statement.java:302)
在ComputeReducer.setup(ComputeReducer.java:299)
位于org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:162)
位于org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:610)
位于org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:444)
位于org.apache.hadoop.mapred.Child$4.run(Child.java:268)
位于java.security.AccessController.doPrivileged(本机方法)
位于javax.security.auth.Subject.doAs(Subject.java:415)
位于org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1438)
位于org.apache.hadoop.mapred.Child.main(Child.java:262)
“VM线程”优先级=10 tid=0x00007f787017e800 nid=0x6db0可运行
“帮派工人#0(并行GC线程)”prio=10 tid=0x00007f7870024800 nid=0x6da2可运行
“帮派工人#1(并行GC线程)”prio=10 tid=0x00007f7870026800 nid=0x6da3可运行
发生此异常后,我们必须重新启动数据库,否则所有reduce作业的空闲率将保持在70%左右,甚至下一个小时的作业也无法运行。最初,它用于排出打开连接的数量,但在将连接增加到相当高的数量后,情况并非如此。我应该指出,我不是数据库专家,所以请建议任何可能有帮助的配置更改。只是为了确认这似乎是数据库配置问题吗?如果是,那么通过postgres配置连接池是否有助于解决此问题


非常感谢您的帮助/建议!提前谢谢。

我最初的想法是,如果它是随机的,它可能是一个锁。有两个区域可以查找锁:

共享资源上的线程之间的锁和数据库对象上的锁

我在堆栈跟踪中没有看到任何迹象表明这是一个数据库锁问题,但这可能是由于未关闭事务导致的,因此不会出现死锁,但您正在等待插入


Java代码中更有可能出现死锁,可能两个等待的线程正在互相等待?

我最初的想法是,如果它是随机的,那么它可能是一个锁。有两个区域可以查找锁:

共享资源上的线程之间的锁和数据库对象上的锁

我在堆栈跟踪中没有看到任何迹象表明这是一个数据库锁问题,但这可能是由于未关闭事务导致的,因此不会出现死锁,但您正在等待插入


更有可能是Java代码中出现死锁,可能是两个等待的线程正在互相等待?

我想补充我的发现, 在重构代码后,它正常工作了几个月,然后这个问题再次出现,我们认为这是一个hadoop集群问题,所以创建了一个新的hadoop集群,但这也没有解决问题。最后,我们查看了最大的数据库表,它有更多的