Marklogic mlcp不会加载目录中的大量文件

Marklogic mlcp不会加载目录中的大量文件,marklogic,mlcp,Marklogic,Mlcp,请参见下面的编辑 我们使用MarkLogic内容泵将数据加载到ML8数据库中。 我们有一个一切正常的开发环境和一个mlcp无法通过要处理的文件数量评估的产品 我们有210万个JSON文档要加载 在开发服务器(ML8+CentOS6)上,我们看到: 15/07/13 13:19:35 INFO contentpump.ContentPump: Hadoop library version: 2.0.0-alpha 15/07/13 13:19:35 INFO contentpump.LocalJo

请参见下面的编辑

我们使用MarkLogic内容泵将数据加载到ML8数据库中。 我们有一个一切正常的开发环境和一个mlcp无法通过要处理的文件数量评估的产品

我们有210万个JSON文档要加载

在开发服务器(ML8+CentOS6)上,我们看到:

15/07/13 13:19:35 INFO contentpump.ContentPump: Hadoop library version: 2.0.0-alpha
15/07/13 13:19:35 INFO contentpump.LocalJobRunner: Content type is set to MIXED.  The format of the  inserted documents will be determined by the MIME  type specification configured on MarkLogic Server.
15/07/13 13:19:35 WARN util.KerberosName: Kerberos krb5 configuration not found, setting default realm to empty
15/07/13 13:23:06 INFO input.FileInputFormat: Total input paths to process : 2147329
15/07/13 13:24:08 INFO contentpump.LocalJobRunner:  completed 0%
15/07/13 13:34:43 INFO contentpump.LocalJobRunner:  completed 1%
15/07/13 13:43:42 INFO contentpump.LocalJobRunner:  completed 2%
15/07/13 13:51:15 INFO contentpump.LocalJobRunner:  completed 3%
并完成正常,数据加载正常

现在,我们在另一台机器上使用相同的数据——prod服务器(ML8+CentOS7)我们得到的数据

除了不同的操作系统之外,我们在de prod server 2.6.0而不是2.0.0上还有一个更新版本的mlcp。如果我们使用相同的命令导入一个只有2000个文件的目录,它将在prod上工作

计算要处理的文件数时,作业被卡住

问题是什么

开始编辑 我们将mlcp置于调试状态,并使用一个小samle.zip进行测试

结果:

[ashraf@77-72-150-125 ~]$ mlcp.sh import -host localhost -port 8140 -username ashraf -password duurz44m -input_file_path /home/ashraf/sample2.zip -input_compressed true  -mode local -output_uri_replace  "\".*,''\"" -output_uri_prefix incoming/linkedin/ -output_collections incoming,incoming/linkedin -output_permissions slush-dikw-node-role,read
15/07/16 16:36:31 DEBUG contentpump.ContentPump: Command: IMPORT
15/07/16 16:36:31 DEBUG contentpump.ContentPump: Arguments: -host localhost -port 8140 -username ashraf -password duurz44m -input_file_path /home/ashraf/sample2.zip -input_compressed true -mode local -output_uri_replace ".*,''" -output_uri_prefix incoming/linkedin/ -output_collections incoming,incoming/linkedin -output_permissions slush-dikw-node-role,read 
15/07/16 16:36:31 INFO contentpump.ContentPump: Hadoop library version: 2.6.0
15/07/16 16:36:31 DEBUG contentpump.ContentPump: Running in: localmode
15/07/16 16:36:31 INFO contentpump.LocalJobRunner: Content type is set to MIXED.  The format of the  inserted documents will be determined by the MIME  type specification configured on MarkLogic Server.
15/07/16 16:36:32 DEBUG contentpump.LocalJobRunner: Thread pool size: 4
15/07/16 16:36:32 INFO input.FileInputFormat: Total input paths to process : 1
15/07/16 16:36:33 DEBUG contentpump.LocalJobRunner: Thread Count for Split#0 : 4
15/07/16 16:36:33 DEBUG contentpump.CompressedDocumentReader: Starting file:/home/ashraf/sample2.zip
15/07/16 16:36:33 DEBUG contentpump.MultithreadedMapper: Running with 4 threads
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:34 INFO contentpump.LocalJobRunner:  completed 0%
15/07/16 16:36:39 INFO contentpump.LocalJobRunner:  completed 100%
2015-07-16 16:39:11.483 WARNING [19] (AbstractRequestController.runRequest): Error parsing HTTP headers: Premature EOF, partial header line read: ''
15/07/16 16:39:12 DEBUG contentpump.CompressedDocumentReader: Closing file:/home/ashraf/sample2.zip
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: com.marklogic.contentpump.ContentPumpStats: 
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: ATTEMPTED_INPUT_RECORD_COUNT: 1993
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: SKIPPED_INPUT_RECORD_COUNT: 0
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: Total execution time: 160 sec
数据库中只有第一个json文件,其余的被删除/丢失

tehre是JSON文件中的换行符问题吗

(AbstractRequestController.runRequest): Error parsing HTTP headers: Premature EOF, partial header line read: ''
任何提示都很好


雨果

我真的不知道发生了什么事。我想支持部门会对这个案子感兴趣。你能给他们或我发一封邮件,里面有更多的细节(也许还有文件)

作为一种解决方法:在prod server上使用与在dev上使用的相同的MLCP版本应该并不困难,只需将其放在另一个版本旁边(或任何您喜欢的地方),并确保引用该版本(提示:在Roxy中,您具有
MLCP主页
设置)

您还可以考虑压缩JSON文档并使用<代码> -IpPuthSubjult>代码>选项.< /P>


MLCP有一个conf/log4j.properties文件。请启用调试(取消最后两行的注释),并让我们知道这说明了什么。我们将mlcp置于调试模式。。。请参见编辑的问题以了解结果
(AbstractRequestController.runRequest): Error parsing HTTP headers: Premature EOF, partial header line read: ''