Marklogic mlcp不会加载目录中的大量文件_Marklogic_Mlcp

Marklogic mlcp不会加载目录中的大量文件

marklogic

Marklogic mlcp不会加载目录中的大量文件,marklogic,mlcp,Marklogic,Mlcp,请参见下面的编辑我们使用MarkLogic内容泵将数据加载到ML8数据库中。我们有一个一切正常的开发环境和一个mlcp无法通过要处理的文件数量评估的产品我们有210万个JSON文档要加载在开发服务器（ML8+CentOS6）上，我们看到： 15/07/13 13:19:35 INFO contentpump.ContentPump: Hadoop library version: 2.0.0-alpha 15/07/13 13:19:35 INFO contentpump.LocalJo

请参见下面的编辑

我们使用MarkLogic内容泵将数据加载到ML8数据库中。我们有一个一切正常的开发环境和一个mlcp无法通过要处理的文件数量评估的产品

我们有210万个JSON文档要加载

在开发服务器（ML8+CentOS6）上，我们看到：

15/07/13 13:19:35 INFO contentpump.ContentPump: Hadoop library version: 2.0.0-alpha
15/07/13 13:19:35 INFO contentpump.LocalJobRunner: Content type is set to MIXED.  The format of the  inserted documents will be determined by the MIME  type specification configured on MarkLogic Server.
15/07/13 13:19:35 WARN util.KerberosName: Kerberos krb5 configuration not found, setting default realm to empty
15/07/13 13:23:06 INFO input.FileInputFormat: Total input paths to process : 2147329
15/07/13 13:24:08 INFO contentpump.LocalJobRunner:  completed 0%
15/07/13 13:34:43 INFO contentpump.LocalJobRunner:  completed 1%
15/07/13 13:43:42 INFO contentpump.LocalJobRunner:  completed 2%
15/07/13 13:51:15 INFO contentpump.LocalJobRunner:  completed 3%

并完成正常，数据加载正常

现在，我们在另一台机器上使用相同的数据——prod服务器（ML8+CentOS7）我们得到的数据

除了不同的操作系统之外，我们在de prod server 2.6.0而不是2.0.0上还有一个更新版本的mlcp。如果我们使用相同的命令导入一个只有2000个文件的目录，它将在prod上工作

计算要处理的文件数时，作业被卡住

问题是什么

开始编辑我们将mlcp置于调试状态，并使用一个小samle.zip进行测试

结果:

[ashraf@77-72-150-125 ~]$ mlcp.sh import -host localhost -port 8140 -username ashraf -password duurz44m -input_file_path /home/ashraf/sample2.zip -input_compressed true  -mode local -output_uri_replace  "\".*,''\"" -output_uri_prefix incoming/linkedin/ -output_collections incoming,incoming/linkedin -output_permissions slush-dikw-node-role,read
15/07/16 16:36:31 DEBUG contentpump.ContentPump: Command: IMPORT
15/07/16 16:36:31 DEBUG contentpump.ContentPump: Arguments: -host localhost -port 8140 -username ashraf -password duurz44m -input_file_path /home/ashraf/sample2.zip -input_compressed true -mode local -output_uri_replace ".*,''" -output_uri_prefix incoming/linkedin/ -output_collections incoming,incoming/linkedin -output_permissions slush-dikw-node-role,read 
15/07/16 16:36:31 INFO contentpump.ContentPump: Hadoop library version: 2.6.0
15/07/16 16:36:31 DEBUG contentpump.ContentPump: Running in: localmode
15/07/16 16:36:31 INFO contentpump.LocalJobRunner: Content type is set to MIXED.  The format of the  inserted documents will be determined by the MIME  type specification configured on MarkLogic Server.
15/07/16 16:36:32 DEBUG contentpump.LocalJobRunner: Thread pool size: 4
15/07/16 16:36:32 INFO input.FileInputFormat: Total input paths to process : 1
15/07/16 16:36:33 DEBUG contentpump.LocalJobRunner: Thread Count for Split#0 : 4
15/07/16 16:36:33 DEBUG contentpump.CompressedDocumentReader: Starting file:/home/ashraf/sample2.zip
15/07/16 16:36:33 DEBUG contentpump.MultithreadedMapper: Running with 4 threads
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:33 DEBUG mapreduce.ContentWriter: Connect to localhost
15/07/16 16:36:34 INFO contentpump.LocalJobRunner:  completed 0%
15/07/16 16:36:39 INFO contentpump.LocalJobRunner:  completed 100%
2015-07-16 16:39:11.483 WARNING [19] (AbstractRequestController.runRequest): Error parsing HTTP headers: Premature EOF, partial header line read: ''
15/07/16 16:39:12 DEBUG contentpump.CompressedDocumentReader: Closing file:/home/ashraf/sample2.zip
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: com.marklogic.contentpump.ContentPumpStats: 
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: ATTEMPTED_INPUT_RECORD_COUNT: 1993
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: SKIPPED_INPUT_RECORD_COUNT: 0
15/07/16 16:39:12 INFO contentpump.LocalJobRunner: Total execution time: 160 sec

数据库中只有第一个json文件，其余的被删除/丢失

tehre是JSON文件中的换行符问题吗

(AbstractRequestController.runRequest): Error parsing HTTP headers: Premature EOF, partial header line read: ''

任何提示都很好

雨果

我真的不知道发生了什么事。我想支持部门会对这个案子感兴趣。你能给他们或我发一封邮件，里面有更多的细节（也许还有文件）

作为一种解决方法：在prod server上使用与在dev上使用的相同的MLCP版本应该并不困难，只需将其放在另一个版本旁边（或任何您喜欢的地方），并确保引用该版本（提示：在Roxy中，您具有

MLCP主页

设置）

您还可以考虑压缩JSON文档并使用<代码> -IpPuthSubjult>代码>选项.< /P>

嗯

MLCP有一个conf/log4j.properties文件。请启用调试（取消最后两行的注释），并让我们知道这说明了什么。我们将mlcp置于调试模式。。。请参见编辑的问题以了解结果

(AbstractRequestController.runRequest): Error parsing HTTP headers: Premature EOF, partial header line read: ''