Hadoop 如何使用Stanford NER CFR训练大型数据集

Hadoop 如何使用Stanford NER CFR训练大型数据集,hadoop,machine-learning,stanford-nlp,Hadoop,Machine Learning,Stanford Nlp,我正在使用,并且想要训练一个大型数据集,比如说10万篇新闻文章。如何训练数据,需要多长时间?我是机器学习领域的新手,想了解一些方向 问题1: 所有这些变量意味着什么?我应该特别注意哪些 numClasses:8 数字文件:100 金额:48721 数字特征:168489 将文档转换为数据/标签的时间:1.0秒 重量:4317368 QNMinimizer使用M=25调用4317368变量的双精度函数。 问题2:我应该在一台机器上运行培训,还是在像Hadoop这样的分布式系统上运行培训 问题3

我正在使用,并且想要训练一个大型数据集,比如说10万篇新闻文章。如何训练数据,需要多长时间?我是机器学习领域的新手,想了解一些方向

问题1: 所有这些变量意味着什么?我应该特别注意哪些


numClasses:8
数字文件:100
金额:48721
数字特征:168489
将文档转换为数据/标签的时间:1.0秒
重量:4317368
QNMinimizer使用M=25调用4317368变量的双精度函数。

问题2:我应该在一台机器上运行培训,还是在像Hadoop这样的分布式系统上运行培训

问题3:计算似乎是CPU和内存密集型的,如何克服这些要求?

  • 你能提供更多关于你的培训数据的细节吗。通常,您需要对NER系统进行人工标记数据的培训,例如2003 CoNLL数据集。您有多少人工标记的数据

  • NER系统的常见问题解答提供了一些关于减少内存的建议:

  • 此时,无法在多台机器上运行NER培训

  • 我对此并不乐观,但我认为默认情况下,CRFClassizer在评估渐变时将使用多线程…如果不使用多线程,则在属性中添加以下内容将导致它开始使用指定线程数的多线程:

    multiThreadGrad=4