Hadoop 如何使用Stanford NER CFR训练大型数据集_Hadoop_Machine Learning_Stanford Nlp

Hadoop 如何使用Stanford NER CFR训练大型数据集

hadoop machine-learning stanford-nlp

Hadoop 如何使用Stanford NER CFR训练大型数据集,hadoop,machine-learning,stanford-nlp,Hadoop,Machine Learning,Stanford Nlp,我正在使用，并且想要训练一个大型数据集，比如说10万篇新闻文章。如何训练数据，需要多长时间？我是机器学习领域的新手，想了解一些方向问题1：所有这些变量意味着什么？我应该特别注意哪些 numClasses:8 数字文件：100 金额：48721 数字特征：168489 将文档转换为数据/标签的时间：1.0秒重量：4317368 QNMinimizer使用M=25调用4317368变量的双精度函数。问题2：我应该在一台机器上运行培训，还是在像Hadoop这样的分布式系统上运行培训问题3

我正在使用，并且想要训练一个大型数据集，比如说10万篇新闻文章。如何训练数据，需要多长时间？我是机器学习领域的新手，想了解一些方向

问题1：所有这些变量意味着什么？我应该特别注意哪些


numClasses:8
数字文件：100
金额：48721
数字特征：168489
将文档转换为数据/标签的时间：1.0秒
重量：4317368
QNMinimizer使用M=25调用4317368变量的双精度函数。

问题2：我应该在一台机器上运行培训，还是在像Hadoop这样的分布式系统上运行培训

问题3：计算似乎是CPU和内存密集型的，如何克服这些要求？

你能提供更多关于你的培训数据的细节吗。通常，您需要对NER系统进行人工标记数据的培训，例如2003 CoNLL数据集。您有多少人工标记的数据
NER系统的常见问题解答提供了一些关于减少内存的建议：
此时，无法在多台机器上运行NER培训
我对此并不乐观，但我认为默认情况下，CRFClassizer在评估渐变时将使用多线程…如果不使用多线程，则在属性中添加以下内容将导致它开始使用指定线程数的多线程：
```
multiThreadGrad=4
```