Machine learning 为什么MITIE被段分类器卡住了?

Machine learning 为什么MITIE被段分类器卡住了?,machine-learning,nlp,Machine Learning,Nlp,我正在使用MITIE建立一个模型,该模型包含1400个句子,长度在3-10个单词之间,与大约120个意图配对。我的模型训练卡在第二部分:训练段分类器上。我让它运行了14个小时才终止 我的机器有2.4 GHz Intel Core i7和8 GB 1600 MHz DDR3,段分类器使用所有可用内存(约7gb),最终依赖压缩内存,最后一次会话结束时,活动监视器显示32gb已使用和27gb已压缩。而段分类器从未完成 我当前的输出如下: INFO:rasa_nlu.model:Starting to

我正在使用MITIE建立一个模型,该模型包含1400个句子,长度在3-10个单词之间,与大约120个意图配对。我的模型训练卡在
第二部分:训练段分类器上。我让它运行了14个小时才终止

我的机器有
2.4 GHz Intel Core i7
8 GB 1600 MHz DDR3
段分类器使用所有可用内存(约7gb),最终依赖压缩内存,最后一次会话结束时,活动监视器显示
32gb
已使用和
27gb
已压缩。而
段分类器
从未完成

我当前的输出如下:

INFO:rasa_nlu.model:Starting to train component nlp_mitie
INFO:rasa_nlu.model:Finished training component.
INFO:rasa_nlu.model:Starting to train component tokenizer_mitie
INFO:rasa_nlu.model:Finished training component.
INFO:rasa_nlu.model:Starting to train component ner_mitie
Training to recognize 20 labels: 'pet', 'room_number', 'broken_things', '@sys.ignore', 'climate', 'facility', 'gym', 'medicine', 'item', 'exercise_equipment
', 'service', 'number', 'electronic_device', 'charger', 'toiletries', 'time', 'date', 'facility_hours', 'cost_inquiry', 'tv channel'
Part I: train segmenter
words in dictionary: 200000
num features: 271

now do training
C:           20
epsilon:     0.01
num threads: 1
cache size:  5
max iterations: 2000
loss per missed segment:  3
C: 20   loss: 3         0.669591
C: 35   loss: 3         0.690058
C: 20   loss: 4.5       0.701754
C: 5   loss: 3  0.616959
C: 20   loss: 1.5       0.634503
C: 28.3003   loss: 5.74942      0.71345
C: 25.9529   loss: 5.72171      0.707602
C: 27.7407   loss: 5.97907      0.707602
C: 30.2561   loss: 5.61669      0.701754
C: 27.747   loss: 5.66612       0.710526
C: 28.9754   loss: 5.82319      0.707602
best C: 28.3003
best loss: 5.74942
num feats in chunker model: 4095
train: precision, recall, f1-score: 0.805851 0.885965 0.844011
Part I: elapsed time: 180 seconds.

Part II: train segment classifier
now do training
num training samples: 415

我理解这可能是由冗余标签引起的问题(如上所述);但是,我所有的标签都是唯一的。我的理解是,训练不应该花费这么长的时间或使用这么多的记忆。我看到其他人发布了类似的问题,但还没有提供解决方案。是什么导致了如此高的内存使用率和疯狂的训练时间?它是如何修复的?

过去几天我也面临同样的问题。也许你的内存快用完了。我也有同样的8gb内存和核心i5 3470,一个四核cpu和4个线程。训练要花很多时间。增加RAM并切换到更快的处理器肯定会解决这个问题。如果您能够解决您的问题,也请告诉我。我正在使用RASA,使用MITIE作为后端,但它占用了太多的时间。