Python 选择高斯B不精确/不一致结果的K测试
我想使用Python 选择高斯B不精确/不一致结果的K测试,python,machine-learning,scikit-learn,feature-extraction,feature-selection,Python,Machine Learning,Scikit Learn,Feature Extraction,Feature Selection,我想使用SelectKBest选择top K功能并运行GaussianNB: selection = SelectKBest(mutual_info_classif, k=300) data_transformed = selection.fit_transform(data, labels) new_data_transformed = selection.transform(new_data) classifier = GaussianNB() classifier.fit(data_t
SelectKBest
选择top K功能并运行GaussianNB
:
selection = SelectKBest(mutual_info_classif, k=300)
data_transformed = selection.fit_transform(data, labels)
new_data_transformed = selection.transform(new_data)
classifier = GaussianNB()
classifier.fit(data_transformed, labels)
y_predicted = classifier.predict(new_data)
acc = accuracy_score(new_data_labels, y_predicted)
然而,对于相同数据的准确性,我没有得到一致的结果。
准确度为:
0.61063743402354853
0.60678034916768164
0.61733658140479086
0.61652456354039786
0.64778725131952908
0.58384084449857898
对于相同的数据。我不做拆分等。我只使用两组静态的数据
和新数据
为什么结果会有所不同?如何确保相同数据的准确性相同?这是因为数据或变量中存在一些随机性。这取决于估计器或函数内部使用的随机数生成器,在您的情况下,将其传递到
SelectKBest
查看random_state
和中的用法
作为一种解决方法,您可以在代码顶部插入以下行
np.random.seed(some_integer)
这将numpy的种子设置为
某个整数
,据我所知,scikit估计器使用numpy的随机数生成器 这是因为数据或变量中存在一些随机性。这取决于估计器或函数内部使用的随机数生成器,在您的情况下,将其传递到SelectKBest
查看random_state
和中的用法
作为一种解决方法,您可以在代码顶部插入以下行
np.random.seed(some_integer)
这将numpy的种子设置为某个整数
,据我所知,scikit估计器使用numpy的随机数生成器