Scikit learn sklearn.dataset中dump_svmlight_file()方法中基于零的参数有什么影响?

Scikit learn sklearn.dataset中dump_svmlight_file()方法中基于零的参数有什么影响?,scikit-learn,Scikit Learn,我正在用sklearn做一些分类实验。在实验过程中,我构建了csr_矩阵对象来存储我的数据,并对这些对象使用了LogisticRegression分类器,得到了一些结果。 我使用dump_svmlight_文件转储数据,使用joblib转储模型。 但是当我使用load_svmlight_文件和模型加载数据时,我得到了(非常)不同的结果 我意识到,如果我将基于零的参数设置为False,那么我将检索原始结果。这个参数的具体效果是什么?修改此参数的值通常会有不同的结果吗? 基于零:布尔或“自动”,可选

我正在用sklearn做一些分类实验。在实验过程中,我构建了csr_矩阵对象来存储我的数据,并对这些对象使用了LogisticRegression分类器,得到了一些结果。 我使用dump_svmlight_文件转储数据,使用joblib转储模型。 但是当我使用load_svmlight_文件和模型加载数据时,我得到了(非常)不同的结果

我意识到,如果我将基于零的参数设置为False,那么我将检索原始结果。这个参数的具体效果是什么?修改此参数的值通常会有不同的结果吗?

基于零:布尔或“自动”,可选,默认为“自动”

f中的列索引是基于零的(True)还是基于一的(False)。如果列索引是基于一的,则它们将转换为基于零的,以匹配Python/NumPy约定。如果设置为“自动”,则将应用启发式检查,以根据文件内容确定这一点。这两种文件都是“在野外”出现的,但不幸的是它们不是自我识别的。使用“自动”或“真”应该总是安全的

不过,你的观察似乎有些奇怪。如果使用
zero\u-based=False
转储,并使用
zero\u-based='auto'
加载,启发式应该能够检测正确的格式。 此外,如果检测到错误的格式,特征的数量也会发生变化,因此分类器会出错