Scikit Learn_IT技术博客_编程技术问答

Scikit learn 当使用auc_分数作为分数函数时，GridSearchCV是否使用predict或predict_proba？

标签： Scikit Learn

当使用auc_分数作为分数函数时，GridSearchCV是否使用predict或predict_proba predict函数生成预测类标签，这将始终导致一条三角形ROC曲线。使用预测的类概率得到更弯曲的ROC曲线。据我所知，后者更准确。如果是这样，“弯曲”ROC曲线下的区域可能是衡量网格搜索中分类性能的最佳区域因此，当使用ROC曲线下的面积作为性能度量时，我很好奇是否将类标签或类概率用于网格搜索。我试着在密码中找到答案，但没能找到。这里有人知道答案吗感谢使用auc\u分数进行网格搜索，您

Scikit learn 哪种算法用于一类分类？

标签： Scikit Learn text-classification

我有超过15000个特定主题的文本文档。我想在前者的基础上建立一个语言模型，这样我就可以向这个模型展示不同主题的新的随机文本文档，并且算法告诉我们新文档是否属于同一主题我尝试了sklearn.naive_bayes.MultinomialNB，sklearn.svm.classes.LinearSVC和其他方法，但是我有以下问题：这些算法需要具有多个标签或类别的训练数据，我只有覆盖特定主题的网页。其他文档没有标记，并且包含许多不同的主题如果您能提供关于如何培训只有一个标签的模型或如何进行总

Scikit learn 无法导入多项式特征，请使Scikit中的_管道学习

标签： Scikit Learn

我无法在ipython笔记本中导入以下模块： from sklearn.preprocessing import PolynomialFeatures from sklearn.pipeline import make_pipeline 弹出以下错误 ImportError:无法导入名称多项式特征同样的错误也出现在make_pipeline中我是scikit学习的新手，请帮忙我正在使用python的miniconda安装，scikit learn的版本号是0.14.1，多项式功能包含在

Scikit learn 如何将模型从GradientBoostingRegressionor转储到txt？

标签： Scikit Learn

我正在使用梯度推进回归建立一个预测模型在所有的调整/CV之后，我终于得到了正确的预测。我现在想把模型转储到一个文件中，这样我的生产C++程序就可以加载并使用它。 sklearn似乎通过pickle提供了模型持久性，但我想知道是否有一种方法可以将pickle模型转换为txt，就像xgboost一样。我的生产代码是C++，所以有泡菜作为媒体真的不方便库中是否有“dumpModel”函数有人有经验吗谢谢

Scikit learn 时间序列回归-随机森林

标签： Scikit Learn time-seriesregressionrandom-forest

为这些愚蠢的问题道歉-这里的总数为n00b 假设我有以下数据集 date,site,category,locale,type,rank,sessions,logins 01/01/2017,google.com,search,US,free,1,3393093,50000 01/01/2017,google.com,overall,US,free,1,3393093,50000 01/01/2017,yahoo.com,search,US,3,free,core,393093,40000 01/

Scikit learn 为什么scikit中的KNN算法不能按预期工作？

标签： Scikit Learn knn

我正在使用scikit learn用python构建一个简单的KNN模型。我在UCI的wine数据集上测试了它，我注意到.predict（）函数返回的结果不是大多数邻居类 knn = KNeighborsClassifier(n_neighbors=3,weights='uniform') knn.fit(wine,class_wine) predictions = list(knn.predict(wine)) # S is array I've made that chooses majo

Scikit learn xgboost“是否；“适合”；是否允许继续培训？

标签： Scikit Learn xgboost

我想知道我的K-Fold实现是否正确： from sklearn.model_selection import KFold kf = KFold(n_splits=numFolds, shuffle=False, random_state=7) sales_prediction_model = xgb.XGBRegressor( silent=False, learning_rate=0.03,

Scikit learn “自动”；“干扰源生成”；使用机器学习解决多项选择题

标签： Scikit Learn Nlp

我的火车数据集中有三列——问题、答案和干扰正如我们所知，MCQ有一个问题和4个选项。其中1个答案是正确的，另外3个是干扰我的测试集中有两个栏目——问答。我需要预测干扰因素请建议如何处理这个问题如果您想要机器学习解决方案：这是一个顺序到顺序的学习问题。然而，序列到序列的学习需要大量的训练数据，除非有成千上万的例子，否则可能无法很好地工作用特殊标记分隔的问题和答案将作为输入，干扰者的答案将作为输出。对于seq2seq，您可以使用类似或任何其他工具。您可以更具体地说明您的目标是什么吗？对于一

Scikit learn TypeError:不可损坏的类型

标签： Scikit Learn sklearn-pandas

我用sklearn编写了一小段代码来做线性回归我创建了一个2列csv文件（列名称X，Y和一些数字）和当我读取文件时，我看到内容被正确读取-如下所示但是，当我尝试使用命令datafile[：，：]或datafile[：，-1]引用列时，出现“unhable type”错误当我尝试使用X作为响应，Y作为sklearn线性回归中的预测值时，我得到的值误差如下所示我在网上查看了一下，但无法找出我的代码或文件有什么问题。请帮忙 import pandas as pd datafile=pd.re

Scikit learn 递归特征消除&；使用scikit学习的网格搜索：弃用警告

标签： Scikit Learn feature-selectiondeprecation-warninggrid-search

我正在构建多分类器的网格搜索，并希望使用递归特征消除和交叉验证。我从中提供的代码开始。以下是我的工作代码： param_grid = [{'C': 0.001}, {'C': 0.01}, {'C': .1}, {'C': 1.0}, {'C': 10.0}, {'C': 100.0}, {'fit_intercept': True}, {'fit_intercept': False}, {'penalty': 'l1'}, {'penal

Scikit learn 无法导入名称MLPrePressor

标签： Scikit Learn Neural Network

与标题相同，我想使用名为MLPREGESSOR的Scikit学习类构建一个神经网络模型。安装和编译后，代码将不会运行并给出返回值：无法导入名称MLPREGESSOR from sklearn.neural_network import MLPRegressor mlp = MLPRegressor(hidden_layer_sizes=(5, ), activation='relu', verbose=True, learning_rate_init=1, learning_rate='adap

Scikit learn 当我使用sklearn并行模块时“；从cdnmf快速导入“更新cdnmf快速”；，它的并行化不起作用

标签： Scikit Learn cythonipython-parallelmatrix-factorizationnmf

（这是我第一次提问，如果您认为标签或描述有问题，请告诉我，谢谢！）我正在做一项关于矩阵分解的工作，并使用模块sklearn.decomposition.nmf 该模块使用另一个模块来自sklearn.decomposition.cdnmf\u fast import\u update\u cdnmf\u fast 此模块来自文件cdnmf\u fast。因此你可以在这个网站上查看它的源代码我们可以看到它使用C语言和“with nogil:”，所以我认为它一定使用了并行化。因此，我编写了

Scikit learn sklearn.cross_验证是由sklearn.model_选择触发的弃用警告

标签： Scikit Learn Anaconda

当我第一次将代码更改为“model_selection”时，警告退出。周末我更新了Anaconda，现在任何sklearn的导入都会触发“cross_validation”警告我在网上找到了几个关于这个错误的例子，没有一个能解决这个具体问题。如果是的话，那是因为我的旧大脑不能正确地形成这个问题。事先道歉。非常感谢您的澄清 #!/usr/bin/env python # tpot pipeline from tpot import TPOTClassifier from sklearn.mo

Scikit learn 分类-修正huber损失：如何更能容忍异常值？

标签： Scikit Learn classificationsvmoutliers

根据scikit学习SGDClassizer，修改后的Huber损失函数可用于对异常值提供更高的容忍度但是，看看成本函数的性质，难道修改后的Huber不那么宽容吗？这似乎会给f（x）的观测带来更高的成本。这里的问题是，scikit学习文档没有说明我们应该将修改后的Huber容差与异常值进行比较的基线损失函数修正的Huber损失源于Huber损失，用于回归问题。看看这个，我们发现Huber损失比平方损失对异常值的容忍度更高。正如您所注意到的，除了平方铰链损失之外，其他损失函数对异常值的容忍度要

Scikit learn 基于LIBSVM在scikit.smv.SVC中启用概率估计

标签： Scikit Learn svmlibsvm

在LIBSVM中，svmtrain中的-b标志用于训练SVC或SVR模型进行概率估计。为了获得测试集的相应结果，我们还将-b结果设置在svmpredict 例如，在MATLAB中，我们将编写以下代码，以便在启用概率估计的情况下进行训练和测试： model = svmtrain(train_labels, train_set, '-b 1') [result, accuracy, prob] = svmpredict(test_labels, test_set, '-b 1') 但是，在scik

Scikit learn 如何在scikit学习管道中绑定参数？

标签： Scikit Learn Keras

我有一个管道对象，我想使用随机搜索CV优化其超参数，但我需要绑定两个参数，即如果一个参数设置为值，另一个参数将自动设置为相同的值以下是我的具体案例：我将一个PCA链接到一个Keras分类器，该分类器需要明确其输入dimnbFeature。显然，当两者不匹配时，这种方法就失败了。请参见下面的玩具示例： #设置将numpy作为np导入从sklearn.pipeline导入管道从sklearn.decomposition导入PCA 从sklearn.model_选择导入随机化搜索CV 从ker

Scikit learn 使用CV的递归特征删除不'；t减少特征计数

标签： Scikit Learn feature-selectionrfe

我有一个蛋白质数据集，我需要对它执行RFE。有100个带有二进制类标签（sick-1、health-0）的示例，每个示例有9847个特性。为了降低维度，我使用逻辑回归估计器和5倍CV进行RFECV。代码如下： model = LogisticRegression() rfecv = RFECV(estimator=model, step=1, cv=StratifiedKFold(5), n_jobs=-1) rfecv.fit(X_train, y_train) print("Nu

Scikit learn 使用“时会发生什么？”；“U级重量”；及；"；svm.scv（）中同时存在的参数？

标签： Scikit Learn

我正在尝试建立一个分类器。在玩hyperparameters时，我碰巧同时使用了参数class_权重和C，并且看到了我不理解的结果这个代码给了我一个不同的f1分数 clf = svm.SVC(kernel="linear",class_weight={1:10,0:5}) clf.fit(X_train_tfidf, y_train) predicted=clf.predict(X_test_tfidf) f1_score(y_test, predicted) 从这个代码 clf = svm

Scikit learn scikit学习PCA-变换结果

标签： Scikit Learn pca

我有一个时间序列的第一个差异，我应用PCA使用scikit获得第一台电脑 # data is a timeseries of first differences pca = PCA(n_components=1) pca.fit(data) pc1_trans = pca.transform(data) pc1_dot = numpy.dot( data, pca.components_.T) plt.plot( numpy.cumsum( pc1_dot ) ) plt.plot( nump

Scikit learn 导入错误：无法导入名称'_打印经过的时间'；

标签： Scikit Learn importerror

大家好，我正在尝试使用sklearn中的make_管道模块。但当我尝试使用以下工具导入时： from sklearn.pipeline import make_pipeline 我得到这个错误： ImportError: cannot import name '_print_elapsed_time' 我在谷歌上搜索过，但似乎没有其他关于这方面的帖子。我尝试重新安装scikitlearn，但仍然出现相同的错误：/有人有什么想法吗？看起来这是一个错误引入了一个较新版本的scikitlearn（

Scikit learn sklearn'的意外行为；s典型相关分析（CCA）

标签： Scikit Learn Statistics linear-algebra

给定两个视图矩阵X和Y，CCA应返回n_分量具有最大相关性的X和Y向量中元素的线性组合，即第一个分量具有最大相关性，第二列在与第一列不相关的方向上具有第二大相关性，等等。但是，在以下代码中，第二列的相关性明显小于第三列的相关性： from sklearn.cross_decomposition import CCA import numpy as np from scipy import stats X = [[0.006061109337620652, 0.0392466675239141,

Scikit learn 如何修复valueError：要解包的值太多（预计3个）

标签： Scikit Learn

我试图运行代码并获得错误太多值无法解包，如何解决该问题？这是一段代码，看不到错误 parameter_grid = [{'n_estimators': [100], 'max_depth': [2, 4, 7, 12, 16]}, {'max_depth': [4], 'n_estimators': [25, 50, 100, 250]}] metrics = ['precision_weighted', 'recall_weighted'] for metric in metrics:

Scikit learn 修剪后如何得到修剪后的随机森林模型？

标签： Scikit Learn random-forest

在Scikit学习的随机森林回归器中，可以设置与修剪技术（）相关的ccp_alpha参数，我用它来控制过度拟合在应用它之后，我想使用这个修剪过的模型，通过随机搜索执行超参数调整，并找到我最好的模型。所以，我想要这个修剪过的模型是否可以获得此修剪模型？当您将.fit（X\u序列，y\u序列）函数应用于RandomForestClassifier（）或RandomForestRegressionor（）类的对象时，返回的拟合模型已被修剪。这在sklearn实现中的引擎盖下发生。从理论上讲，Ra

Scikit learn 带有sklearn随机林的Dask ML导致连接关闭

标签： Scikit Learn Dask dask-distributeddask-dataframedask-ml

我正在尝试使用Dask-ML训练模型。我的最终目标是在大于内存的数据集上进行预测，因此我正在使用Dask的ParallelPostFit包装器在相对较小的数据集（4 Gb）上训练模型，期望稍后在较大的数据帧上进行预测。我正在连接一个有50名工人的纱线集群，将我的数据从拼花地板加载到dask数据框中，创建一个管道，并进行培训。培训是有效的，但当我尝试在搁置的测试集上进行评估时，我遇到了问题。当我使用sklearn的LogisticRegression作为分类器时，训练和预测成功运行。然而，当我使用

Scikit learn 关于正类和sklearn metric pos_label=0的混淆

标签： Scikit Learn classificationrocconfusion-matrixauc

我有一个用于检测AO/非AO图像的二进制分类问题，为此使用Pytork。首先，我使用ImageFolder实用程序加载数据。 Dataset.class_to_idx中的数据集类到标签映射是{0:'AO'，1:'Non-AO'} 因此，我的“积极类”AO分配了一个标签0，而我的“消极类”非AO分配了一个标签1。然后我培训并验证模型，没有任何问题。在进行测试时，我需要计算测试数据的一些指标。这就是我困惑的地方。 [方法A] fpr, tpr, thresholds = roc_curve(

Scikit learn 基于scikit学习的一类SVM偏态数据离群点检测

标签： Scikit Learn svm

我正在使用带有scikit学习的一类SVM检测数据集中的异常值。我将试着用一个例子来解释我的问题：想象一个具有高度和性能特征的简单数据集（这只是一个简化，我的数据集要大得多）。我想检测的是当这两个特性之间存在奇怪的组合时的异常值，例如： h - height p - performance h p class ---------- 10 0.1 1 12 0.5 1 20 3.2 1 24

Scikit learn 使用NaN值的sklearn管道

标签： Scikit Learn

出于充分的理由，大多数（全部？）实现fit和transform（转换器或估计器）的sklearn方法对包含NaN值的数据不起作用。由于大多数机器学习算法无法即时处理这些问题，并且各种转换与NaN不明确（一个具有6的功能与一个具有NaN的功能之间的交互是什么？），因此当您试图将包含空值的数据集传递到（例如，StandardScaler，PCA）时，会出现错误，和随机森林分类器然而，我目前正在使用一种能够处理缺失值的估计器。这对于我的数据集来说相当重要，因为大多数数据段都至少缺少一个功能（因此删除

Scikit learn StratifiedShuffleSplit（在sklearn中）每次返回不同的比例

标签： Scikit Learn

我正在使用sklearn将训练数据拆分为批。这样，我输入NN的每一批都将具有与训练集相同的类比例。或者换句话说，我想在每一批中保留与培训集相同的每个类的百分比我感到困惑的是，对于每个迭代，每个批都有一点差异。虽然它也有类似的趋势，但它并不遵循训练集的确切百分比。为什么不给出确切的百分比现在，我自己编写代码，以获得完全相同的百分比。假设您有11个点，并且想要70%的训练集。你得多少分七点？那么是63.64% 八点？该比率为72.73% StratifiedShuffleSplit有时需要7，

Scikit learn 基于单标签数据集的多标签文本分类

标签： Scikit Learn multilabel-classification

我有一个数据集，每个文档有一个标签，如下例所示 label text pay "i will pay now" finance "are you the finance guy?" law "lawyers and law" court "was at the court today" finance report "bank reported annual share.."

Scikit learn 如何运行特定的sklearn版本？

标签： Scikit Learn version

在我的mac上，我安装了多个版本的Sklearn，如下所示： Sklearn 0.19.1 ~/anaconda2/pkgs/scikit-learn-0.19.1-py27h9788993_0/lib/python2.7/site-packages/sklearn Sklearn 0.20.0 ~/anaconda2/pkgs/scikit-learn-0.20.0-py27h4f467ca_1/lib/python2.7/site-packages/sklearn 启动jupyter时，它会

Scikit learn SGDClassizer可避免每次迭代对阵列造成的损失

标签： Scikit Learn gradient-descent

当我在scikit learn中训练SGDClassizer时，我可以打印出每次迭代的损失值（设置详细程度）。如何将值存储到数组中？根据此修改答案通过sgdclassizer old_stdout = sys.stdout sys.stdout = mystdout = StringIO() 通过将verbose设置为1，将模型设置为打印其输出 clf = SGDClassifier(verbose=1) clf.fit(x_tr, y_tr) 获取SGDClassizer详细信息的输出

Scikit learn 忽略多输出回归中的未知目标

标签： Scikit Learn

我想训练一个多输出回归器，这样我的y_train就是一个可能包含未知值的矩阵（np.nan）。本机不支持多输出回归的多输出回归器适用于模型中的每个目标（对应于目标矩阵的列数）我希望忽略目标中未知的值，即如果目标的第三个输出未知，则不应针对该实例训练与目标对应的回归器例如：给定特征向量（0.4,0.3,0.6,0.9）和相应的目标（0.3，np.nan），我想在本例中训练预测0.3的回归器，但忽略np.nan的回归器。有什么优雅的方法可以做到这一点吗

Scikit learn scikit读入错误-100。自污染）类型错误：：'；浮动'；和'；类型'；

标签： Scikit Learn isolation

我正在尝试为一个csv文件构建一个隔离林，我从不同的大小值中预测“页面”。“pages”值当前为“low”和“high”，我已将它们编码为0和1，以便检测异常。然而，我不断地得到错误“File”/Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages/sklearn/employ/_-ifrest.py”，第312行 100. * 自污染） TypeError:不支持*：“float”和“type”

Scikit learn can'；t仅在数据帧的一列上应用sklearn.compose.ColumnTransformer

标签： Scikit Learn pipelinesklearn-pandas

我已经定义了一个定制的tansformer，它接受一个pandas数据帧，只在一列上应用一个函数，并保留所有剩余列不变。变压器在测试期间工作良好，但在我将其作为管道的一部分时，情况并非如此这是变压器： import re from sklearn.base import BaseEstimator, TransformerMixin class SynopsisCleaner(BaseEstimator, TransformerMixin): def __init__(self):

Scikit learn ValueError：模型的特征数必须与输入匹配。模型n_特征为3，输入n_特征为2，预测=模型预测（X_测试）

标签： Scikit Learn

这是我的密码： import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score event_data = pd.read_excel("Jacob's Farming Contest.xlsx") event_da

Scikit learn scikit学习中的HMM模块可靠吗？

标签： Scikit Learn hidden-markov-models

我读到它有一些数值稳定性错误，我想知道它是否已经准备好进入黄金时段如果发生数值稳定性问题，可以很容易地检测到：您将在输出和/或模型的拟合参数中获得NaN值。如果发生数值稳定性问题，可以很容易地检测到：您将在输出和/或模型的拟合参数中获得NaN值。我决定为可能在谷歌搜索时崩溃的人收集此信息正如scikit文档中所述，隐马尔可夫模型模块现在已被弃用：警告：sklearn.hmm模块现在已被弃用，因为它不再与项目的范围和API匹配。计划在项目的0.17版本中将其删除。现在是一个单独的项目，

Scikit learn sklearn：文本分类交叉验证中的矢量化

标签： Scikit Learn

我有一个关于在sklearn的文本分类中使用交叉验证的问题。在交叉验证之前对所有数据进行矢量化是有问题的，因为分类器会“看到”测试数据中出现的词汇表。Weka已经过滤了分类器来解决这个问题。此函数的sklearn等效值是什么？我的意思是，对于每个折叠，特征集都会不同，因为训练数据不同。这个问题的scikit学习解决方案是交叉验证估计器的管道，例如： >>> from sklearn.cross_validation import cross_val_score >>

Scikit learn DPGMM将所有值群集到单个群集中

标签： Scikit Learn cluster-analysisdirichlet

所以我把我的语料库转换成了一个漂亮的word2vec矩阵。此矩阵是具有负数和正数的浮点矩阵我似乎无法用无限狄利克莱过程给出任何有连贯性的答案示例输出[针对2个步骤]如下所示： original word2vec matrix: [[-0.09597077 -0.1617426 -0.01935256 ..., 0.03843787 -0.11019679 0.02837373] [-0.20119116 0.09759717 0.1382935 ..., -0.08172

Scikit learn 在scikit中加载文件时出错

标签： Scikit Learn

我是scikit新手，尝试在网站上学习教程：我下载了数据集，并使用load_文件来加载它，但我一直在得到关于编码的错误。下面是它的加载方式： twenty_train = load_files("./dataSet/20news-bydate/20news-bydate-train", description= None, categories=categories, load_content = True, encoding='utf-8', decode_error='strict',

Scikit learn 如何将一个随机森林折叠成一个等价的决策树？

标签： Scikit Learn random-forest

按照我的理解，在创建一个随机森林的过程中，该算法将一组随机生成的决策树捆绑在一起，对它们进行加权，使它们适合于训练数据可以将森林的平均值简化为一个简单的决策树，这合理吗？如果是的话，我如何访问和展示这棵树我想在这里做的是提取树中的信息，以帮助识别前导属性、它们的边界值和在树中的位置。我假设这样一棵树将为人类（或计算机启发性）提供洞察数据集中的哪些属性为确定目标结果提供了最深入的洞察这似乎是一个幼稚的问题——如果是这样，请耐心等待，我对这一点还不熟悉，我想进入一个能够充分理解它的阶段。Ran

Scikit learn 如何在scikit learn中扩展大规模数据？

标签： Scikit Learn

整个数据集有80100万个样本，每个样本有200密集特征。我们经常用批处理来训练分类器。例如，我们采用clf=sklearn.linear\u model.sgdclassizer，然后我们可以使用clf.partial\u fit（batch\u data，batch\u y）用批数据拟合模型在此之前，我们应该首先缩放批处理数据。假设我们使用平均标准化。因此，我们应该获得每个特征维度的全局平均值和标准偏差。然后，我们可以使用全局平均值和STD来缩放批次数据现在的问题是如何获得整个数据集的均

Scikit learn 利用支持向量机对多维时间序列数据集进行分类

标签： Scikit Learn time-seriessvm

我想使用scikit learn的svm.SVC估计器对多维时间序列执行分类任务——也就是说，在时间序列中，序列中的点取R^d中的值，其中d>1 这样做的问题是svm.SVC将只获取维度最多为2的ndarray对象，而这样的数据集的维度将为3。具体来说，给定数据集的形状将是n_个样本，n_个特征，d 有解决办法吗？一个简单的解决方案就是重塑数据集，使其成为二维数据集，但我认为这会导致分类器无法正确地从数据集学习。如果没有任何关于数据重塑的进一步知识，则最好是这样做。是一门非常手工的艺术，在很大程

Scikit learn 当n_jobs=-1时，WordSpuntTokenizer和sklearn GridSearchCV PicklingError

标签： Scikit Learn nltkpython-multiprocessing

我正在尝试对一个问题使用scikit learngridsearchcv，当sklearn的gridsearchcv方法中设置了n_jobs=-1时，它会出现一个PicklingError错误。我在论坛上搜索了一个解决方案，但没有找到多少有用的。错误似乎在多处理模块中，无法在并行处理环境中序列化对象。这里我没有使用任何自定义类，只使用标准的sklearn transformers和estimators。如果您能帮助解决此问题，我们将不胜感激。谢谢 import pandas as pd impo

Scikit learn 执行交叉验证，无交叉验证分数

标签： Scikit Learn nestedcross-validation

为了能够完全访问内部和外部分数，我想创建一个嵌套的cros验证和网格搜索，而不使用cross_val_分数我在网上找到了这样的例子我怀疑内巢是否正常。我不确定在调用GridSearchCV之前是否必须拆分数据： for train_index_inner, test_index_inner in inner_cv.split(X_train_outer, y_train_outer): X_train_inner = X_train_outer[train_i

Scikit learn 将最佳GridSearch分类器写入表

标签： Scikit Learn pipelinegrid-search

我发现并成功测试了以下脚本，该脚本将Pipeline和GridSearchCV应用于分类器选择。脚本输出最佳分类器及其精度 import numpy as np from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import

Scikit learn 如何正确缩放新数据点

标签： Scikit Learn regressionscaling

想象一个简单的回归问题，在这里使用梯度下降。为了正确实现，您需要使用整个训练数据集的平均值来缩放值。假设你的模型已经训练好了，你给它另一个你想预测的例子。如何相对于以前的数据集正确地缩放它？您是否将新示例包括在训练集中，然后使用此训练数据集+新数据点的平均值对其进行缩放？如何以正确的方式实现这一点通过引用新的数据点，我指的是模型以前从未见过的东西，无论是在训练还是测试中。如果训练集的缩放是针对整个集合而不是单个观察值进行的，那么如何处理传递给regr.predict（）的任何对象的缩放假设您

Scikit learn 如何利用查全率-查全率-查全率曲线从查全率值计算查全率

标签： Scikit Learn precision-recall

我尝试使用精度召回曲线从召回值（例如0.9）计算精度。我的方法是找到接近abs最小值的索引（idx）（回忆-0.9），然后找到精度（idx），我可以使用最小值两侧的插值来提高精度。不过，我认为一定有更好的办法。是否有一个函数可以从回忆中查找或插入预测，或从预测-回忆曲线中查找或插入预测下面是我的代码。我试图找到更好的方法 from sklearn.metrics import precision_recall_curve y_scores_lr = m.decision_function(X_

Scikit learn Scikit学习增量PCA-值错误：数组不能包含INF或NAN

标签： Scikit Learn pcavalueerror

我正在尝试使用scikit learn中的IncrementalPCA。我真的需要算法的增量版本，因为我的应用程序是在线的。我的代码非常简单： from sklearn.decomposition import IncrementalPCA import pandas as pd with open('C:/My/File/Path/file.csv', 'r') as fp: data = pd.read_csv(fp) ipca = IncrementalPCA(n_compon

Scikit learn 连接sklearn管道中不同步骤的功能

标签： Scikit Learn

我想在一个管道中级联4个步骤来构建一个有监督的分类器：（1）使用PCA进行降维，通过c列（组件）获得s行（样本）的矩阵_1 （2）将（1）中的输出矩阵_1馈送到KMeans盲分离，以1列（组标签）获得s行（样本）的矩阵_2 （3）水平连接（1）中的矩阵_1和（2）中的矩阵_2，通过c+1列（c分量加1个标签）获得s行（样本）的矩阵_3 （4）将（3）中的输出矩阵_3输入MLP分类器的神经网络因此，我的管道将如下所示： Pipeline(steps=[('step1', PCA()),

Scikit learn yellowbrick实现错误-AttributeError:&x27；逻辑回归'；对象没有属性'；图'；

标签： Scikit Learn classificationyellowbrick

我是yellowbrick的新用户。在yellowbrick ClassificationReport中实现sklearn LogisticRegression API时，我发现了一些异常错误。正如yellowbrick官方文件以及大多数数据科学社区用户（媒体等）所建议的那样，我尝试了许多语法，但仍然得到了相同的错误。虽然我得到了分类报告，但错误是相当恼人的 #Using yellowbrick library from sklearn.linear_model import LogisticR