Scikit learn scikit学习+;随机森林分割

我在scikit学习中使用随机森林函数进行图像分割。 但是,我无法创建函数clf.fit(X,Y)的输入。 X是(n_样本,n_特征)的训练矩阵,Y是(n_样本,)的目标矩阵,其中最后一个属性是目标类的标签。 我想用四个五个特征训练50幅图像,比如HOG特征、RGB特征、f17过滤器和texon地图 有人能帮我创建矩阵X和Y吗。 谢谢 如果您只是单独对每个像素进行分类,只需将rgb值放入X中,并将分段作为Y 更好的方法是在像素周围选择一个小区域,或者使用近邻rgb值(每行从左到右集中),或者使用

Scikit learn Scikit学习:以时间为单位的测试大小

我正在使用Scikit Learn TimeSeriesPlit将我的数据拆分为训练集和测试集。目前,timeSeries数据集的第一次拆分为50%,之后的第二次拆分为30%。我想要一个固定的10%的数据用作测试集 tscv = TimeSeriesSplit(n_splits=3) for train_index, test_index in tscv.split(X): print(train_index, test_index) 输出为: [ 0 1 2 ...,

Scikit learn 无法创建PMML,因为未指定输入要素的数量

我无法将以下管道转换为pmml,因为“未指定输入功能的数量” 再现错误的最小示例管道为: import pandas as pd from sklearn.compose import ColumnTransformer from sklearn.ensemble import RandomForestRegressor from sklearn.model_selection import train_test_split from sklearn.pipeline import Pipeli

Scikit learn sklearn';s线性回归使用SVD?

我找不到sklearn的线性回归实现的详细信息。在第1.1.1.2节中。似乎暗示它使用SVD。我认为我见过的大多数实现都使用QR分解。 有人知道为什么sklearn使用SVD(假设它确实使用SVD)?Scikit learn的线性回归使用不同的算法来拟合回归模型: scipy.linalg.lstsq在密集情况下为positive=False scipy.sparse.linalg.lsqr在带有positive=False的稀疏情况下 scipy.optimize.nnls当positive

Scikit learn 如何使用sklearn LogisticRegression启用多核处理?

Sklearn的逻辑回归模型拒绝并行运行。我将n_jobs设置为-1,还尝试了n_jobs=4。运气不好——只有一个磁芯在工作。我已经并行运行了其他sklearn模型,例如RandomForestClassifier和XGBoostClassifier 我正在Ubuntu 14.04上运行Python2.7.12和sklearn 0.18 其他人也提出了同样的问题(例如),但至今没有收到任何有希望的答复。我希望我的运气会更好。来自logisticRetression的文档,看起来n_jobs参数

Scikit learn 如何在SKR中对记录进行加权?

假设我有10000条测量误差较小的记录,10000条测量误差较大的记录,其中高误差记录的误差是目标值测量误差的2倍。我想给低误差测量赋予更高的权重,并意识到我可以对数据进行重新采样,但这样做的缺点是增加了时间和空间 在SKEXE中,我们考虑这个问题: RealFraceRealStase >代码> RealthPosigRestReasror 。每个都有fit和score方法可用的sample\u weight。sample\u weight是否可以用来解释记录中的不同置信度?或者,有没有比重采

Scikit learn 如何在简历中使用scikit学习文档中提到的TimeSeriesSplit

尝试使用10倍时间序列分割,但在cross_val_score的文档中,给出了我们需要通过交叉验证生成器或iterable。时间序列分解为列车和测试数据后,我应该如何将其传递给cv 类型错误 回溯(最近一次呼叫最后一次) 在() --->16 sc=交叉评分(knn、X1、y1、cv=tss,评分=准确度) 1579列车,测试,详细,无, 1580配合参数) ->1581列车,在cv中测试) 1582返回np.数组(分数)[:,0] 1583 TypeError:“TimeSeriesSplit

Scikit learn 如何将数据分成三部分,其中一部分不使用?

我有一个csv,我想将80%分为培训,10%分为开发测试,10%分为测试集。dev测试将不再使用 我已将其设置为: import sklearn import csv with open('Letter.csv') as f: reader = csv.reader(f) annotated_data = [r for r in reader] 对于拆分: import random random.seed(1234) random.shuffle(annotated_da

Scikit learn scikit学习管道:PCA后的归一化会产生不需要的随机结果

我正在运行一个管道,使输入正常化,运行PCA,在最终运行逻辑回归之前使PCA因子正常化 然而,我在产生的混淆矩阵上得到了不同的结果 我发现,如果我删除第三步(“归一化pca”),我的结果是恒定的 我已经为所有管道步骤设置了random_state=0。知道我为什么会得到不同的结果吗 def exp2_classifier(X_train, y_train): estimators = [('robust_scaler', RobustScaler()),

Scikit learn 如何使用';max#u功能';与RFECV组合时是否在Gridsearch中?

谢谢你提前回答。这是我的第一篇文章,我对python还比较陌生,所以如果我格式化了一些糟糕的东西,我很抱歉 我试图在sklearn中将递归特征消除和网格搜索结合起来,以确定超参数和特征数量的最佳组合。当使用下面的代码时,我得到max\u特征必须在(0,n\u特征]估计器拟合中失败。对于max\u特征以外的任何特征都是1。我的数据集中有300多个特征,其中许多可能不重要 ''' ''”我不会将特征选择步骤和超参数优化步骤混为一谈。 问题是,您将选择器传递给网格搜索,而不是估计器-这可能最终会起作用

Scikit learn sklearn群集标签的格式是什么?

我正在使用sklearn对一些文本行进行聚类,但试图理解返回的集群标签的格式。看起来是这样的: km_model.labels_ array([ 5, 35, 1, 29, 49, 2, 6, 28, 5, 4, 4, 19, 40, 52, 6, 20, 4,\n 40, 40, 7, 10, 13, 14, 4, 10, 29, 14, 22, 24, 13, 24, 5, 4, 21,\n ... 所以它有点像一个数组,但是有\n的元素来分隔集群?

Scikit learn GridSearchCv管道多输出分类器和XGBoostClassifier-如何通过提前停止和评估集?

我想对标签和连续数据进行多输出预测。我的数据由时间序列组成,一个10个时间点序列,每个样本30个观测值。我想根据这些数据预测10个二进制标签和5个连续标签 为了简单起见,我将时间序列数据展平,最终每个样本一行 因为有很多标签可以预测同一个系统,而且这些标签之间存在关系,所以我想使用mutiloutputprective来预测。我的想法是将任务分为两部分;一个用于多输出分类,另一个用于多输出回归 我通常喜欢XGBoost,并希望将其用于此任务,但我当然希望在执行此操作时防止过度装配。因此,我有一段

Scikit learn 将xgboost.Booster的实例转换为实现scikit学习API的模型

我正在尝试使用mlflow保存模型,然后稍后加载以进行预测 我正在使用xgboost.XGBRegressor模型及其sklearn函数.predict()和.predict_proba()进行预测,但结果是mlflow不支持实现sklearn API的模型,因此稍后从mlflow加载模型时,mlflow返回xgboost.Booster的实例,它不实现.predict()或.predict\u proba()函数 有没有办法将xgboost.Booster转换回实现sklearn API函数的

Scikit learn 用GridSearchCV拟合三次多项式系数

我有一个三次多项式,系数a,b,c&d已知 我想写一个算法,根据曲线上提供的一组x和相应的y坐标来查找这些系数 这似乎是一个非常简单的参数调整案例。我想指定一系列可能的值,让GridSearchCV迭代所有组合,对结果进行评分,并推荐得分最高(或成本函数最低)的值组合 这是我的密码: import numpy as np from sklearn.model_selection import GridSearchCV def poly(x,a=1,b=1,c=1,d=1):

Scikit learn 决策树-如何找到树上叶子的数量?

在训练了一个随机森林之后,我想知道森林中每棵树的叶子数是多少 例如,如果我训练了一个有10棵树的森林,我想得到一个有10个条目的向量,其中第I个条目是第I棵树的叶子数 谢谢大家! 您应该了解集成树方法的实现,以了解如何解包树数据结构 中提供了export_graphviz方法的示例用法

Scikit learn Scikit学习自定义决策树叶类型

使用sci工具包学习时,是否可以定义自定义决策树叶类型 我想用更复杂的叶子来训练随机森林,比如含有线性回归或高斯的叶子。这可能需要定义自定义叶类型并实现新的拆分标准。可能吗 谢谢。这是可能的,但不太明智 SKLead中的决策树是用Cython(C++和Python的混合)编写的,使用了Cython分裂准则的预定列表。这使得sklearn树非常快,但不容易定制 如果您使用纯Python编写自己的叶子和拆分器,则必须将它们与sklearn Cython代码集成。这是可能的,但可能是漫长而艰难的。最

Scikit learn Sklearn过度装配

我有一个包含1000个点的数据集,每个点有2个输入和1个输出。它分为80%用于培训,20%用于测试。我正在使用sklearn支持向量回归器进行训练。我用训练集得到了100%的准确率,但用测试集得到的结果并不好。我想可能是因为装修过度。请你给我一些建议来解决这个问题。你可能是对的:如果你的模型在训练数据上得分很高,但在测试数据上表现很差,这通常是过度拟合的症状。您需要在不同的情况下重新训练您的模型。我假设您正在使用sklearn中提供的train_test_split,或类似的机制来保证您的拆分是

Scikit learn sklearn中单类SVM决策函数的重构

为了学习单类模型的细节,我想知道如何在sklearn中重新编程决策函数。我在这里检查了决策函数[。然后是函数,我找到了svm\u csr\u predict\u值[,但是这个存储库中没有定义 我还检查了libsvm源代码[,但什么也没有得到。而且这两个存储库之间没有关系 我还尝试像这样重建决策函数: model = OneClassSVM(kernel='rbf', nu=0.1, gamma=0.1) model.fit(X) ssum = model.intercept_[0] for i

Scikit learn 用文本特征训练估计器

我有一个这样的带标签的训练数据集 X = [tag, design_version, runtime, error_msg], Y = 'PASS'/'FAIL' 'tag' = string 'design_version' = string 'runtime' = number 'error_msg' = string 还有更多的功能字符串和数字,我可以访问,但为了简洁起见,这里没有列出。数据实际上是模拟的一组属性,标签表示模拟是通过还是失败。我想用这些输入训练一个估计器;并让它预测一组新

Scikit learn 使用什么框架构建scikit learn';s网站

是一个组织良好的网站,是记录源代码的一种简洁方式。网页是否自动生成?是否有生成这些页面的框架 了解使用了哪个框架可以帮助我记录我拥有的其他类似存储库。他们正在使用的,可能还有一些类似的扩展 这表明了这一点。我不太清楚为什么投了反对票。我很乐意把问题说得更清楚/更恰当。

Scikit learn 如何取n个随机林迭代的平均值?

sklearn中是否有一个参数可以调整多次运行随机林(或其他估计器),以消除运行之间的变化?最简单的方法是什么?您不能简单地手动消除运行之间的差异。您可以使用(或)执行超参数调整。您也可以查看其他类似的方法。您还可以查看数据集的操作,以提高估计器的性能。您可以查看中的方法 另外,请为您的问题提供更多信息,如您正在解决的问题类型、数据集等,以便我们能够更好地帮助您。VotingClassifier软投票可能是您想要的。通常,给定两组预测,您可以采用预测的几何平均值来平滑预测 from scipy.

Scikit learn Don';无法理解错误消息(基本sklearn命令)

我对Python和编程都是新手,我想在一个变量中使用线性回归来练习一些技巧 我目前正在链接中学习本教程 我正在做他正在做的事情。 但是,我在编译时确实遇到了一个错误,如下面的代码所示 (为了简单起见,我将“--”放在输出的位置。我使用了Jupyter笔记本) 最后,我在尝试编译“reg.predict(3300)”时遇到了一长串错误。 我不明白出了什么问题。 有人能帮我吗 干杯 import pandas as pd import numpy as np import matp

Scikit learn sklearn中f统计量的计算

我一直在谷歌上搜索,找不到答案 如何使用sklearn计算f统计量?根据以下公式,我真的需要手工计算吗 (where我希望这有帮助! 要查找f统计信息,请尝试: import sklearn from sklearn.linear_model import LinearRegression X, y = df[['x1','x2']], df[['y']] model=LinearRegression().fit(X, y) Rsq = model.score fstat = (Rsq

Scikit learn 处理scikit管道中多标签功能的最佳方法

您好,我正在处理一些多标签功能。标签。我想训练一个回归者,但我不知道哪种方法是正确的编码标签。我尝试了MultiLabelBinarizer,但无法从管道内部实现这一点。如果我在管道外对它进行编码,就没有问题了。我想继续使用我的管道,因为我经常使用FeatureUnion,这种方式非常方便 提前感谢您可以发布您的代码吗?以及数据样本吗?

Scikit learn 在keras中复制sklearn的MLPClassizer()

我对凯拉斯不熟悉。我试图解决一个ML问题。 关于数据: 它有5个输入特性、4个输出类和大约26000条记录 我第一次尝试使用MLPClassizer()实现它,如下所示: clf = MLPClassifier(verbose=True, tol=1e-6, batch_size=300, hidden_layer_sizes=(200,100,100,100), max_iter=500, learning_rate_init= 0.095, solver='sgd', learning_ra

Scikit learn scikit学习脊线CV中的均方误差

我的问题是:在sklearn中,如何计算RidgeCV给出的cv\u值?为什么它与度量的输出不同。均方误差 比如说, X = [1,2,3,4,5,6,7,8,9,10] X = np.array(X).reshape(-1,1) y = np.array([1,3.5,4,4.9,6.1,7.2,8.1,8.9,10,11.1]) ax.plot(X, y, 'o') ax.plot(X, X+1, '-') # help visualize 假设我们在X和y上训练岭模型 from skl

Scikit learn Scikit学习:避免交叉验证期间的数据泄漏

我刚刚阅读了k-fold交叉验证,并意识到我正在使用当前的预处理设置无意中泄漏数据 通常,我有一个训练和测试数据集。我对我的整个火车数据集进行了一系列数据插补和一次热编码,然后运行k倍交叉验证 泄漏是因为,如果我进行5倍交叉验证,我将对80%的列车数据进行培训,并对剩余的20%列车数据进行测试 我真的应该根据火车的80%来估算20%(而我之前使用的是100%的数据) 1) 这是考虑交叉验证的正确方式吗 2) 我一直在研究sklearn.Pipeline中的Pipeline类,它似乎对执行一系列转

Scikit learn jupyter笔记本中没有名为sklearn.model_selection的模块

我已在环境中安装了sklearn软件包 并且我可以成功导入sklearn到terminate。 但当我运行boston_housing.ipynb项目时,我遇到了一个重要的问题:没有名为sklearn.model_selection的模块 如何解决此问题?正如desertnaut正确地指出的那样,您使用的是Python 2,但conda list命令显示了为Python 3安装的软件包。在source激活py2之后再次运行conda list命令,并检查scikit learn。如果未列出,您只

Scikit learn 随机森林sklearn-OOB分数

在python中sklearn的RandomForestClassifier中包含oob_分数=True和不包含oob_分数有什么区别。out-of-bag(OOB)error是使用树中的预测计算出的每个树的平均误差,这些树不包含在各自的引导样本权限中,因此包含参数OOB_score=True如何影响平均误差的计算。对于每个树,仅选择一部分数据来构建树,即培训。其余样品为袋外样品。这些现成的样本可在培训期间直接用于计算测试精度。如果激活该选项,将计算“oob_分数”和“oob_预测” 如果激活或

Scikit learn 使用GridSearchCV会在scikit learn中显示校准的ClassifiedRCV错误。GridSearchCV对象没有属性';最佳参数_

我将校准的ClassifiedRCV与RandomForest一起使用,并使用GridSearch确定最佳参数。但是,当我使用GridSearchCV读回最佳参数时,它会说GridSearchCV对象没有“best_params_”属性 from sklearn.calibration import CalibratedClassifierCV from classifiers import SVMClassification from sklearn.model_selection impo

Scikit learn 不平衡数据集-如何通过网格搜索优化超参数?

我想通过对不平衡数据集使用网格搜索来优化SVC的超参数C和Gamma。到目前为止,我已经使用了class_weights='balanced',并根据f1成绩的平均值选择了最佳超参数。但是,数据集是非常不平衡的,即,如果我选择了cv=10的GridSearchCV,那么一些少数类就不会出现在验证数据中。我正在考虑使用SMOTE,但我发现这里的问题是,我必须将k_邻居设置为1,因为在一些少数民族类中,通常只有1-2个样本。有人知道如何在这种情况下优化超参数吗?还有其他选择吗 非常感谢你的每一个提示

Scikit learn 添加到管道:多标签分类器预测的修改器

我创建了一个管道,在最后使用随机森林分类器进行多标签预测 现在,有时所有类的预测都是0。在这种情况下,我希望修改预测,使第一个标签默认为1 例如: 预测(0,1,0,0,1,0)保持(0,1,0,0,1,0) 预测(0,0,0,0,0,0)变为(1,0,0,0,0) 在sklearn管道中实现这一点的方法是什么。是否有某种预测修饰符类可以扩展和实现,然后添加到管道中 所以我想做的就是修改随机森林分类器的预测,一旦它们完成。我可以在代码中轻松做到这一点,但我不知道如何在管道中做到这一点,例如,

Scikit learn 无替换的随机搜索CV采样

我对这个说法有点困惑 如果所有参数都以列表形式显示,则执行不替换的采样。如果至少有一个参数作为分布给出,则使用替换采样。强烈建议对连续参数使用连续分布 在sklearn中,随机搜索CV。不更换样品意味着什么 假设我有一个模型,其中我的参数定义为 params = {C:[1, 10, 100, 1000], gamma: [1,2,3,4,5], col_sample: [0.6,0.8,.09]} 上述未替换的采样将如何进行?未替换的采样意味着,否参数组合将被使用不止一次 对于Randomi

Scikit learn 使用热图可视化多元线性回归预测

我正在使用多元线性回归预测部署无线传感器的现场每个区域的温度,传感器如下:在1000x600 m²的表面部署42个传感器,每小时收集这42个位置的温度,见图: 我们这里有两个特征(位置aka:x和y),输出是温度,因此我根据数据集的70%来拟合我的模型,以便于以后的精确计算,但是在拟合我的模型后,我想对整个表面进行温度预测,特别是一张热图,它给出了温度作为x和y的函数(见图:) 我被困在可视化部分,因为我的数据集包含42个已知位置及其各自的温度,我如何绘制[01000]中每个x和[0600]中

Scikit learn 如何在scikit学习中进行逻辑回归后检索Hessian?

我正在使用软件包scikit学习在中等规模的数据集上计算逻辑回归(300k行,2k列。这对我来说太大了!) 现在,由于scikit learn不产生置信区间,所以我自己计算它们。要做到这一点,我需要计算并反转逻辑函数的Hessian矩阵,该矩阵以最小值计算。由于scikit learn已经在优化时计算了Hessian,如果我能够检索到它,它将非常有效 在sklearn.classification.logisticsregression中,是否有任何方法可以检索以最小值计算的Hessian值?

Scikit learn Scikit学习多标签分类,从多标签分类器获取标签

在多标签分类问题中,我使用MultiLabelBinarizer将我的20个文本标签转换为一个由0和1组成的二进制列表 在预测之后,我得到了20个二进制值的列表,我想输出相应的文本标签 我只是想知道MultiLabelBinarizer()是否提供了一个返回转换,或者我应该手动执行它。是的,MultiLabelBinarizer提供了一个名为逆变换()的方法,该方法将二值化标签转换回在fit()期间提供给它的原始名称 逆_变换(yt) 顺便说一句,MultiLabelBinarizer().c

Scikit learn python中大型数据集的特征选择

我有一个维度为3144469 x 268496的文档术语矩阵,我需要对其进行功能选择。我尝试使用代码选择Sckit learn的功能 fs = feature_selection.SelectPercentile(feature_selection.chi2, percentile=40) documenttermmatrix_train= fs.fit_transform(documenttermmatrix,y1_train) 我得到了内存错误 y1_系列具有约9k个唯一值 python中

Scikit learn 管道中的随机林-sklearn

如果我在sklearn中创建一个管道,其中第一步是转换(插补器),第二步是使用标记为真的关键字参数warmstart拟合RandomForestClassifier,那么我如何依次调用RandomForestClassifier?warmstart嵌入“管道”时是否执行任何操作 是的,它可以,但随后管道部件会变得稍微复杂 您可以看到,warm\u start仅在您增加RandomForestClassifier中的n\u估计器时才有用 :- 因此,您需要在管道内增加RandomForestCla

Scikit learn ValueError:分类报告的标签类型未知

我试图使用sklean软件包的classification_report模块来评估多类分类的模型 y_pred的尺寸:1000,36 y_试验的尺寸:1000,36 我试着在两个数组上调用分类报告,即y_test和y_pred def显示结果y_测试,y_pred,列名称=标签: printclassification\u reporty\u test,y\u pred,target\u names=标签 通过这段代码,我得到: ValueError:未知标签类型:数组[[1,0,0,…,0,0

Scikit learn 是否使用预定义的拆分重新设置网格搜索的属性?

我正在使用GridseachCV调整超参数。我有单独的培训、验证数据。我采用预定义的拆分方法来处理此问题(类似于): 然后在GridSearchCV 如果我将refit参数设置为true,在所有参数调整之后,我的模型将根据整个数据或仅根据列车数据进行训练?来自: 重新安装:布尔值、字符串或可调用,默认值=True 使用整个数据集上的最佳参数重新调整估计器 因此,是的,它将使用具有最佳超参数的整个数据集。无论是使用默认值(3倍CV)还是来自PredefinedSplit的分割,都无关紧要 ps =

Scikit learn 拉索科夫中阿尔法的行为

我试图在CV过程之外重现拉索科夫的行为,我正在努力理解发生了什么。我在交叉验证中修复了随机种子,因此行为应该是确定性的,以及alpha值(我认为LassoCV按降序重新排序)。但我肯定遗漏了一些东西,因为如果我一次只使用一个alpha,或者如果alpha的最大值在两次运行之间重合,我只能得到相同的结果。代码: clf = LassoCV(alphas = np.logspace(-2,2,5), cv = KFold(n_splits=10, shuffle=True, random_state

Scikit learn 如何知道哪些特征在预测模型中起重要作用?

我是DS/ML方面的新手。我试图在Kaggle解决泰坦尼克号的案例研究,但我的方法到目前为止还不系统。我使用相关性来发现变量之间的关系,并使用KNN和随机森林分类,但我的模型性能并没有改善。我根据变量之间的相关性选择了特征 如果有某些sk学习方法可用于识别对预测有重大贡献的特征,请指导我。通过各种增强技术,您可以将准确度提高约99%,我建议您使用梯度增强

Scikit learn SVR超参数选择与可视化

我只是数据分析的初学者。我想用“交叉验证网格搜索法”来确定径向基函数(RBF)核支持向量机的参数gamma和C。我不知道我应该把数据放在这段代码的什么地方,我应该使用什么数据类型(训练或目标数据) 对于SVR import numpy as np import pandas as pd from math import sqrt from sklearn.tree import DecisionTreeRegressor import matplotlib.pyplot as plt from

Scikit learn 带分类变量的线性回归问题

我建立了一个线性回归模型,根据COMPAS数据集预测罪犯的再犯率。 我有一些关于分类变量的问题,特别是性别变量。 将其转换为虚拟变量,并删除两个二进制变量中的一个,以防止共线。 然而,在培训模特后,女性似乎比男性获得了更高的累犯分数。 这似乎是不正确的,因为男性罪犯在自变量上的得分高于女性。 此外,女性的目标变量(累犯分数)低于男性。 我认为女性的预测分数会更低。 我觉得这个模型有点问题。 有人能帮我吗? 请参见以下数据集和代码: 虚拟转换和数据清理后的数据子集: 年龄;先验计数;绝对自由计数;

Scikit learn 如何利用熵从决策树中导出概率

所以我已经看到了很多关于它是如何计算的解释,但我不能把所有这些都放在一篇论文中,还有空间写其他变量 如果我有一个回归模型,我会把一个系数解释为:如果我总结出来的系数是0.42,那么咖啡的系数会增加一个人早上准备好工作的概率42% 但是如果它在我的决策树上,熵=0.42-,这仍然与二元相关变量的概率有关,样本=500,值[200300] 所有这些都是虚构的,因为我不能给你我的实际数据

上一页   1   2   3   4   5    6  ... 下一页 最后一页 共 36 页