Scikit Learn_IT技术博客_编程技术问答

Scikit learn 套索路径[线性模型.lars路径（模型='；套索'；）]

标签： Scikit Learn sparse-matrixlasso-regressionlars

在scikit学习中运行线性_模型.lars_路径（模型='lasso'）时，我对套索路径的行为感到困惑我认为，一旦权重（系数）变为活动状态（从0开始的差异），它必须在LARS算法的所有后续步骤中保持活动状态当在我的数据上运行算法时，我注意到有时系数会变为活动的，然后它会变为零（从活动集中删除）。这是LARS算法的正确行为，还是scikit学习实现中存在错误对于L1正则化版本的LAR来说，这是正确的行为（L1正则化回归通常被称为“套索”）在L1版本中，如果沿LAR路径的步骤导致数据矩阵的

Scikit learn scikit学习单词共现矩阵

标签： Scikit Learn

我试图从一组文本文档中获取单词共现矩阵。我不想自己创建矩阵并处理它们，而是想知道scikit中是否有一种方法可以从文档列表中获取单词共现矩阵任何指向相关类的指针都将不胜感激嗨，输出格式是什么？它是一个矩阵，其中每个条目（i，j）是单词i和j的共现计数吗？

Scikit learn 处理随机森林回归器中缺失分类特征值的指南

标签： Scikit Learn random-forest

当使用随机森林回归器（或任何集成学习器）时，处理缺失分类特征值的一般准则是什么？我知道scikit learn具有插补功能（如平均值…策略或接近度）来插补缺失值（数值）。但是，人们如何处理缺失的分类价值：比如工业（石油、计算机、汽车，无），专业（学士、硕士、博士，无）欢迎提出任何建议。随机森林的发明者布雷曼和卡特勒提出了两种可能的策略（见）：随机林有两种替换缺失值的方法。第一条路速度很快。如果mth变量不是分类变量，则该方法计算 j类中该变量所有值的中值，然后使用此值用于替换类中mth变

Scikit learn 返回2个或多个最近邻的KNN算法

标签： Scikit Learn

例如，我有一个向量x，而a是它最近的邻居。然后，b是它的下一个近邻。Pyton或R中是否有任何包输出类似于[a，b]的内容，这意味着a是其最近邻（可能通过多数票），而b是其第二最近邻。这正是这些度量树的构建目的您的问题是，您正在使用sklearn（根据您所使用的度量标准，考虑BallTree）来询问一些简单的问题：将numpy导入为np 从sklearn.KDTree导入 X=np.数组（[[1,1]，[2,2]，[3,3]]）#2维中的3个点 tree=KDTree（X） dist，ind

Scikit learn 一次热编码后如何对测试数据进行预处理

标签： Scikit Learn data-scienceone-hot-encoding

我在这里有点困惑，我对所有

Scikit learn Scikit学习中的成对操作和每对上的不同过滤条件

标签： Scikit Learn pairwise

我有以下两个数据帧，比如说df1 a b c d 0 0 1 2 3 1 4 0 0 7 2 8 9 10 11 3 0 0 0 15 和df2 a b c d 0 5 1 2 3 我感兴趣的是对df1中的每一行和df2中的单行进行成对操作。但是，如果df1行中的一列为0，则该列在df1行和df2行中都不用于执行成对操作。因此，每个成对操作将在不同长度的成对行上工作。让我把它分解成

Scikit learn FileNotFoundError:使用jupyter笔记本导入sklearn时找不到模块

标签： Scikit Learn Jupyter Notebook

当我尝试在jupyter笔记本中导入sklearn时，我收到如下错误消息： FileNotFoundError Traceback (most recent call last) <ipython-input-2-ae13d4c4c2fb> in <module> 1 # Scikit-Learn ≥0.20 is required ----> 2 import sklearn 3 assert

Scikit learn joblib'；正在从多个任务调用的s备忘支持？

标签： Scikit Learn

如果一个被记忆的函数从两个作业并行调用，会发生什么？一个调用的结果被保存，另一个被检索，或者两个调用都在不使用彼此结果的情况下运行？还是根本不支持这种情况在文档中找不到对此的引用如果结果已被计算并保存（由同一进程或并发进程保存），则可重复使用该结果如果两个并发进程第一次计算相同的结果，则要完成的第一个进程将结果保存在驱动器上以供以后重用，第二个进程第一次使用自己的计算结果，以后可以重用缓存的结果此外，在Python程序结束后，缓存会保留在硬盘上，以便以后重新启动相同的脚本/程序时可以重用它

Scikit learn 从随机森林分类器中提取树（预测器）

标签： Scikit Learn

我有一个关于sklearn的特定技术问题，随机森林分类器使用“.fit（X，y）”方法拟合数据后，有没有办法提取实际的树从估计器对象，以某种常见格式，因此“.predict（X）” 方法可以在python之外实现？是的，林的树存储在森林物体您可以查看export\u graphviz 函数了解如何编写自定义导出器：以下是此功能的使用说明：是的，并且@ogrisel answer使我能够实现以下代码片段，它允许使用（部分训练的）随机林来预测值。如果要交叉验证随机森林模型的树数，可以

Scikit learn 如何在scikit学习中使用随机林的高维特征

标签： Scikit Learn random-forest

如何在scikit learn中为随机林使用高维特征？我打算使用10维特征向量和向量之间的马氏距离。根据基尼和熵标准，可以生长分类树。但是，您可以自己编写一个新标准并使用它。我不理解这个问题。10维特征向量并不是真正的高维。另外，您打算如何将马氏距离用于随机林？随机林由决策树组成。树的每个节点都是基于比较的决策。对于每个比较，我们需要一个距离。我打算使用马氏距离来寻找特征向量之间的距离，并将它们用于决策树。

Scikit learn 线性回归预测的sklearn方差

标签： Scikit Learn linear-regression

我正在尝试使用scikit中的线性回归拟合线性模型。从预测函数中，我得到一个点估计预测，但我需要一个可能值的分布，其中预测的点值可能是高斯分布的平均值。我想知道是否有一种方法可以从任何scikit模型中获得这样的分布。我检查了方差分数，但无法找出将其映射到方差的方法。请提供帮助。如果您拟合的数据实际上来自线性高斯过程，并且您用来拟合的样本集足够大，并且被高斯噪声破坏，那么您可以从线性回归对象的score（）方法返回的R^2系数中获得预测的分布。R^2是1-（预测误差的方差）/（y的方差）。因此

Scikit learn Csr矩阵（scikit学习svm.SVC coef_u属性）

标签： Scikit Learn

我有一个sklearn.svm.SVC对象，并通过一些数据对其进行训练。现在我需要得到 v = TfidfVectorizer() train_data = v.fit_transform(data) clf2 = SVC(kernel='linear') clf2.fit(train_data, train_target) print clf.coef_ 为了得到集合中最有价值的单词，我需要得到clf2.coef uf稀疏矩阵的绝对值。如何通过绝对值获得前N个单词

Scikit learn 如何从sklearn Gaussian过程回归模型中检索训练好的超参数

标签： Scikit Learn

调用model.fit（X，y）；model.get_params（）返回初始化内核时使用的值。如何获取训练模型的超参数前面提到的model.get_params（）将返回传递到GPR初始化中的参数它使用model.kernel.优化传递的内核内部参数有关更多详细信息，请参阅文档和相关示例

Scikit learn 文本分类&x2B；朴素贝叶斯&x2B；Scikit学习

标签： Scikit Learn text-classificationnaivebayes

我将第一次使用朴素贝叶斯进行文本分类。我在以下网站上找到此代码：我想解决一个关于传递给函数fit（）的参数X\u train\u tfidf，tworn\u train.target的疑问 X_train_tfidf是序列集中所有文档的tfidf向量表示目标是文档的相应标签，其顺序与X\u train\u tfidf集合中显示的顺序一致我说的对吗？简短的回答：是的详细回答：这适用于使用API找到的每个fit方法。给定维度为[m，n]的文档的矩阵X，目标向量Y将具有维度[n，1]，并且文

Scikit learn Scikit学习柱形变压器&x2B；OneHotEncoder

标签： Scikit Learn

[[1 0 1][1 0 1][0 1 0][0 1 0]] feature0有值男性和女性，为什么一个热输出三个cols和columntransformer？首先，欢迎使用StackOverflow。根据社区的建议，建议在源代码中加入上下文，以便获得正确的响应。首先请检查文档，欢迎来到StackOverflow。根据社区的建议，建议在源代码中加入上下文，以便获得正确的响应。请检查文件 from sklearn.preprocessing import OrdinalEncoder from s

Scikit learn 我可以使用GridSearchCV交换管道中的变压器吗？

标签： Scikit Learn

我正在处理一个回归问题，希望评估使用不同标准化方法的效果（StandardScaler，RobustScaler，Normalizer，…）。稍后，我还想评估处理缺失数据的不同方法（SimpleImputer，IterativeImputer）这是我目前的设置 # Create some dummy data X = pd.DataFrame({ 'x1': np.random.rand(1000)*123 - 83, 'x2': np.random.rand(1000)*2

Scikit learn 为什么我的混淆矩阵显示不正确？

标签： Scikit Learn confusion-matrix

我一直在试验iris数据集，希望创建一个混淆矩阵。我创建混淆矩阵的代码如下： from sklearn.metrics import confusion_matrix mat = confusion_matrix(ytest, y_model) sns.heatmap(mat, square=True, annot=True, cbar=False) plt.xlabel('predicted value') plt.ylabel('true value'); 结果在顶部和底部都被切断了。

Scikit learn 使用sklearn LabelEncoder（）对整个datafarame进行标签编码

标签： Scikit Learn label-encoding

我想用Keras的序列模型来预测序列。我的数据帧包含字符串数据，因此我决定使用sklearn库中的LabelEncoder对字符串数据进行编码我尝试了以下代码片段： import pandas as pd df = pd.read_csv("sample-03.csv") from sklearn.preprocessing import LabelEncoder df.apply(LabelEncoder().fit_transform) 给出这个结果：此标签编码

Scikit learn 在sklearn transformer管道上创建一个fork，以允许数据通过

标签： Scikit Learn

我有一个类似这样的sklearn管道您会注意到重复的步骤，features\u to\u vectorize，位于FeatureUnion的左侧和右侧功能向量化是对数据帧列应用指令向量化器的结果。然后，我想将特性\u矢量化，并将其与自身的转换连接起来。我当前的设置复制了转换，因为我不确定如何在features\u\u矢量化处创建一个fork，在那里我可以为该数据创建一个传递，但也可以对该数据应用转换，然后再对其应用FeatureUnion转换。有没有办法更好地设置它以避免重复计算？谢谢 su

Scikit learn sklearn.base（Python）中的BaseEstimator

标签： Scikit Learn classification

我一直在自学和实践sklearn library。当我参加Kaggle竞赛时，我注意到提供的示例代码使用了sklearn.base中的BaseEstimator。我不太明白如何/为什么使用BaseEstimator from sklearn.base import BaseEstimator class FeatureMapper: def __init__(self, features): self.features = features #featur

Scikit learn Scikit学习多项式中的内存不足错误nb

标签： Scikit Learn scikits

为了在大约400 MB的文本数据中运行NB分类器，我需要使用矢量器 vectorizer = TfidfVectorizer(min_df=2) X_train = vectorizer.fit_transform(X_data) 但这是一个内存不足的错误。我正在使用Linux64，它是python的64位版本。人们如何在Scikit for large data set（文本）中完成矢量化过程回溯（最近一次呼叫最后一次）：文件“ParseData.py”，第234行，在 main（）文

Scikit learn 比较并行k-均值批处理与小批处理速度

标签： Scikit Learn

我试图用k-均值聚类1000维250k向量。我正在工作的机器有80个双核只是确认一下，是否有人比较了k-means默认批处理并行版本和k-means迷你批处理版本的运行时间？关于sklean的文档没有提供太多信息，因为数据集非常小非常感谢你的帮助在这方面，认为小批量K-Means对于10000个以上的样本应该更快、更有效。由于您有250000个样本，如果您不想自己测试，您可能应该使用mini-batch 请注意，通过更改此行中的n_样本，可以很容易地将示例更改为5000点、10000点或2

Scikit learn 参数'的作用是什么；选择'；在sklearn.linear_model.Lasso中

标签： Scikit Learn lasso-regression

我想知道sklearn函数sklearn.linear_model.Lasso中参数“selection”的作用我猜这个参数设定了套索解算器的优化方式，但我想知道它到底是如何工作的。我读了这些文件，但我没有完全理解你能解释一下吗选择=‘循环’与选择=‘随机’之间有什么不同？与随机坐标下降之间有什么不同。它一次循环一个特征（即坐标），使每个坐标的成本函数最小化通过所有特征协调下降循环：随机化随机选择每个特征：在sklearn中使用它。很酷。多亏了你，我才知道坐标下降是什么！非常感谢

Scikit learn 使用SMOTE对tweet进行上采样

标签： Scikit Learn oversamplingsmote

我有一个不平衡的tweet数据集，标记为-1，0，+1。我想通过上采样来平衡数字。我收到以下错误： tweet_train=tweet_train.reshape(-1, 1) X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train) 无法将字符串转换为浮浮式：无法将字符串转换为浮式：无法将字符串转换为浮式：无法将字符串转换为浮式：无法将151575日日日日日方方方

Scikit learn sklearn在项目内或项目外是否有任何模型类型元数据？

标签： Scikit Learn

例如，库中的信息可能很有用，它允许用户选择所有基于树的集成模型，这些集成模型处理具有多个输出的回归/分类器任务我认为用户可以在图书馆中逐渐创建这些元数据，如果它还不存在的话比如： [model_entry for model_entry in sklearn.meta_info if model_entry.2d_y and model_entry.ensemble] 但是有更好的名字您可以随时使用estimator标签获取此类信息：这正是我要搜索的内容。

Scikit learn 如何预测看不见的数据？

标签： Scikit Learn

嗨，我正在练习ML模型，在尝试预测看不见的数据时遇到了问题。对分类数据执行onehotencoding时出错 from sklearn.preprocessing import LabelEncoder,OneHotEncoder labelencoder_x_1 = LabelEncoder() #will encode country X[:,1] = labelencoder_x_1.fit_transform(X[:,1]) labelencoder_x_2 = LabelEncod

Scikit learn 如何计算SKLDA模型的一致性得分？

标签： Scikit Learn gensimlda

这里，best_model_lda是一个基于sklearn的lda模型，我们正试图为该模型找到一致性分数 coherence_model_lda = CoherenceModel(model = best_lda_model,texts=data_vectorized, dictionary=dictionary,coherence='c_v') coherence_lda = coherence_model_lda.get_coherence() print('\n Coherence Sco

Scikit learn ValueError:HistGradientBoostingRegressionr至少需要一个数组或数据类型

标签： Scikit Learn

我正在使用HistGradientBoostingRegressionor 我的代码：- X_train, X_test, y_train, y_test = train_test_split(Train, target, test_size=0.2, random_state=16) model = HistGradientBoostingRegressor(learning_rate = 0.1, max_ite

Scikit learn 为什么每次运行程序时，我的皮尔逊相关系数（和MSE）都会不断变化？

标签： Scikit Learn scipypython-3.7pearson-correlationmean-square-error

每次运行训练数据集、预测测试集上的值，然后计算相关系数和MSE值的同一段代码时，值都会发生变化，这正常吗？为什么会发生这种情况 import pandas as pd from sklearn import tree from scipy.stats import linregress training = pd.read_csv('csvfile1.csv') #training data set target = pd.DataFrame(training, columns=['ta

Scikit learn 在PythonforNMF中，有没有办法一起重塑多个图像？

标签： Scikit Learn scikit-imagenmf

我是python的Nmf新手。我试图创建一个图像列表，然后获取组件。代码如下： from skimage import color from skimage import io import matplotlib.pyplot as plt f=color.rgb2gray(io.imread('f.jpg')) e=color.rgb2gray(io.imread('e.jpg')) images2= (e,f) from sklearn.decomposition import NM

Scikit learn ModuleNotFoundError:没有名为sklearn的模块

标签： Scikit Learn anaconda3

请帮助我解决我的问题。我不为这些问题工作代码如下：下面是错误：您基本上没有安装sklearn库。。因此，首先使用下面的命令安装sklearn pip安装sklearn 然后运行代码，它将解决您的问题。如果您的电脑上已经安装了PIP，那么只需运行一个命令PIP install sklearn，就可以轻松安装sklearn模块。你可以参考https://scikit-learn.org/stable/install.html. 否则您将需要安装pip。参考https://phoenixnap.

Scikit learn 如何在scikit学习中修改SVM的损失函数？

标签： Scikit Learn svm

作为一个玩具问题，我的数据具有均匀和独立的噪声，因此我想定义一个新的噪声鲁棒损失函数。它看起来像是沿着 L=[（1-p）L（t，y）-pl（t，y）]/（1-2p）其中x是我的数据中损坏的度量，l是我们的标准（例如日志丢失）损失。我不知道如何从scikit learn中更改SVM中的损失函数。任何指针都会有帮助吗

Scikit learn 使用交叉验证实现的python 3.8错误

标签： Scikit Learn cross-validationpython-3.8

当我运行教程中的以下代码时，我几乎每次尝试的视频都会在结尾处出现以下错误资料来源：我得到以下错误： from sklearn import preprocessing, cross_validation ImportError: cannot import name 'cross_validation' from 'sklearn 我进行了pip安装，根据其他建议改变了交叉验证的方式，但我仍然无法解决它。我在sklearn中找不到作为库的交叉验证您需要使用sklearn.model_s

Scikit learn scikit学习中的覆盖率错误度量说明

标签： Scikit Learn multilabel-classification

我不理解scikit learn中的覆盖率错误是如何计算的，可在sklearn.metrics模块中找到。文件中的说明如下： coverage_error函数计算最终预测中必须包含的标签的平均数量，以便预测所有真实标签例如： import numpy as np from sklearn.metrics import coverage_error y_true = np.array([[1, 0, 0], [0, 1, 1]]) y_score = np.array([[1, 0, 0], [

Scikit learn 如何应用从sciki学习决策树中学习到的规则

标签： Scikit Learn decision-tree

我正在scikit学习中构建决策树。搜索stackoverflow可以找到一种方法来提取与每个叶关联的规则。现在我的目标是将这些规则应用到新的观察中，看看新的观察结果会怎样这是一个抽象的例子。假设我们得到了叶1的规则。a7，则观察属于叶#1。现在，我想做一个新的观察，并将这些规则应用到它身上，以检查它最后是什么叶子我试图使用决策树进行分割可以找到将决策树分类器与scikit学习结合使用的示例。该示例包括训练分类器和验证第二个数据集的结果将经过训练的决策树应用于新数据样本时，可使用返回结果

Scikit learn 导入MLPClassizer时发生导入错误

标签： Scikit Learn Neural Network python-3.5python-importimporterror

我尝试运行时遇到以下错误： from sklearn.neural_network import MLPClassifier 错误： from sklearn.neural_network import MLPClassifier Traceback (most recent call last): File "<ipython-input-77-6113b65dfa44>", line 1, in <module> from sklearn.neural_netwo

Scikit learn 为什么sklearn.feature_selection.RFECV每次运行都会给出不同的结果

标签： Scikit Learn cross-validation

我尝试用RFECV进行特征选择，但每次都会给出不同的结果，交叉验证是将样本X划分为随机块还是顺序确定块另外，为什么网格分数和scoreX，y的分数不同？为什么分数有时是负数？交叉验证是将样本X划分为随机组块还是顺序确定组块默认情况下，CV将数据划分为确定性块。您可以通过将shuffle参数设置为True来更改此行为但是，如果y是二进制或多类，则使用sklearn.model_selection.StratifiedKFold 这意味着它将分割数据，使每个折叠具有相同或几乎相同的类比率。为了

Scikit learn 使用Google Cloud ML引擎和XGBoost优化超参数

标签： Scikit Learn Google Cloud Platform xgboostgoogle-cloud-ml

我试图复制本文中报告的超参数调优示例，但我希望在我的培训应用程序中使用scikit learn XGBoost而不是tensorflow 我能够在一个作业中运行多个试验，针对每个hyperparameters组合。但是，ML引擎返回的训练输出对象不包括finalMetric字段，该字段报告度量信息（请参见下图中的差异）我从上面的链接示例中得到：使用XGBoost运行我的培训应用程序得到了什么： XGBoost是否有办法将培训指标返回到ML引擎根据文档中的规定，tensorflow的此过

Scikit learn SciKit是否有一个内部功能，用于计算每个Y溶液的精度？

标签： Scikit Learn

我有LinearSVC算法，可以预测股票的一些数据。它有90%的acc评级，但我认为这可能是因为一些y的可能性比其他的大得多。我想看看是否有一种方法可以确定，对于我定义的每个y，y的预测准确度有多高我在文档中没有看到过类似的内容，但拥有它是有意义的。您可以使用SciKit中实现的表示，在每个属性的分类问题的预测值和实际值之间生成精度矩阵。对角线表示原始精度，可以很容易地转换为百分比精度。如果您真正想要的是信心的度量，而不是实际的概率，您可以使用方法LinearSVC.decision\u fu

Scikit learn 我应该在SMOTE之前还是之后执行GridSearch（用于调整超参数）？

标签： Scikit Learn classificationgrid-searchhyperparameterssmote

我使用一个不平衡的数据来使用scikit learn进行分类，为了提高模型的准确性，我使用SMOTE技术创建了更多的合成数据。我想知道用GridSearch实现超参数优化的最佳时机。我应该只使用原始数据还是原始+合成数据您是在谈论如何将SMOTE这样的过采样方法与sklearn的GridSearchCV结合使用吗？我做这个假设是因为你的帖子上有一个scikit学习标签如果是这样，您可以使用管道对象将过采样的SMOTE数据传递到GridSearchCV。如果您希望通过GridSearchC

Scikit learn 使决策树成为弱学习者，但它得到>；80%的分数

标签： Scikit Learn decision-treeadaboost

我正在使用sklearn AdaboostClassifier和DecisonTreeClassier测试UCI存储库中的鲍鱼数据集。我刚刚检查了DecisonTreeClassifier的性能，最大深度为1，我发现它总是>80%，我如何使用这样的树作为弱学习者对于决策树，我使用max_depth=1和splitter='random'，从文档中，“random”表示“random best”，因此它不会随机选取任何要分割的特征我该如何处理这种情况？谢谢。由于数据集不平衡，您可能会达到80%

Scikit learn scikit学习中的随机森林分类器使用了哪些决策树算法

标签： Scikit Learn random-forestdecision-tree

在标题中，我想知道在哪里可以检查scikit learn中RandomForestClassifier使用了哪些决策树算法。它在attributesbase\u estimator\uu=DecisionTreeClassifier中说，那么scikitlearn中DecisionTreeClassifier的后面是CART，这是我的答案吗链接到scikit学习任何建议都将不胜感激Scikit learn默认使用优化版的购物车（）它通过“使用产生最大信息增益的特征和阈值”来构建树。可使用R

Scikit learn 使用scikit优化在管道中调优自定义转换器

标签： Scikit Learn pipelineskopt

我正在实现一个自定义转换器以在我的管道中使用，它在初始化时使用参数myClusters（现在称为K-Means Clustering，但只是一个测试类）：管道本身通过skicit optimize进行调整： from skopt import BayesSearchCV from sklearn.pipeline import Pipeline from sklearn import tree opt = BayesSearchCV( Pipeline([ ('KMe

Scikit learn 多标签分类的特征选择（scikit学习）

标签： Scikit Learn feature-selectionchi-squared

我试图在scikit学习（sklearn.feature\u selection.SelectKBest）中使用卡方方法进行特征选择。当我试图将此应用于多标签问题时，我得到以下警告： UserWarning:重复的分数。结果可能取决于特征顺序。可能存在重复的特征，或者您将分类分数用于回归任务。警告（“重复分数。结果可能取决于功能排序。” 为什么会出现这种情况以及如何正确应用功能选择是这种情况？代码警告您，可能需要执行任意平分，因为某些功能的分数完全相同也就是说，特征选择实际上并不适用于开箱即

Scikit learn 无法导入名称AdaBoostClassifier

标签： Scikit Learn

在Ubuntu和RandomTreeClassifier上的Python 2.7中成功使用scikit学习库（0.13.1），树外加载成功，但无法加载AdaBoost，收到IMportError:无法导入名称AdaBoost。一般来说，linux和软件包安装相对较新，但有些人认为AdaBoost或依赖项没有正确编译/构建。感谢您提供的任何帮助，我们无法通过谷歌搜索或本论坛找到任何类似的帮助。AdaBoostClassifier目前仅在开发分支中提供，该分支将在未来某个时候发布0.14版本，请参阅

Scikit learn 交叉验证管道的分类报告

标签： Scikit Learn cross-validationconfusion-matrixprecision-recallimblearn

我正在使用SMOTE（IMBRearn library）交叉验证中的管道来检查欺诈和非欺诈客户的不平衡数据集 gbm0=GradientBoostingClassifier（随机状态=10）采样器=['SMOTE'，SMOTE（随机状态=随机状态，比率=0.5，种类='borderline1'）]] 分类器=['gbm'，gbm0] 管道=[ ['{}-{}'。格式（采样器[0]，分类器[0]），制作_管道（取样器[1]，分类器[1]）] 用于采样器中的采样器 ] stdsc=Standa

Scikit learn scikit学习中的多目标岭回归是如何工作的？

标签： Scikit Learn linear-regressiongrid-searchregularizedmultitargeting

我正在努力理解以下内容： Scikit learn为岭回归提供了一个多输出版本，只需交付一个2D数组[n_样本，n_目标]，但它是如何实现的假设每个目标的每个回归都是独立的是否正确？在这些情况下，我如何调整它，以便为每个回归使用单独的alpha正则化参数？如果我使用GridSeachCV，我必须交出一个可能的正则化参数矩阵，或者这是如何工作的提前感谢-我已经搜索了几个小时，但找不到关于这个主题的任何内容。我将尝试一下，因为我一直在为自己的工作研究这个问题。我会把问题分解成几个部分，这样你就

Scikit learn 加载并使用已保存的Keras model.h5

标签： Scikit Learn Keras

我尝试将KerasClassifier（包装器）放入final\u model.h5 validator = GridSearchCV(estimator=clf, param_grid=param_grid) grid_result = validator.fit(train_images, train_labels) best_estimator = grid_result.best_estimator_ best_estimator.model.save("final_model.h5"

Scikit learn 使用scikit learn按顺序排列所有功能

标签： Scikit Learn feature-selection

我正在尝试使用scikit-learn和对所有功能进行排序。如果排序的特征数k小于特征总数n，则该方法效果良好。但是，如果我设置了k=n，则SelectKBest的输出顺序将与原始要素数组的顺序相同。如何根据其重要性对所有功能进行排序代码如下： from sklearn.feature_selection import SelectKBest, f_regression n = len(training_features.columns) selector = SelectKBest(f_

Scikit learn 带sklearn差异的PCA

标签： Scikit Learn pca

我试图在一个非常特定的环境中应用PCA，但遇到了一种我无法解释的行为。作为一个测试，我使用您可以在这里检索的文件数据运行以下代码：（numpy数组格式）我的问题如下：因为我没有指定任何数量的组件，所以我应该在这里使用所有计算组件进行重构。因此，我希望我的输出项目与输入测试相同。但一个快速的情节证明情况并非如此： plt.figure() plt.plot(test[0]-proj[0]) plt.show() 这里的图将显示投影和输入矩阵之间的一些较大差异有人有什么想法或解释来帮助我理解