Scikit learn 套索路径[线性模型.lars路径(模型=';套索';)]

在scikit学习中运行线性_模型.lars_路径(模型='lasso')时,我对套索路径的行为感到困惑 我认为,一旦权重(系数)变为活动状态(从0开始的差异),它必须在LARS算法的所有后续步骤中保持活动状态 当在我的数据上运行算法时,我注意到有时系数会变为活动的,然后它会变为零(从活动集中删除)。这是LARS算法的正确行为,还是scikit学习实现中存在错误 对于L1正则化版本的LAR来说,这是正确的行为(L1正则化回归通常被称为“套索”) 在L1版本中,如果沿LAR路径的步骤导致数据矩阵的

Scikit learn scikit学习单词共现矩阵

我试图从一组文本文档中获取单词共现矩阵。我不想自己创建矩阵并处理它们,而是想知道scikit中是否有一种方法可以从文档列表中获取单词共现矩阵 任何指向相关类的指针都将不胜感激 嗨,输出格式是什么?它是一个矩阵,其中每个条目(i,j)是单词i和j的共现计数吗?

Scikit learn 处理随机森林回归器中缺失分类特征值的指南

当使用随机森林回归器(或任何集成学习器)时,处理缺失分类特征值的一般准则是什么?我知道scikit learn具有插补功能(如平均值…策略或接近度)来插补缺失值(数值)。但是,人们如何处理缺失的分类价值:比如工业(石油、计算机、汽车,无),专业(学士、硕士、博士,无) 欢迎提出任何建议。随机森林的发明者布雷曼和卡特勒提出了两种可能的策略(见): 随机林有两种替换缺失值的方法。第一条路 速度很快。如果mth变量不是分类变量,则该方法计算 j类中该变量所有值的中值,然后使用 此值用于替换类中mth变

Scikit learn 返回2个或多个最近邻的KNN算法

例如,我有一个向量x,而a是它最近的邻居。然后,b是它的下一个近邻。Pyton或R中是否有任何包输出类似于[a,b]的内容,这意味着a是其最近邻(可能通过多数票),而b是其第二最近邻。这正是这些度量树的构建目的 您的问题是,您正在使用sklearn(根据您所使用的度量标准,考虑BallTree)来询问一些简单的问题: 将numpy导入为np 从sklearn.KDTree导入 X=np.数组([[1,1],[2,2],[3,3]])#2维中的3个点 tree=KDTree(X) dist,ind

Scikit learn Scikit学习中的成对操作和每对上的不同过滤条件

我有以下两个数据帧,比如说df1 a b c d 0 0 1 2 3 1 4 0 0 7 2 8 9 10 11 3 0 0 0 15 和df2 a b c d 0 5 1 2 3 我感兴趣的是对df1中的每一行和df2中的单行进行成对操作。但是,如果df1行中的一列为0,则该列在df1行和df2行中都不用于执行成对操作。因此,每个成对操作将在不同长度的成对行上工作。让我把它分解成

Scikit learn joblib';正在从多个任务调用的s备忘支持?

如果一个被记忆的函数从两个作业并行调用,会发生什么?一个调用的结果被保存,另一个被检索,或者两个调用都在不使用彼此结果的情况下运行?还是根本不支持这种情况 在文档中找不到对此的引用如果结果已被计算并保存(由同一进程或并发进程保存),则可重复使用该结果 如果两个并发进程第一次计算相同的结果,则要完成的第一个进程将结果保存在驱动器上以供以后重用,第二个进程第一次使用自己的计算结果,以后可以重用缓存的结果 此外,在Python程序结束后,缓存会保留在硬盘上,以便以后重新启动相同的脚本/程序时可以重用它

Scikit learn 从随机森林分类器中提取树(预测器)

我有一个关于sklearn的特定技术问题,随机森林分类器 使用“.fit(X,y)”方法拟合数据后, 有没有办法提取实际的树 从估计器对象,以某种常见格式,因此“.predict(X)” 方法可以在python之外实现?是的,林的树存储在 森林物体 您可以查看export\u graphviz 函数了解如何编写自定义导出器: 以下是此功能的使用说明: 是的,并且@ogrisel answer使我能够实现以下代码片段,它允许使用(部分训练的)随机林来预测值。如果要交叉验证随机森林模型的树数,可以

Scikit learn 如何在scikit学习中使用随机林的高维特征

如何在scikit learn中为随机林使用高维特征? 我打算使用10维特征向量和向量之间的马氏距离。根据基尼和熵标准,可以生长分类树。但是,您可以自己编写一个新标准并使用它。我不理解这个问题。10维特征向量并不是真正的高维。另外,您打算如何将马氏距离用于随机林?随机林由决策树组成。树的每个节点都是基于比较的决策。对于每个比较,我们需要一个距离。我打算使用马氏距离来寻找特征向量之间的距离,并将它们用于决策树。

Scikit learn 线性回归预测的sklearn方差

我正在尝试使用scikit中的线性回归拟合线性模型。从预测函数中,我得到一个点估计预测,但我需要一个可能值的分布,其中预测的点值可能是高斯分布的平均值。我想知道是否有一种方法可以从任何scikit模型中获得这样的分布。我检查了方差分数,但无法找出将其映射到方差的方法。 请提供帮助。如果您拟合的数据实际上来自线性高斯过程,并且您用来拟合的样本集足够大,并且被高斯噪声破坏,那么您可以从线性回归对象的score()方法返回的R^2系数中获得预测的分布。R^2是1-(预测误差的方差)/(y的方差)。因此

Scikit learn Csr矩阵(scikit学习svm.SVC coef_u属性)

我有一个sklearn.svm.SVC对象,并通过一些数据对其进行训练。现在我需要得到 v = TfidfVectorizer() train_data = v.fit_transform(data) clf2 = SVC(kernel='linear') clf2.fit(train_data, train_target) print clf.coef_ 为了得到集合中最有价值的单词,我需要得到clf2.coef uf稀疏矩阵的绝对值。如何通过绝对值获得前N个单词

Scikit learn 文本分类&x2B;朴素贝叶斯&x2B;Scikit学习

我将第一次使用朴素贝叶斯进行文本分类。 我在以下网站上找到此代码: 我想解决一个关于传递给函数fit()的参数X\u train\u tfidf,tworn\u train.target的疑问 X_train_tfidf是序列集中所有文档的tfidf向量表示 目标是文档的相应标签,其顺序与X\u train\u tfidf集合中显示的顺序一致 我说的对吗?简短的回答:是的 详细回答:这适用于使用API找到的每个fit方法。给定维度为[m,n]的文档的矩阵X,目标向量Y将具有维度[n,1],并且文

Scikit learn Scikit学习柱形变压器&x2B;OneHotEncoder

[[1 0 1][1 0 1][0 1 0][0 1 0]] feature0有值男性和女性,为什么一个热输出三个cols和columntransformer?首先,欢迎使用StackOverflow。根据社区的建议,建议在源代码中加入上下文,以便获得正确的响应。首先请检查文档,欢迎来到StackOverflow。根据社区的建议,建议在源代码中加入上下文,以便获得正确的响应。请检查文件 from sklearn.preprocessing import OrdinalEncoder from s

Scikit learn 我可以使用GridSearchCV交换管道中的变压器吗?

我正在处理一个回归问题,希望评估使用不同标准化方法的效果(StandardScaler,RobustScaler,Normalizer,…)。 稍后,我还想评估处理缺失数据的不同方法(SimpleImputer,IterativeImputer) 这是我目前的设置 # Create some dummy data X = pd.DataFrame({ 'x1': np.random.rand(1000)*123 - 83, 'x2': np.random.rand(1000)*2

Scikit learn 为什么我的混淆矩阵显示不正确?

我一直在试验iris数据集,希望创建一个混淆矩阵。我创建混淆矩阵的代码如下: from sklearn.metrics import confusion_matrix mat = confusion_matrix(ytest, y_model) sns.heatmap(mat, square=True, annot=True, cbar=False) plt.xlabel('predicted value') plt.ylabel('true value'); 结果在顶部和底部都被切断了。

Scikit learn 使用sklearn LabelEncoder()对整个datafarame进行标签编码

我想用Keras的序列模型来预测序列。我的数据帧包含字符串数据,因此我决定使用sklearn库中的LabelEncoder对字符串数据进行编码 我尝试了以下代码片段: import pandas as pd df = pd.read_csv("sample-03.csv") from sklearn.preprocessing import LabelEncoder df.apply(LabelEncoder().fit_transform) 给出这个结果: 此标签编码

Scikit learn 在sklearn transformer管道上创建一个fork,以允许数据通过

我有一个类似这样的sklearn管道 您会注意到重复的步骤,features\u to\u vectorize,位于FeatureUnion的左侧和右侧功能向量化是对数据帧列应用指令向量化器的结果。然后,我想将特性\u矢量化,并将其与自身的转换连接起来。我当前的设置复制了转换,因为我不确定如何在features\u\u矢量化处创建一个fork,在那里我可以为该数据创建一个传递,但也可以对该数据应用转换,然后再对其应用FeatureUnion转换。有没有办法更好地设置它以避免重复计算?谢谢 su

Scikit learn sklearn.base(Python)中的BaseEstimator

我一直在自学和实践sklearn library。当我参加Kaggle竞赛时,我注意到提供的示例代码使用了sklearn.base中的BaseEstimator。 我不太明白如何/为什么使用BaseEstimator from sklearn.base import BaseEstimator class FeatureMapper: def __init__(self, features): self.features = features #featur

Scikit learn Scikit学习多项式中的内存不足错误nb

为了在大约400 MB的文本数据中运行NB分类器,我需要使用矢量器 vectorizer = TfidfVectorizer(min_df=2) X_train = vectorizer.fit_transform(X_data) 但这是一个内存不足的错误。我正在使用Linux64,它是python的64位版本。人们如何在Scikit for large data set(文本)中完成矢量化过程 回溯(最近一次呼叫最后一次): 文件“ParseData.py”,第234行,在 main() 文

Scikit learn 比较并行k-均值批处理与小批处理速度

我试图用k-均值聚类1000维250k向量。我正在工作的机器有80个双核 只是确认一下,是否有人比较了k-means默认批处理并行版本和k-means迷你批处理版本的运行时间?关于sklean的文档没有提供太多信息,因为数据集非常小 非常感谢你的帮助 在这方面,认为小批量K-Means对于10000个以上的样本应该更快、更有效。由于您有250000个样本,如果您不想自己测试,您可能应该使用mini-batch 请注意,通过更改此行中的n_样本,可以很容易地将示例更改为5000点、10000点或2

Scikit learn 参数'的作用是什么;选择';在sklearn.linear_model.Lasso中

我想知道sklearn函数sklearn.linear_model.Lasso中参数“selection”的作用 我猜这个参数设定了套索解算器的优化方式,但我想知道它到底是如何工作的。我读了这些文件,但我没有完全理解 你能解释一下吗 选择=‘循环’与选择=‘随机’之间有什么不同?与随机坐标下降之间有什么不同。它一次循环一个特征(即坐标),使每个坐标的成本函数最小化 通过所有特征协调下降循环: 随机化随机选择每个特征: 在sklearn中使用它。很酷。多亏了你,我才知道坐标下降是什么!非常感谢

Scikit learn 使用SMOTE对tweet进行上采样

我有一个不平衡的tweet数据集,标记为-1,0,+1。 我想通过上采样来平衡数字。我收到以下错误: tweet_train=tweet_train.reshape(-1, 1) X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train) 无法将字符串转换为浮浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将151575日日日日日方方方

Scikit learn sklearn在项目内或项目外是否有任何模型类型元数据?

例如,库中的信息可能很有用,它允许用户选择所有基于树的集成模型,这些集成模型处理具有多个输出的回归/分类器任务 我认为用户可以在图书馆中逐渐创建这些元数据,如果它还不存在的话 比如: [model_entry for model_entry in sklearn.meta_info if model_entry.2d_y and model_entry.ensemble] 但是有更好的名字 您可以随时使用estimator标签获取此类信息:这正是我要搜索的内容。

Scikit learn 如何预测看不见的数据?

嗨,我正在练习ML模型,在尝试预测看不见的数据时遇到了问题。 对分类数据执行onehotencoding时出错 from sklearn.preprocessing import LabelEncoder,OneHotEncoder labelencoder_x_1 = LabelEncoder() #will encode country X[:,1] = labelencoder_x_1.fit_transform(X[:,1]) labelencoder_x_2 = LabelEncod

Scikit learn 如何计算SKLDA模型的一致性得分?

这里,best_model_lda是一个基于sklearn的lda模型,我们正试图为该模型找到一致性分数 coherence_model_lda = CoherenceModel(model = best_lda_model,texts=data_vectorized, dictionary=dictionary,coherence='c_v') coherence_lda = coherence_model_lda.get_coherence() print('\n Coherence Sco

Scikit learn 为什么每次运行程序时,我的皮尔逊相关系数(和MSE)都会不断变化?

每次运行训练数据集、预测测试集上的值,然后计算相关系数和MSE值的同一段代码时,值都会发生变化,这正常吗?为什么会发生这种情况 import pandas as pd from sklearn import tree from scipy.stats import linregress training = pd.read_csv('csvfile1.csv') #training data set target = pd.DataFrame(training, columns=['ta

Scikit learn ModuleNotFoundError:没有名为sklearn的模块

请帮助我解决我的问题。我不为这些问题工作 代码如下: 下面是错误: 您基本上没有安装sklearn库。。因此,首先使用下面的命令安装sklearn pip安装sklearn 然后运行代码,它将解决您的问题。如果您的电脑上已经安装了PIP,那么只需运行一个命令PIP install sklearn,就可以轻松安装sklearn模块。你可以参考https://scikit-learn.org/stable/install.html. 否则您将需要安装pip。参考https://phoenixnap.

Scikit learn 如何在scikit学习中修改SVM的损失函数?

作为一个玩具问题,我的数据具有均匀和独立的噪声,因此我想定义一个新的噪声鲁棒损失函数。它看起来像是沿着 L=[(1-p)L(t,y)-pl(t,y)]/(1-2p) 其中x是我的数据中损坏的度量,l是我们的标准(例如日志丢失)损失。我不知道如何从scikit learn中更改SVM中的损失函数。任何指针都会有帮助吗

Scikit learn 使用交叉验证实现的python 3.8错误

当我运行教程中的以下代码时,我几乎每次尝试的视频都会在结尾处出现以下错误 资料来源: 我得到以下错误: from sklearn import preprocessing, cross_validation ImportError: cannot import name 'cross_validation' from 'sklearn 我进行了pip安装,根据其他建议改变了交叉验证的方式,但我仍然无法解决它。我在sklearn中找不到作为库的交叉验证 您需要使用sklearn.model_s

Scikit learn scikit学习中的覆盖率错误度量说明

我不理解scikit learn中的覆盖率错误是如何计算的,可在sklearn.metrics模块中找到。文件中的说明如下: coverage_error函数计算最终预测中必须包含的标签的平均数量,以便预测所有真实标签 例如: import numpy as np from sklearn.metrics import coverage_error y_true = np.array([[1, 0, 0], [0, 1, 1]]) y_score = np.array([[1, 0, 0], [

Scikit learn 如何应用从sciki学习决策树中学习到的规则

我正在scikit学习中构建决策树。搜索stackoverflow可以找到一种方法来提取与每个叶关联的规则。现在我的目标是将这些规则应用到新的观察中,看看新的观察结果会怎样 这是一个抽象的例子。假设我们得到了叶1的规则。a7,则观察属于叶#1。现在,我想做一个新的观察,并将这些规则应用到它身上,以检查它最后是什么叶子 我试图使用决策树进行分割 可以找到将决策树分类器与scikit学习结合使用的示例。该示例包括训练分类器和验证第二个数据集的结果 将经过训练的决策树应用于新数据样本时,可使用返回结果

Scikit learn 导入MLPClassizer时发生导入错误

我尝试运行时遇到以下错误: from sklearn.neural_network import MLPClassifier 错误: from sklearn.neural_network import MLPClassifier Traceback (most recent call last): File "<ipython-input-77-6113b65dfa44>", line 1, in <module> from sklearn.neural_netwo

Scikit learn 为什么sklearn.feature_selection.RFECV每次运行都会给出不同的结果

我尝试用RFECV进行特征选择,但每次都会给出不同的结果,交叉验证是将样本X划分为随机块还是顺序确定块 另外,为什么网格分数和scoreX,y的分数不同?为什么分数有时是负数?交叉验证是将样本X划分为随机组块还是顺序确定组块 默认情况下,CV将数据划分为确定性块。您可以通过将shuffle参数设置为True来更改此行为 但是,如果y是二进制或多类,则使用sklearn.model_selection.StratifiedKFold 这意味着它将分割数据,使每个折叠具有相同或几乎相同的类比率。为了

Scikit learn 使用Google Cloud ML引擎和XGBoost优化超参数

我试图复制本文中报告的超参数调优示例,但我希望在我的培训应用程序中使用scikit learn XGBoost而不是tensorflow 我能够在一个作业中运行多个试验,针对每个hyperparameters组合。但是,ML引擎返回的训练输出对象不包括finalMetric字段,该字段报告度量信息(请参见下图中的差异) 我从上面的链接示例中得到: 使用XGBoost运行我的培训应用程序得到了什么: XGBoost是否有办法将培训指标返回到ML引擎 根据文档中的规定,tensorflow的此过

Scikit learn SciKit是否有一个内部功能,用于计算每个Y溶液的精度?

我有LinearSVC算法,可以预测股票的一些数据。它有90%的acc评级,但我认为这可能是因为一些y的可能性比其他的大得多。我想看看是否有一种方法可以确定,对于我定义的每个y,y的预测准确度有多高 我在文档中没有看到过类似的内容,但拥有它是有意义的。您可以使用SciKit中实现的表示,在每个属性的分类问题的预测值和实际值之间生成精度矩阵。对角线表示原始精度,可以很容易地转换为百分比精度。如果您真正想要的是信心的度量,而不是实际的概率,您可以使用方法LinearSVC.decision\u fu

Scikit learn 我应该在SMOTE之前还是之后执行GridSearch(用于调整超参数)?

我使用一个不平衡的数据来使用scikit learn进行分类,为了提高模型的准确性,我使用SMOTE技术创建了更多的合成数据。 我想知道用GridSearch实现超参数优化的最佳时机。 我应该只使用原始数据还是原始+合成数据 您是在谈论如何将SMOTE这样的过采样方法与sklearn的GridSearchCV结合使用吗?我做这个假设是因为你的帖子上有一个scikit学习标签 如果是这样,您可以使用管道对象将过采样的SMOTE数据传递到GridSearchCV。如果您希望通过GridSearchC

Scikit learn 使决策树成为弱学习者,但它得到>;80%的分数

我正在使用sklearn AdaboostClassifier和DecisonTreeClassier测试UCI存储库中的鲍鱼数据集。我刚刚检查了DecisonTreeClassifier的性能,最大深度为1,我发现它总是>80%,我如何使用这样的树作为弱学习者 对于决策树,我使用max_depth=1和splitter='random',从文档中,“random”表示“random best”,因此它不会随机选取任何要分割的特征 我该如何处理这种情况?谢谢。由于数据集不平衡,您可能会达到80%

Scikit learn scikit学习中的随机森林分类器使用了哪些决策树算法

在标题中,我想知道在哪里可以检查scikit learn中RandomForestClassifier使用了哪些决策树算法。它在attributesbase\u estimator\uu=DecisionTreeClassifier中说,那么scikitlearn中DecisionTreeClassifier的后面是CART,这是我的答案吗 链接到scikit学习 任何建议都将不胜感激Scikit learn默认使用优化版的购物车() 它通过“使用产生最大信息增益的特征和阈值”来构建树。可使用R

Scikit learn 使用scikit优化在管道中调优自定义转换器

我正在实现一个自定义转换器以在我的管道中使用,它在初始化时使用参数myClusters(现在称为K-Means Clustering,但只是一个测试类): 管道本身通过skicit optimize进行调整: from skopt import BayesSearchCV from sklearn.pipeline import Pipeline from sklearn import tree opt = BayesSearchCV( Pipeline([ ('KMe

Scikit learn 多标签分类的特征选择(scikit学习)

我试图在scikit学习(sklearn.feature\u selection.SelectKBest)中使用卡方方法进行特征选择。当我试图将此应用于多标签问题时,我得到以下警告: UserWarning:重复的分数。结果可能取决于特征顺序。可能存在重复的特征,或者您将分类分数用于回归任务。 警告(“重复分数。结果可能取决于功能排序。” 为什么会出现这种情况以及如何正确应用功能选择是这种情况?代码警告您,可能需要执行任意平分,因为某些功能的分数完全相同 也就是说,特征选择实际上并不适用于开箱即

Scikit learn 无法导入名称AdaBoostClassifier

在Ubuntu和RandomTreeClassifier上的Python 2.7中成功使用scikit学习库(0.13.1),树外加载成功,但无法加载AdaBoost,收到IMportError:无法导入名称AdaBoost。一般来说,linux和软件包安装相对较新,但有些人认为AdaBoost或依赖项没有正确编译/构建。感谢您提供的任何帮助,我们无法通过谷歌搜索或本论坛找到任何类似的帮助。AdaBoostClassifier目前仅在开发分支中提供,该分支将在未来某个时候发布0.14版本,请参阅

Scikit learn 交叉验证管道的分类报告

我正在使用SMOTE(IMBRearn library)交叉验证中的管道来检查欺诈和非欺诈客户的不平衡数据集 gbm0=GradientBoostingClassifier(随机状态=10) 采样器=['SMOTE',SMOTE(随机状态=随机状态,比率=0.5,种类='borderline1')]] 分类器=['gbm',gbm0] 管道=[ ['{}-{}'。格式(采样器[0],分类器[0]), 制作_管道(取样器[1],分类器[1])] 用于采样器中的采样器 ] stdsc=Standa

Scikit learn scikit学习中的多目标岭回归是如何工作的?

我正在努力理解以下内容: Scikit learn为岭回归提供了一个多输出版本,只需交付一个2D数组[n_样本,n_目标],但它是如何实现的 假设每个目标的每个回归都是独立的是否正确?在这些情况下,我如何调整它,以便为每个回归使用单独的alpha正则化参数?如果我使用GridSeachCV,我必须交出一个可能的正则化参数矩阵,或者这是如何工作的 提前感谢-我已经搜索了几个小时,但找不到关于这个主题的任何内容。我将尝试一下,因为我一直在为自己的工作研究这个问题。我会把问题分解成几个部分,这样你就

Scikit learn 加载并使用已保存的Keras model.h5

我尝试将KerasClassifier(包装器)放入final\u model.h5 validator = GridSearchCV(estimator=clf, param_grid=param_grid) grid_result = validator.fit(train_images, train_labels) best_estimator = grid_result.best_estimator_ best_estimator.model.save("final_model.h5"

Scikit learn 使用scikit learn按顺序排列所有功能

我正在尝试使用scikit-learn和对所有功能进行排序。如果排序的特征数k小于特征总数n,则该方法效果良好。但是,如果我设置了k=n,则SelectKBest的输出顺序将与原始要素数组的顺序相同。如何根据其重要性对所有功能进行排序 代码如下: from sklearn.feature_selection import SelectKBest, f_regression n = len(training_features.columns) selector = SelectKBest(f_

Scikit learn 带sklearn差异的PCA

我试图在一个非常特定的环境中应用PCA,但遇到了一种我无法解释的行为。 作为一个测试,我使用您可以在这里检索的文件数据运行以下代码:(numpy数组格式) 我的问题如下:因为我没有指定任何数量的组件,所以我应该在这里使用所有计算组件进行重构。因此,我希望我的输出项目与输入测试相同。但一个快速的情节证明情况并非如此: plt.figure() plt.plot(test[0]-proj[0]) plt.show() 这里的图将显示投影和输入矩阵之间的一些较大差异 有人有什么想法或解释来帮助我理解

上一页 1 2 ...  6   7   8   9    10   11   12  ... 下一页 最后一页 共 40 页