Scikit learn 管道上的GridSearchCV问题

我似乎在下面的代码中得到了一个非常高的测试错误-我是否遗漏了什么 numComponents=np.arange(20,220,20) pipe = Pipeline(steps=[('norm', StandardScaler()), ('pca', PCA()), ('lr', LinearRegression())]) gsObj = gridCV(pipe, dict(pca__n_components=numComponents), scoring='mean_squared_er

Scikit learn 更改默认的RandomForestClassifier';s";分数“;安装模型时的功能?

我使用sklearn中的RandomForestClassifier执行装配操作: clf.fit(X_train,y_train,sample_weight=weight) 我不知道如何更改评估指标,我认为这仅仅是准确性问题 我这样问是因为我已经看到,通过这个包,您可以精确地指定这个度量。例如: clf.fit(X_train, y_train, eval_metric="auc", eval_set=[(X_eval, y_eval)]) 因此,我的问题是:我可以从sklearn对ran

Scikit learn 如何确定分类器中特征的重要性?

我有一个分类任务,以时间序列作为数据输入,其中每个属性(n=23)表示一个特定的时间点。除了绝对分类结果之外,我想找出哪些属性/日期在多大程度上对结果有影响。因此,我只是使用了功能\u importances\u,这对我来说很好 但是,我想知道它们是如何计算的,以及使用了哪种度量/算法。不幸的是,我找不到有关此主题的任何文档。这是路由到决策节点的样本数与集合中任何树中涉及该功能的样本数与训练集中样本总数之间的比率 决策树顶层节点中涉及的特征往往会看到更多的样本,因此可能具有更大的重要性 编辑:此

Scikit learn 如何从经过训练的随机森林中找到关键树/特征?

我正在使用Scikit学习随机森林分类器,并试图提取有意义的树/特征,以便更好地理解预测结果 我在文档()中找到了这个方法,但找不到如何使用它的示例 我也希望能够可视化这些树,如果可能的话,任何相关的代码都会很好 谢谢大家! 要获得相关特征的重要性,请阅读该部分中链接示例的代码 树本身存储在随机林实例的估计器属性中(仅在调用fit方法之后)。现在要提取一个“关键树”,首先需要定义它是什么,以及希望用它做什么 你可以通过计算测试集上的分数来对各个树进行排序,但我不知道你能从中得到什么 你想通过减少

Scikit learn scikit学习中的SVM过拟合

我正在使用SVM建立数字识别分类。我有10000个数据,我以7:3的比例将它们拆分为训练和测试数据。我使用线性核 结果表明,当更改训练示例数时,训练精度始终为1,但测试精度仅为0.9左右(我希望精度更好,至少为0.95)。我认为结果表明拟合过度。然而,我研究了参数,比如C,gamma。。。他们不会对结果有太大的改变 有谁能帮我解决SVM中的过度拟合问题吗?非常感谢您的时间和帮助 以下是我的代码: from sklearn import svm, cross_validation svc = sv

Scikit learn python正则化(逻辑?)回归模型中的概率建模

我想用一个回归模型来拟合概率。我知道线性回归经常用于此目的,但我有几个概率在或接近0.0和1.0,并且希望拟合一个回归模型,其中输出限制在0.0和1.0之间。我希望能够为模型指定一个正则化规范和强度,并在理想情况下在python中这样做(但R实现也会很有帮助)。我发现的所有逻辑回归包似乎只适合分类,而这是一个回归问题(尽管我想使用logit link函数)。我使用scikits learn来满足我的分类和回归需求,因此如果这个回归模型可以在scikits learn中实现,那将是非常棒的(在我看

Scikit learn scikit learn表示num样本必须大于num集群

使用sklearn.cluster.KMeans。这段代码在早期几乎完全有效,但我所改变的只是构建数据集的方式。我只是不知道从哪里开始。。。代码如下: from sklearn.cluster import KMeans km = KMeans(n_clusters=20) for item in dfX: if type(item) != type(dfX[0]): print(item) print(len(dfX)) print(dfX[:10]) km.fit(d

Scikit learn 使用libSVM工具执行多类分类

我正在尝试使用libSVM库对卫星图像进行分类。我想要的是显示分类图像并保存它,而不仅仅是在我的终端上获得准确的结果。我已经从训练数据集中提取了像素值(如下所示),并使用脚本csv2libsvm()为libsvm提供正确格式的数据。在要分类的图像中有4个不同的类别。我的卫星图像和培训数据如下所示 图1:使用训练数据分类的图像 我遵循的步骤基于以下教程 分割培训和测试数据(70%培训和30%测试) svm-subset.py数据集12000 training.tr testing.te 训练模

Scikit learn sklearn不遵循n_iter参数:给出比要求更多的迭代

以下是我有一段时间的疑问。如果它能引起你的共鸣,希望它能帮助你 我有以下简单的代码 with_model_analysis = Perceptron(n_iter=2, warm_start=True, verbose=1) 当运行以下代码时 with_model_analysis.fit(X_train, Y_train) 我得到的详细输出如下: -- Epoch 1 Norm: 2117.10, NNZs: 151491, Bias: -0.200000, T: 2438128, Avg

Scikit learn 如何预测异常值比例的最佳值?

我使用“局部异常因子”进行异常检测。该算法有一个名为“污染”的参数。此参数表示异常值的比例。在我的例子中,“0.0058”是污染参数的最佳值 #parameters n_neighbors = 750 p = 7 contamination = 0.0058 # the proportion of outliers lof = LocalOutlierFactor(n_neighbors=n_neighbors, p=p, contamination=contamination) y_pre

Scikit learn SKPCA不能产生唯一的结果

我试图复制我用另一台电脑写的东西。现在有了mac,我就有了这种奇怪的行为。我不知道怎么了。linux可以正常工作 from sklearn.decomposition import PCA df = df_selected1.values.copy() pca = PCA(n_components=2) for i in range(5): pca.fit_transform(df) print(pca.explained_variance_) #output [ 5.039

Scikit learn 均方误差(MSE)均方根误差(RMSE)

我正在进行一个研究项目,我使用skelarn的均方误差来获得我的MSE和RMSE 我不明白这些信息是什么意思 我正在使用一个关于房屋销售的数据集,我想用线性回归预测房屋的价格。当我把我的预测价格和实际价格放在一起时,我得到的结果是: MSE:1114197668.6920328 RMSE:33379.59958855158 这些信息实际上意味着什么?我预测的平均价格差约为33379.60 : 在统计学中,均方误差MSE或均方偏差 估算未观测数据的程序的估算值的MSD 数量测量误差平方的平均值 例

Scikit learn 调整后的随机分数和调整后的相互信息分数的输入是什么?

我阅读了文档,我知道这是labels\u true和labels\u pred,但它们必须是什么形式 对于labels\u pred,我使用kmeans.labels\u,它是一个包含0、1、2或3的numpy数组。 对于标签,我使用top100.Genre。Top100是一个包含不同类型电影的数据帧,共有4种类型。我在某个地方读到,我可以插入这两个标签,两个分数度量将找到一种方法,将数字分配给一个流派 这是真的吗?我得到的值略高于0(比如0.014),所以这对我来说没什么意义。 或者我必须将t

Scikit learn 如何在google colab中安装pyearth?

这曾经适用于我,但从两天以来,我收到了这个问题: pip install sklearn-contrib-py-earth 试试这个: git clone git://github.com/scikit-learn-contrib/py-earth.git cd py-earth python setup.py install --cythonize 这对我很有用: pip安装git+https://github.com/scikit-learn-contrib/py-earth@v0.2d

Scikit learn scikit学习中交叉验证的一个标准错误规则

我正在尝试使用grisSearchCV拟合scikit learn中的一些模型,我想使用“一个标准误差”规则来选择最佳模型,即从得分在最佳得分一个标准误差范围内的模型子集中选择最节省的模型。有没有办法做到这一点?您可以使用以下公式计算验证分数平均值的标准误差: from scipy.stats import sem 然后访问已安装的GridSearchCV对象的grid\u scores\u属性。此属性在scikit learn的主分支中已更改,因此请使用交互式shell反思其结构 至于选择最

Scikit learn scikit学习中预测时的记忆错误

下面是我编写的一段代码,使用RFE和估计器LinearSVC获得特征选择,然后使用简化的数据拟合和预测KNeighborClassifier clf = LinearSVC(C = 10, class_weight = 'auto') rfe = RFE(estimator = clf, n_features_to_select = 700, step = 42) rfe.fit(X, trainLabels) reduced_train_data = rfe.t

Scikit learn Scikit学习精度\u召回\u fscore\u支持多类

我试图通过scikit learn获得多类分类的精度、召回率和fscore。我的类有标签0和1,但这不是二进制分类。scikit precision_recall_fscore_support()方法假定我的分类是二进制的,并且只报告类1的结果。如果我将标签转换为字符串,则需要pos_标签。如果我提供pos_label='1',那么它同样只报告类1的结果 如何将“0”和“1”作为两个独立的类,并显示两个独立的类结果,而不是1个? < P>解决方案是Posi-Label=“无”。但这不是二元分类,

Scikit learn SVM分类:置信区间

是否有可能从sklearn的svm实现中获得Z分数 因此,如果它将输入X分类为[0,1,0,1,1,1,0,0,0],你能将其输出:[0.5,0.78,0.95,0.11,0.34,…],这些是学习者对其预测的估计信心吗 如果我自己实现它,我能提取这些信息吗,或者它会变成一个巨大的项目吗?据我所知,SVM没有一个封闭形式的Z分数,但是如果你用参数probability=True创建你的SVC,它将包括一个使用交叉验证构建的概率模型,您可以使用predict\u proba访问该模型,以获得预测置

Scikit learn 如何在Scikit学习管道中访问回归器的权重

我使用了Keras回归器来拟合数据的回归。我使用Scikit learn wrapper和Pipeline首先对数据进行标准化,然后将其装配到Keras回归器上。有点像这样: from sklearn.grid_search import GridSearchCV from keras.models import Sequential from keras.layers import Dense from keras.wrappers.scikit_learn import KerasRegre

Scikit learn 无法从Sklearn导入线性回归

Jupyter笔记本中出现以下错误: from sklearn.linear_model import LinearRegression --------------------------------------------------------------------------- ImportError回溯(最近一次呼叫最后一次) 在() ---->1从sklearn.linear\u模型导入线性回归 2. 3 lin_reg=线性回归() 4林规配合(准备好外壳,外壳标签) C:\U

Scikit learn Xgressor未拟合数据

我想在我的X_序列、y_序列数据上运行XGBoost树回归的CV。我的目标是25到40之间的整数值。我试图在我的训练数据集上运行此代码 # A parameter grid for XGBoost from xgboost import XGBRegressor from sklearn.model_selection import GridSearchCV cv_params = { 'min_child_weight': [1, 3, 5], 'gamma': [0.5,

Scikit learn sklearn文档中类似数组的形状(n个样本)与[n个样本]

对于样本重量,其形状要求为数组状(n个样本,),有时为数组状[n个样本]。(n_samples,)是否表示一维数组?[n_samples]是指列表?或者它们彼此相等? 这两种形式都可以在这里看到:您可以使用一个简单的示例来测试这一点: import numpy as np from sklearn.naive_bayes import GaussianNB #create some data X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1],

Scikit learn scikit学习:最近的邻居

我在看sklearn.neights.nearestneights和相应的BallTree类。我的问题是,是否有任何方法可以继续训练/向树中添加新数据?或者它总是需要完全重新安装吗?因为最近邻是一种检查给定数据与属于不同类的数据集群的接近程度的算法,是的,它需要重新安装。最近邻中没有学习参数(如神经网络中的权重),只有距离值(如曼哈顿、欧几里德)ok。我也这么认为,但可以肯定的是,这总是好的。如果您有sklearn实现的经验,是否可以通过提供索引来获取树中条目的k个最近邻居?这将避免查询它,然后

Scikit learn 如何在通过pandas_ml调用时向xgboost添加权重向量

在xgboost中,可以向数据矩阵添加权重矩阵(xgboost.DMatrix的第四个参数): 调用xgboost bia\u ml时如何传递此权重矩阵 显然,在pandas_ml中,xgboost被称为ModelFrame上的一个方法,因此我假设必须更改ModelFrame以标识weight列。 与目标数据的设置类似,是否有一种方法可以将另一列设置为权重列 或者以其他方式添加权重列?您的方法与直接调用xgboost时完全相同: clf = df.xgboost.XGBClassifier(

Scikit learn Tfidf矢量器

我从文本评论中获取了一个用于预测情绪的数据集,最初,我清理数据(删除标点符号、删除停止词、标记化)。当我尝试将标记化数据作为TFIDF矢量器的输入时,我得到了 AttributeError:“list”对象没有属性“lower”。请帮我克服这个错误。 []: TF-IDF矢量化处理原始(即未标记化)文本,并自行进行标记化 该方法需要一组字符串。应用NLTK标记化器将审查字符串转换为字符串列表(标记列表) 如果您出于某种原因不信任scikit learn中的内部标记器,则可以使用自定义标记器:

Scikit learn 有没有办法扩展最初传递给SVC的训练集?

我想用Python模拟主动学习。我有一个初始训练集和一个未标记的潜在训练数据池。现在,我想迭代地选择池中的一个元素,将其添加到传递给SVC的训练集中,并使用新的训练集重新训练SVC。 我不知道如何正确地做这件事。我可以这样做(伪代码): 或: 第一个肯定对我有用。每一次迭代,一个新的SVC都使用迭代放大的训练数据进行训练。但是一次又一次地重新初始化SVC是不对的。 关于第二种方法,我不确定SVC是从头开始重新训练,还是保持以前迭代的状态,并在此状态之上重新训练。我不想那样。如果是这种情况,我认为

Scikit learn resnet实现的准确性和召回率相同

我使用sklearn.metrics中的准确度和召回率来计算分数,但无论是哪个时代,对于CIFAR100数据集,准确度和召回率都是相同的值。我正试图在Pytorch中实现它。示例y_pred,y_true,我正在传递给函数,看起来像y_pred=[11,12,65,…13,15,17]和y_true=[11,12,53,…13,78,17]。你能告诉我哪里可能出错吗?模型正在学习,即损失正在减少吗?是的,准确性也在提高。

Scikit learn 无法在windows上的虚拟环境中安装sklearn-错误:命令出错,退出状态为1:

有人能帮我安装sklearn到windows虚拟环境吗 通常的做法是 方法1-将pip安装到空环境中 python -m venv venv .\venv\Scripts\activate.bat pip install sklearn 方法2-使用系统设置创建虚拟环境 或者,如果您的操作系统上已安装sklearn,则此方法 python -m venv venv --system-site-packages .\venv\Scripts\activate.bat 当我尝试安装pip时,这两

Scikit learn 如何使ONNX-sklearn转换器支持布尔字符串类型?

布尔值和字符串类型似乎不受支持,尽管它们列在中 我想我在某个地方读到,ONNX不能直接支持分类类型作为输入。这使得使用它们更加困难,因为LightGBM具有良好的分类输入类型支持 下面是一个完整的MWE,但代码的关键部分是,我尝试将布尔类型指定为输入 model_onnx = convert_sklearn(pipe_unsuccessful, 'pipeline_xgboost', [('input', BooleanTensorType([None,

Scikit learn scikit学习:如何检查系数的重要性

我试图用SKLearn对一个相当大的数据集进行LR,该数据集有大约600个虚拟变量,只有很少的区间变量(数据集中有300K行),结果产生的混淆矩阵看起来很可疑。我想检查返回系数和方差分析的显著性,但我找不到如何访问它。有可能吗?对于包含大量虚拟变量的数据,最好的策略是什么?非常感谢 Scikit不支持统计推断。如果您想要开箱即用的系数显著性测试(以及更多),您可以使用Statsmodels中的估计器。这个软件包模仿了R中的界面glm模型,所以您会发现它很熟悉 如果您仍然想坚持使用scikit l

Scikit learn 决策树中的剪枝与增强

如何在基于决策树的分类方法中使用修剪和增强 I have 10 features and 3000 samples. 下面是一个演示如何使用Boosting的示例 from sklearn.datasets import make_classification from sklearn.ensemble import GradientBoostingClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.c

Scikit learn Scikitlearn潜在dirichlet分配是一个空洞的话题

我正在使用LDA的sklearn实现进行主题建模。 在模型拟合之后,我得到了一些有意义的主题,单词的权重增加了,这很好,但是我也得到了其他主题,所有单词的权重都与前面的相同(1/主题数)。这种行为听起来很奇怪,原因是什么 有关我的设置的信息如下: 1000字的词汇量 我正在向模型a传递ffidf矩阵,该矩阵使用此vocab完成700多个文档,每个文档都在500到1000个字符之间 我尝试过运行不同数量的em迭代,这不会改变结果 我要30个主题 我还想知道我是否有太多的主题,但如果真的是这样,

Scikit learn 主成分分析前的标度

我在使用sckit learn中的PCA,我得到了一些我试图解释的结果,所以我遇到了问题-我应该在使用PCA之前减去平均值(或执行标准化),还是以某种方式将其嵌入到sklearn实现中 此外,如果需要,我应该执行这两个步骤中的哪一个?为什么需要执行此步骤?我将尝试用一个示例来解释它。假设您有一个数据集,其中包含许多关于住房的特性,您的目标是对购买的商品进行分类(二元分类)。数据集包括一些分类变量(如房屋位置、状况、公共交通等)和一些浮动或整数(如市场价格、卧室数量等)。您可以做的第一件事是对分类

Scikit learn 如何在下面的LDA模型中预测评论的主题?

你好,我正在尝试制作一个由几个小文本组成的主题模型,语料库由来自社交网页的评论组成,我有以下结构,首先是一个包含以下文档的列表: listComments = ["I like the post", "I hate to use this smartphoneee","iPhone 7 now has the best performance and battery life :)",...] tfidf_vectorizer = TfidfVectorizer(min_df=10,ngra

Scikit learn “的算法细节是什么?”;AdaboostRegression“;在机器学习领域?

我对这个问题进行了大量的研究,包括“adaboost”一文,其中只解释了“adaboost分类器”方法;现在我想用Python编写“AdaboostRegression”,但我找不到编码的确切细节。我也检查了关于这个方法的“sklearn”,但是我找不到可能隐藏在“sklearn”中的细节; 那么,我可以得到更多关于它的信息吗?你可以在课堂上找到详细信息 需要注意的是,虽然对于决策树和随机森林,Sci kit learn很酷(这就是为什么您对Adaboost感兴趣),但与Tensorflow等相

Scikit learn 如何在scikit learn中找到多项式支持向量机的系数?gamma是什么?

系数:数组,形状=[n_类*(n_类-1)/2,n_特征] 分配给特征的权重(原始问题中的系数)。这仅在线性内核的情况下可用 coef_u是从双coef_u和支持向量_u派生的只读属性 我不明白。如果我在X上使用多项式特征,我可以使用线性核并读取得到的系数/权重。多项式核与使用多项式特征是一样的吗? 如何读取训练数据上fit()的coef_uu值 gamma与此有何关系?伽马不是吗 Gamma = 1/2*sigma^2 这和多项式有什么关系?我不仅仅是一个rbf的东西

Scikit learn 如何提取TF-IDF特征的系数?

我有一个数据集,我使用一个文本列来预测一些数字列 我的最终问题是:文本栏中的哪些单词与较高/较低的分数相关? 因此,我的管道是首先向量化我的文本列,然后使用岭回归。但是,在我构建了这个管道之后,我如何提取向量器特征名称上的系数呢 将熊猫作为pd导入 从sklearn.pipeline导入管道 从sklearn.feature\u extraction.text导入TfidfVectorizer 从sklearn.linear_模型导入脊线 从sklearn.model\u选择导入列车\u测试\u

Scikit learn 正在为scikit学习运行setup.py安装。。。错误

我正在使用MacOs Mojave,目前正在尝试运行GitHub on link上提供的项目。我已经安装了最新版本的python(即python 3.8),目前在安装需求时面临问题,主要是在scikit learn中。不管怎样,我都会犯同样的错误 请帮助我完成运行这个项目完全在我的机器上本地 我也在GitHub主页上提出了一个关于这一点的问题,仍在等待充分的回应 当我试图根据stackoverflow上给出的说明和可用答案安装cython时,我得到了另一个关于python3.8的大错误页面,使

Scikit learn sklearn、Keras、DeepStack-ValueError:multi#U类必须在(';ovo';,';ovr';)

我训练了一组DNN,我想在深层合奏中使用它们。代码在TF2中实现,但包deepstack也可以与Keras一起使用。代码看起来像这样 from deepstack.base import KerasMember from deepstack.ensemble import DirichletEnsemble dirichletEnsemble = DirichletEnsemble(N=2000 * ensemble_size) for net_idx in range(0,ensemble

Scikit learn skrfe与logistic回归

我试图建立一个具有特征选择的逻辑回归模型 weights = {0:1, 1:5} model = LogisticRegression(solver='lbfgs', max_iter=5000, class_weight=weights) rfe = RFE(model, 25) rfe_model = rfe.fit(X_train, y_train) print(rfe_model.support_) print(selector.ranking_) 我得到: array([ True

Scikit learn 为什么Accord.NET花太多时间创建模型,而SKLearn却没有?

我有一组数据(2592,5)5列输入数据,第6列是要预测的数据列。 我正在用支持向量机建立一个回归模型 我创建了最好的内核和参数,它们是: SVR(kernel='rbf',C=4684.769969422579,gamma=0.047563849756408545) 然后,使用python和sklearn,拟合速度非常快,但Accord.NET使用相同的参数,266分钟前仍在运行 from sklearn.svm import SVR dt = SVR(kernel='rbf',C=4684

Scikit learn 为什么增加套索α值,均方根误差只会增加?

您好,我正在使用2*10^-5到500范围内的不同值来拟合Lasso模型,例如: alphas=np.linspace(0.00002,500,20) 当我绘制负均方根误差和交叉验证的绝对误差时,我得到如下图: 所以误差在模中增加,然后保持不变,而不是减小。。。为什么我会得到这个结果 选择非常小的alpha值,如: alphas=np.linspace(0.00001,0.00007,20) 对于RMSE,我得到以下结果: 你知道为什么它只对这么小的alpha值有效吗?谢谢套索回归旨在

Scikit learn 决策树节点值

我们正在使用sklearn决策树分类器。我们通常将决策树可视化,以查看正在使用哪些属性,然后进行测试。我们最近发现,对于其中一个决策节点(内部节点),使用了90。培训数据不包含该列的90。该列的值为1或2。我想知道90的价值从何而来。如果有帮助的话,测试数据的大小是3200 对于不同的培训集,此节点的值为169。训练数据同样不包含任何此类值 我们不使用任何随机森林。我们已经尝试改变标准,但对于“熵”和“基尼”标准,决策树看起来是相同的,值为90或169 clf_dt = tree.Decisio

上一页 1 2  3   4   5   6    7   8   9  ... 下一页 最后一页 共 40 页