Scikit learn scikit学习拟合功能分类

我正在scikit学习中使用fit功能进行分类培训。 例如,在使用随机林时,通常使用以下类型的代码: import sklearn from sklearn.ensemble import RandomForestClassifier as RF forest=RF(n_estimators=10) forest=forest.fit(TrainingX,Trainingy) 不幸的是,我在使用Python 3时遇到以下错误: C:\Anaconda3\lib\site packages\sk

Scikit learn 从sklearn'获取到超平面的距离;s svm.svc

我目前正在使用svc来分离两类数据(下面的特性是命名数据,标签是条件)。使用gridSearchCV对数据进行拟合后,我得到了大约0.7的分类分数,我对这个数字相当满意。之后,我使用grid.best_estimator_u.decision_function()获取每个类数据与超平面的相对距离,并将它们绘制在箱线图和直方图中,以更好地了解重叠的程度。我的问题是,在柱状图和箱线图中,这些看起来是完全分开的。我知道情况并非如此。我肯定我调用的decision_function()不正确,但不知道如

Scikit learn sklearn-svm多核归一化

我现在正在做一个文本分类项目。首先,我使用Weka,它的SVM方法有一个归一化的多项式核,我使用该核得到了最好的结果。我正试图用sklearn完成同样的任务。我发现svm.SVC只有“poly”内核。那么,是否可以使用sklearn实现规范化多项式核呢 random_state = np.random.RandomState(0) clf = svm.SVC(kernel='poly', gamma='auto', C = 2.0,decision_function_shape='ova',pr

Scikit learn sklearn中的SVM-qp求解器

我学习SVM,并将使用python sklearn.SVM.SVC实现SVM 据我所知,SVM问题可以用QP(二次规划)来表示 所以在这里我想知道哪个QP解算器用于解决sklearn SVM中的SVM QP问题 我认为可能是SMO或坐标下降算法 请让我知道sklearn svm中使用的确切算法,过去已经使用过现成的QP解算器,但多年来使用了专用代码(更快、更健壮)。这些解算器不再是(通用的)QP解算器,只是为这个用例构建的 sklearn的SVC是()的包装器 正如链接所说: 从版本2.8开始,

Scikit learn 为什么在训练SGDClassizer时会重置Epoch?

我对一个时代的理解是,它是指我们在整个训练过程中经历的次数。但是当我用verbose=true训练sgdclassizer时,我看到了下面的内容。它只是在5个纪元后重置,并再次从1开始计数。为什么会这样 以下是我如何实例化模型: clf = linear_model.SGDClassifier(loss='log', verbose=True) clf.fit(X_train, y_train) 以下是输出: -- Epoch 1 Norm: 5.26, NNZs: 448659, Bias:

Scikit learn 多输出XGB的增量学习

我尝试使用XGB进行增量学习,并使用Sklearn的MultiOutputRegressor进行包装,以获得多类回归: # For instance # X = np.zeros((1, 8) # y = np.zeros((1, 32) multi_model = MultiOutputRegressor( xgb.XGBRegressor(objective='reg:squarederror') ).fit(X, y) 但是,如果我反复调

Scikit learn sklearn.preprocessing中没有StandardScaler类

我想在预处理包中使用StandardScaler类,但我一直得到一个AttributeError:“module”对象在scikit learn 0.13上没有属性“StandardScaler” 预处理.\uuuu dict\uuuu不显示StandardScaler 我可以在同一个包中使用LabelEncoder类。python路径中的sklearn包可能是旧版本,而不是您安装的0.13版本。尝试: python -c "import sklearn; print(sklearn.__fil

Scikit learn PCA如何为scikit学习中的Kmeans算法提供中心

我正在查看上给出的示例代码 此脚本中有以下代码: # in this case the seeding of the centers is deterministic, hence we run the # kmeans algorithm only once with n_init=1 pca = PCA(n_components=n_digits).fit(data) bench_k_means(KMeans(init=pca.components_, n_clusters=n_digits

Scikit learn k-最近邻(KNN)算法在S&;P500索引与python

我想对标准普尔500指数实现K-最近邻算法来预测未来价格,并通过scikit学习库用python开发定量算法交易模型。 虽然我对kNN算法有基本的了解,但我完全是python机器学习编码的新手,所以如果有人能帮助我,我很高兴 这是我的模拟逻辑 资产:标准普尔500指数月度价格(可与ETF投资) 逻辑 每个月末根据kNN算法预测下个月的价格方向(上涨或下跌)--->预测上涨:买入标准普尔500指数,下跌:持有现金(假设年回报率为3%) 训练数据集:最近滚动的12个月数据(训练数据集随着时间的推移

Scikit learn 如何将TFIDF向量与多项式朴素贝叶斯结合使用?

假设我们使用TFIDF转换将文档编码为连续值特征 我们现在如何使用它作为朴素贝叶斯分类器的输入 伯努利朴素贝叶斯(Bernoulli naive bayes)被淘汰了,因为我们的功能不再是二进制的了。 似乎我们也不能使用多项式朴素贝叶斯,因为这些值是连续的而不是绝对的 作为替代方案,是否适合使用高斯朴素贝叶斯?在高斯分布假设下,TFIDF向量是否可能保持良好 sci工具包中关于MultionomialNB的学习文档建议如下: 多项式朴素贝叶斯分类器适合于分类 具有离散特征(例如,文本分类的字数)

Scikit learn Scikit使用t-SNE的fit_变换时学习记忆错误

我试图用t-SNE来可视化神经网络(在Keras中实现)的输出。调用fit\u transform时,我会得到一个MemoryError。目前我正在Windows 10上运行我的代码 代码: 您需要将输出大小减小到系统可以处理的值 除此之外,您还可以使用主成分分析(PCA)来降低输出的维度,然后再将其输入t-SNE。请参见此处:Windows或Unix?@mkaran Windows在输出中有多少预测?你试过更少的样品吗?你试过用主成分分析法来降低维度吗?你认为我们能做什么?谁知道输出有多大?对

Scikit learn 如何在决策树中指定拆分?

我正在尝试使用scikit learn提供的函数训练一个用于评估棒球运动员的决策树分类器。然而,我想提前“预先指定”或“强制”一些拆分,这是基于我所知道的关于专家思考方式的真实情况(无论如何都需要合并)。例如,我想基于打击平均值>0.300强制分割 一个相关的问题是——我是否可以“预加载”一个先前训练过的决策树模型,然后在后续训练中“更新”它?还是每次运行决策树分类器时都需要重新学习所有规则?我在这里试图做的类比是转移学习,但应用it决策树。我预先指定拆分的方法是创建多棵树。将玩家分成两组,平均

Scikit learn 带sklearn的混淆矩阵

我训练了一个垃圾邮件过滤模型 我用这行代码得到了混乱矩阵 tn, fp, fn, tp= confusion_matrix(targets, predictions).ravel() 分类标签如下所示: targets = test_set['S'].values S值是每个电子邮件的分类标签 这就是结果 我在任何时候都不会指明哪一类是正的,哪一类是负的。。我如何知道哪个是哪个(垃圾邮件被认为是积极类) 我有多个模型,支持向量机,朴素贝叶斯和决策树显示你的目标和预测。它们将按字母顺序进行

Scikit learn knn(k-最近邻)在什么维度开始表现不佳?

我知道kNN搜索会随着问题维数的增加而表现得更差。我知道对于kNN搜索,20被认为是相当高的维度。我不知道的是,在第3个(我知道kNN工作得很好)和第20个(我知道kNN工作得不太好)之间,它到底从哪里开始变得糟糕 假设一个平衡良好的树,有人知道平均查询速度与大约1到20个维度之间的维度有什么关系吗 就不同的kNN算法产生的结果而言,我对此很感兴趣,但您可以假设Scikit学习实现为kNN作为问题的基线。性能在很大程度上取决于您使用的数据类型(以及scicit学习使用的任何索引)。 有关简短示例

Scikit learn sklearn随机森林样本的拟合权重()

在sklearn的RF fit函数(或most fit()函数)中,可以传入“sample_weight”参数来称量不同的点。默认情况下,所有点的权重相等,如果我传入一个1s的数组作为样本权重,则它确实匹配原始模型,而不带参数 但是如果我传入一个0.1s或1/len(数组)的数组作为样本权重,它会改变模型(现在预测不同),尽管点的权重仍然相等。这是令人不安的,因为减肥似乎很重要。那么,什么是适当的缩放方式,以便我有一个独特的解决方案 示例如下: import numpy as np from s

Scikit learn 如何正确安装MultiLabelBinarizer?

我有一些标签(A、B、C、H、H1、H2等),但是当我安装MultiLabelBinarizer时,它将H1拆分为H和1。 有人能告诉我,除了把H1标签换成另一个标签外,这个问题还有什么解决办法吗。 多谢各位 mlb = MultiLabelBinarizer() labels = pd.DataFrame(mlb.fit_transform(df['LABELS']),columns=mlb.classes_) 解决方案是添加所有可能的标签。这意味着您应该将可能的标签保存在excel文件

Scikit learn Scikit学习:线性回归插值不起作用

我试图使用Scikit learn的LinearRegression类执行插值,但结果似乎是错误的。其思想是使用多项式拟合,拟合次数等于观测次数减1。这将使线性回归估计产生插值。然而,线性回归不能给出插值解 完整代码: import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression from sklearn.preprocessing import Polyn

Scikit learn 具有l1的logistic的SGD分类器结果和statsmodels结果的差异

为了检查我的工作,我一直在比较scikit learn的SGDClassizer logistic实现与statsmodels logistic的输出。一旦我加上一些l1和分类变量,我会得到非常不同的结果。这是不同解决方案技术的结果,还是我没有使用正确的参数 在我自己的数据集上差异更大,但使用mtcars时仍然相当大: df = sm.datasets.get_rdataset("mtcars", "datasets").data y, X = patsy.dmatrices('am~st

Scikit learn 使用随机林时特征的P值

我在scikit学习中使用随机森林,我想知道有什么方法可以获得特性的p值? 我知道我可以使用feature_importances_来获得特征的重要性,但我需要有p值。同样与系数类似(使用线性回归),我需要知道特征如何影响预测,预测值如何随每个特征的变化而变化。您要查找的是Z分数。不确定是否在scikit中实现。为了研究你的映射曲率,你可以尝试部分依赖图或者密切相关的灵敏度分析或者。。。。一个无耻的建议:)跳转到R并尝试我的包forestFloor来可视化随机森林。我们也有z-score:据我所

Scikit learn 如何允许SKK最近邻采用自定义距离度量?

我有一个自定义距离度量,需要用于KNN,K近邻 我试着跟随,但由于某种原因,我无法让它工作 我假设距离度量应该采用两个长度相同的向量/数组,如下所述: import sklearn from sklearn.neighbors import NearestNeighbors import numpy as np import pandas as pd def d(a,b,L): # Inputs: a and b are rows from a data matrix

Scikit learn 使用xgboost进行校准

我想知道我是否可以在xgboost中进行校准。更具体地说,xgboost是否与scikit learn中的现有校准实现类似,或者是否有一些方法将xgboost中的模型放入scikit learn的校准分类RCV中 据我所知,在sklearn中,这是常见的程序: # Train random forest classifier, calibrate on validation data and evaluate # on test data clf = RandomForestClassifier

Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法

基于和增量PCA文档,它建议使用memmap数组,但是否可以使用dask完成相同的任务 更新将问题扩展到包括其他部分拟合算法,因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法,但我似乎在API中找不到相关文档。当我尝试对6000x250000 float64dask数据帧进行增量pca时,在不调整dask调度程序的情况下,在16核104GB虚拟机上花了8个小时取得了9%的进度,但我不确定这是否是由于我的代码太差,或者对于这样大小的数据集,这是否

Scikit learn sklearn.neights.KDTree内存要求

在for sklearn.neights.KDTree中有内存消耗的描述: 存储树比例所需的内存量约为n_样本/叶大小 这是否意味着当叶子大小变大时,存储树所需的内存会减少 我认为leaf_size指定树中有多少个叶节点,因此如果有很多节点,内存就会增长。我是不是想错了?leaf\u size参数指定在树的“分支”底部的终端“leaves”中存储了多少条目。另一种说法是,将您的查询与之进行详尽比较的“邻居”的数量 如果您有一个较小的叶大小。树需要更大,因此它增加了存储树的内存需求 实际上,lea

Scikit learn 数据归一化后,使用回归分析如何预测y?

我已经对我的数据进行了标准化,并应用回归分析来预测产量(y)。 但我的预测输出也给出了归一化(0到1) 我希望我的预测答案是正确的数据,而不是0到1 数据: 接下来,我将使用以下代码规范化数据: from sklearn.preprocessing import Normalizer import pandas import numpy dataframe = pandas.read_csv('/home/desktop/yield.csv') array = dataframe.values

Scikit learn XGboost python-分类器类权重选项?

有没有办法为xgboost分类器设置不同的类权重?例如,在sklearn RandomForestClassifier中,这是通过“class_weight”参数完成的 使用sklearn包装器时,有一个权重参数 例如: import xgboost as xgb exgb_classifier = xgboost.XGBClassifier() exgb_classifier.fit(X, y, sample_weight=sample_weights_data) 其中参数shld类似于数组

Scikit learn 交叉验证评分函数与混淆矩阵(sklearn)

我想知道是否有一种简单的方法(除了显式实现之外)来计算不同分裂上的混淆矩阵,比如: >> cross_val_score(grid_search_CV, X_train, y_train, scoring=make_scorer(confusion_matrix)) make_scorer用于分配一个分数,根据该分数,不同参数的不同cv折叠可以相互比较。所以在混乱矩阵中是不可能的,但是你可以使用类似于在

Scikit learn 使用TF-IDF测试和训练具有不同数量特征的集合

我正在做一个简单的二元分类,我给你们举一个我遇到的问题的例子:假设我们有n文档(文档1,文档2,…,文档n)。我们将使用TF-IDF作为特征值,使用单词包训练二元分类器。我们的培训文件具有m功能(从技术上讲,m是我们在清理和预处理后在所有这些n个文档中拥有的唯一标记的数量) 现在,假设我们有一个经过训练的模型,我们将预测一个新文档的标签。我们首先应该像对待培训文档一样对测试文档进行预处理。然后,我们应该使用TF-IDF为测试文档构建一个特征向量。这里有两个问题: 对于训练集和测试集,特性的数量

Scikit learn X#u转换的#u拟合#u属性错误:AttributeError:';KernelPCA';对象没有属性';X#u变换#u拟合';

我试图获得我的数据集中哪些特征会影响主成分,并试图观察我的数据如何与我的内核PCA算法相匹配。 我试图使用纪录片中存在的X_transformed_fit_属性,但我得到了以下错误:AttributeError:“KernelPCA”对象没有属性“X_transformed_fit” 我的KPCA代码如下: from sklearn.decomposition import KernelPCA kpca = KernelPCA(n_components = 2, kernel = 'cosine

Scikit learn 模块';sklearn.metrics';没有属性';戴维斯·博尔丁分数';

我试图使用sklearn.metrics.davies_bouldin_分数评估聚类kmeans模型。我正在使用GoogleColab和运行时Python 3和GPU加速器 我得到了这个错误: 模块“sklearn.metrics”没有属性“davies_bouldin_score”。 我尝试过以不同的方式导入度量包,正如一些人建议的那样,从sklearn import metrics和导入sklearn.metrics。这没什么区别 我还更新了sklearn软件包!pip安装--升级skle

Scikit learn 在训练之前或作为基于像素的分类的后处理执行的图形切割

我目前正在使用在Scikit learn中实现的简单监督分类器对图像执行基于像素的分类。首先将图像重塑为单像素强度的向量,然后按照以下步骤进行训练和分类: 来自sklearn.linear\u模型导入SGDClassizer 分类器=sgdclassizer(详细=True) fit(训练数据、训练目标) 预测=分类器。预测(测试数据) 基于像素的分类的问题在于产生的分类图像的噪声性质。为了防止这种情况,我想使用Graph Cut(例如Boykov-Kolmogorov实现)来考虑像素之间的空

Scikit learn 对lat-long数据进行聚类

我正试图将我的lat-long数据聚类并划分为12个不同的区域,但是kmeans算法把时间搞砸了。我只试了两个集群,结果坏得很厉害(附图),12个集群都不能正常工作。我知道kmeans对噪音很敏感,我也把它清理掉了 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans from collections import Counter df =

Scikit learn 向决策树添加正确的标签

我正在机器学习项目中使用随机森林回归器。为了更好地理解预测的逻辑,我想可视化一些决策树,并检查在预测时使用了哪些功能 为此,我编写了以下代码: from sklearn.tree import export_graphviz from subprocess import call from IPython.display import Image # Select one estimator from the Random Forests estimator = best_estimators

Scikit learn 您能否解释所提供示例的分类报告(召回率和精确度)?

现在我知道很多人问过这个问题,但是,我仍然不太了解sklearn库输出的精确度和回忆分数。以下是示例输出: 如果可能的话,有人可以用你能掌握的最简单的语言用以下方式回答我的问题: -精度0.95 False表示模型的精度是多少? -精度0.56 True表示模型的精度是多少? -召回0.88 False对该型号意味着什么? -回忆0.76 True对于该型号意味着什么? 提前谢谢 您有两个不同的类:True或False。想象你有像苹果一样的真和像桔子一样的假 召回是一个指标,它让我们了解相对于

Scikit learn 属性错误:';KMeans';对象没有属性';惯性'; 从sklearn.cluster导入KMeans 进口numpy 作为pd进口熊猫 从熊猫导入读取 boston=read_csv(“../desktop/boston.csv”) 印刷品(波士顿) 打印(波士顿专栏) 德尔波士顿['index'] 德尔波士顿['chas'] 印刷品(波士顿) sse=[] 对于范围(1,9)内的i: kmeans=kmeans(n_集群=i,最大iter=300) sse.append(kmeans.INITERY)

我越来越 AttributeError:'KMeans'对象没有属性'inertia' 我试图使用k均值找出波士顿数据上适当数量的聚类,k均值在模型拟合时创建惯性等属性;但是在这里,您没有调用.fit方法,因此出现了错误 在调用kmeans.惯性之前,需要使用数据运行kmeans.fit();以下是使用sklearn的波士顿数据的完整示例: 从sklearn.cluster导入KMeans 从sklearn.dataset导入加载 将matplotlib.pyplot作为plt导入 十、 y=

Scikit learn 找到重要的特征进行分类

我正在尝试使用逻辑回归模型对一些脑电图数据进行分类(这似乎是我数据的最佳分类)。我拥有的数据来自多通道EEG设置,因此本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50),我将其重塑为一个长向量,每个试验一个 我想做的是在分类之后,看看哪些特征在对试验进行分类时最有用。我该如何做,是否有可能测试这些特征的重要性?例如,说分类主要由N个特征驱动,这些是特征x到z。因此,我可以举个例子说,在时间点90-95对分类具有重要意义 那么这是可能的还是我问错了问题

Scikit learn n_类按线性顺序排列svc.coef_

我正在使用LinearSVC将文本数据分为3类。输入数据是每个单词的tfidf分数。我很想看看单词对分类的“贡献”。第一个问题是我能用coef_u来做这个吗?文件规定: 系数:数组,形状=[n_特征]如果n_类==2,则其他[n_类,n_特征] 因此,我假设“n_类”对应于文档可以分类到的3个类中的每一个,n_特征是我的tfidf特征的系数值。假设是这样的话,coef_中类的顺序是什么?如何将数组中的每一行与我的一个类相匹配 谢谢 尼克如果不深入研究源代码,我相信您的问题有两个答案: 这些类被分

Scikit learn 使用分类特征和文本进行分类

我试图把电影分为两类。我得到了这部电影的情节大纲和类型。当我使用TFIDFvectorier时,为了将我的概要转换为功能,我需要使用电影的类型作为一个单独的功能 目前,我只是在大纲的文本中添加体裁,并将其输入分类器 问题在于,这两种特征是不同的。当这些词被转换成tfidf矩阵时,我觉得应该以不同的方式对待这一类型,而不仅仅是像其他任何词一样。还有什么我可以做到的吗?您应该使用,对于每个可能的分类功能(流派),它会创建新的二进制功能,并且仅当您的电影来自该流派时,才会在相应的功能上设置1 from

Scikit learn 是否可以在scikit学习决策树中设置分割值的精度?

当访问决策树中某个节点的tree\uU.threshold时,类型似乎是float。有没有办法将阈值的“精度”设置为整数? 在我的例子中,这些特性都是整数值,因此不需要对以这种精度定义的值进行拆分。否,scikit学习树在编译时为阈值使用double类型(请参阅)。固定的数据类型允许生成高效的C代码。您必须更改scikit学习源代码,从Cython.pyx文件重建C扩展名,然后安装修改后的scikit学习使用整数阈值。在引用的_tree.pyx文件中:来自numpy import float32

Scikit learn keras gridSearchCV上的sklearn One热编码数据

这段代码的问题是我给了分类器, 一个热编码数据: 指: X-train,X-test,y\u-train,y\u-test是一种热编码。 但分类器正在预测输出: y\u pred\u测试,y\u pred\u列车以数字形式 (我认为这也是不正确的)。有人能帮忙吗? 这是一个虚拟示例,因此不必担心低精度,只需知道为什么它不是以一种热编码形式预测输出。 谢谢 分类器正在预测一个类的概率。如果您想要最终预测,请使用:y_pred.argmax(axis=-1)对不起,我不理解您的建议。y_测试是[[

Scikit learn 在Colaboratory中可视化决策树

使用Google Colab可视化决策树的最佳方法是什么?“dtreeviz”(例如)的可视化效果非常好,但在运行类似 !pip install dtreeviz 及 接 classifier = tree.DecisionTreeClassifier(max_depth=4) cancer = load_breast_cancer() classifier.fit(cancer.data, cancer.target) viz = dtreeviz(classifier,

Scikit learn sklearn中变压器和估计器的区别是什么?

我看到sklearn文档中提到了transformer和estimator 这两个词之间有什么区别吗?基本区别是: Transformer以某种方式转换输入数据(X) 估计器使用输入数据(X)预测一个(或多个)新值(y) 变压器和估计器都应该有一个fit()方法,可以用来训练他们(他们学习数据的一些特征)。签名为: fit(X, y) fit()不返回任何值,只将学到的数据存储在对象中 这里,X表示样本(特征向量),y是目标向量(在X中,每个对应样本可能有一个或多个值)。请注意,y在一些变

Scikit learn SkikitLearn学习曲线强烈依赖于MLP分类器的批量大小???或者:如何诊断NN的偏差/方差?

我目前正在用ScikitLearn中的两个类处理一个分类问题,使用解算器adam和激活relu。为了探索我的分类器是否存在高偏差或高方差,我使用Scikitlearns内置函数绘制了学习曲线: 我使用的是一个包含8个拆分的Group-K_折叠交叉验证。 然而,我发现我的学习曲线强烈依赖于分类器的批量大小: 应该是这样吗?我认为学习曲线处理的是依赖于独立于任何批次/时期的训练数据部分的准确性分数?我是否可以将此内置函数用于批处理方法?如果是,我应该选择哪个批次大小(完整批次或批次大小=培训示例

上一页 1 2 ...  11   12   13   14    15   16   17  ... 下一页 最后一页 共 40 页