Scikit Learn_IT技术博客_编程技术问答

Scikit learn PyInstaller:模块未包含在--onefile中，但可以与--onedir一起使用

标签： Scikit Learn pyinstallerfile-not-found

我正在使用PyInstaller将我的应用程序捆绑到一个.exe文件中。问题是它可以与--onedir选项配合使用，但在使用--onefile构建时找不到模块 --onedir和--onefile都表示在构建过程中： <...> INFO: Analyzing hidden import 'sklearn.utils.sparsetools._graph_validation' <...> onefile.spec # -*- mode: python -*- a =

Scikit learn scikit学习0.15而非0.14时，等级为_weight=auto的SGDClassizer失败

标签： Scikit Learn

当我使用以下选项训练an时：sgdclassizer（loss='log'，class_weight=None，pould='l2'），训练将毫无错误地完成。然而，当我在scikit learn v0.15上使用class_weight='auto'训练这个分类器时，我得到了以下错误： return self.model.fit(X, y) File "/home/rose/.local/lib/python2.7/site-packages/scikit_learn-0.15.0b1

Scikit learn scikit learn GridSearchCV始终将第一个参数作为最佳参数返回

标签： Scikit Learn

我将GridSearchCV的参数设置为： parameters = {'kernel':['rbf'], 'C':[1, 5, 0.5], 'gamma':[1, 5, 0.5]} grid = GridSearchCV(SVC(), parameters) grid.fit(dataset, targets) 然后grid.best_params_或grid.best_estimator_始终将列表中的第一个参数返回为最佳（即1和1）。如果我改变参数的顺序，将5放在“C”列表的顶部，那么最

Scikit learn scikit学习拟合功能分类

标签： Scikit Learn

我正在scikit学习中使用fit功能进行分类培训。例如，在使用随机林时，通常使用以下类型的代码： import sklearn from sklearn.ensemble import RandomForestClassifier as RF forest=RF(n_estimators=10) forest=forest.fit(TrainingX,Trainingy) 不幸的是，我在使用Python 3时遇到以下错误： C:\Anaconda3\lib\site packages\sk

Scikit learn 从sklearn'获取到超平面的距离；s svm.svc

标签： Scikit Learn euclidean-distancesvc

我目前正在使用svc来分离两类数据（下面的特性是命名数据，标签是条件）。使用gridSearchCV对数据进行拟合后，我得到了大约0.7的分类分数，我对这个数字相当满意。之后，我使用grid.best_estimator_u.decision_function（）获取每个类数据与超平面的相对距离，并将它们绘制在箱线图和直方图中，以更好地了解重叠的程度。我的问题是，在柱状图和箱线图中，这些看起来是完全分开的。我知道情况并非如此。我肯定我调用的decision_function（）不正确，但不知道如

Scikit learn sklearn-svm多核归一化

标签： Scikit Learn Kernel svmweka

我现在正在做一个文本分类项目。首先，我使用Weka，它的SVM方法有一个归一化的多项式核，我使用该核得到了最好的结果。我正试图用sklearn完成同样的任务。我发现svm.SVC只有“poly”内核。那么，是否可以使用sklearn实现规范化多项式核呢 random_state = np.random.RandomState(0) clf = svm.SVC(kernel='poly', gamma='auto', C = 2.0,decision_function_shape='ova',pr

Scikit learn sklearn中的SVM-qp求解器

标签： Scikit Learn svmquadratic-programming

我学习SVM，并将使用python sklearn.SVM.SVC实现SVM 据我所知，SVM问题可以用QP（二次规划）来表示所以在这里我想知道哪个QP解算器用于解决sklearn SVM中的SVM QP问题我认为可能是SMO或坐标下降算法请让我知道sklearn svm中使用的确切算法，过去已经使用过现成的QP解算器，但多年来使用了专用代码（更快、更健壮）。这些解算器不再是（通用的）QP解算器，只是为这个用例构建的 sklearn的SVC是（）的包装器正如链接所说：从版本2.8开始，

Scikit learn 为什么在训练SGDClassizer时会重置Epoch？

标签： Scikit Learn

我对一个时代的理解是，它是指我们在整个训练过程中经历的次数。但是当我用verbose=true训练sgdclassizer时，我看到了下面的内容。它只是在5个纪元后重置，并再次从1开始计数。为什么会这样以下是我如何实例化模型： clf = linear_model.SGDClassifier(loss='log', verbose=True) clf.fit(X_train, y_train) 以下是输出： -- Epoch 1 Norm: 5.26, NNZs: 448659, Bias:

Scikit learn 多输出XGB的增量学习

标签： Scikit Learn regressionxgboost

我尝试使用XGB进行增量学习，并使用Sklearn的MultiOutputRegressor进行包装，以获得多类回归： # For instance # X = np.zeros((1, 8) # y = np.zeros((1, 32) multi_model = MultiOutputRegressor( xgb.XGBRegressor(objective='reg:squarederror') ).fit(X, y) 但是，如果我反复调

Scikit learn sklearn.preprocessing中没有StandardScaler类

标签： Scikit Learn

我想在预处理包中使用StandardScaler类，但我一直得到一个AttributeError:“module”对象在scikit learn 0.13上没有属性“StandardScaler” 预处理.\uuuu dict\uuuu不显示StandardScaler 我可以在同一个包中使用LabelEncoder类。python路径中的sklearn包可能是旧版本，而不是您安装的0.13版本。尝试： python -c "import sklearn; print(sklearn.__fil

Scikit learn PCA如何为scikit学习中的Kmeans算法提供中心

标签： Scikit Learn k-meanspca

我正在查看上给出的示例代码此脚本中有以下代码： # in this case the seeding of the centers is deterministic, hence we run the # kmeans algorithm only once with n_init=1 pca = PCA(n_components=n_digits).fit(data) bench_k_means(KMeans(init=pca.components_, n_clusters=n_digits

Scikit learn sklearn中的DictVectorizer在python 3.4中出现错误

标签： Scikit Learn python-3.4

我一直在尝试调用sklearn.feature\u extraction中的dictvectorier import numpy import scipy import sklearn from sklearn.feature_extraction import DictVectorizer 然而，它给出了以下错误 Traceback (most recent call last): File "<pyshell#5>", line 1, in <module>

Scikit learn k-最近邻（KNN）算法在S&；P500索引与python

标签： Scikit Learn knn

我想对标准普尔500指数实现K-最近邻算法来预测未来价格，并通过scikit学习库用python开发定量算法交易模型。虽然我对kNN算法有基本的了解，但我完全是python机器学习编码的新手，所以如果有人能帮助我，我很高兴这是我的模拟逻辑资产：标准普尔500指数月度价格（可与ETF投资）逻辑每个月末根据kNN算法预测下个月的价格方向（上涨或下跌）--->预测上涨：买入标准普尔500指数，下跌：持有现金（假设年回报率为3%）训练数据集：最近滚动的12个月数据（训练数据集随着时间的推移

Scikit learn 如何将TFIDF向量与多项式朴素贝叶斯结合使用？

标签： Scikit Learn tf-idfnaivebayes

假设我们使用TFIDF转换将文档编码为连续值特征我们现在如何使用它作为朴素贝叶斯分类器的输入伯努利朴素贝叶斯（Bernoulli naive bayes）被淘汰了，因为我们的功能不再是二进制的了。似乎我们也不能使用多项式朴素贝叶斯，因为这些值是连续的而不是绝对的作为替代方案，是否适合使用高斯朴素贝叶斯？在高斯分布假设下，TFIDF向量是否可能保持良好 sci工具包中关于MultionomialNB的学习文档建议如下：多项式朴素贝叶斯分类器适合于分类具有离散特征（例如，文本分类的字数）

Scikit learn scikit学习中的LeaveOnOut交叉验证

标签： Scikit Learn cross-validation

有人知道我如何删除下面的错误吗 NameError Traceback (most recent call last) <ipython-input-31-d3625a93ead4> in <module>() 11 loo = LeaveOneOut(num_of_examples) 12 for train_index, test_index in loo: ---> 13

Scikit learn Scikit使用t-SNE的fit_变换时学习记忆错误

标签： Scikit Learn Neural Network Keras

我试图用t-SNE来可视化神经网络（在Keras中实现）的输出。调用fit\u transform时，我会得到一个MemoryError。目前我正在Windows 10上运行我的代码代码：您需要将输出大小减小到系统可以处理的值除此之外，您还可以使用主成分分析（PCA）来降低输出的维度，然后再将其输入t-SNE。请参见此处：Windows或Unix？@mkaran Windows在输出中有多少预测？你试过更少的样品吗？你试过用主成分分析法来降低维度吗？你认为我们能做什么？谁知道输出有多大？对

Scikit learn 如何在决策树中指定拆分？

标签： Scikit Learn decision-tree

我正在尝试使用scikit learn提供的函数训练一个用于评估棒球运动员的决策树分类器。然而，我想提前“预先指定”或“强制”一些拆分，这是基于我所知道的关于专家思考方式的真实情况（无论如何都需要合并）。例如，我想基于打击平均值>0.300强制分割一个相关的问题是——我是否可以“预加载”一个先前训练过的决策树模型，然后在后续训练中“更新”它？还是每次运行决策树分类器时都需要重新学习所有规则？我在这里试图做的类比是转移学习，但应用it决策树。我预先指定拆分的方法是创建多棵树。将玩家分成两组，平均

Scikit learn 带sklearn的混淆矩阵

标签： Scikit Learn text-classificationconfusion-matrix

我训练了一个垃圾邮件过滤模型我用这行代码得到了混乱矩阵 tn, fp, fn, tp= confusion_matrix(targets, predictions).ravel() 分类标签如下所示： targets = test_set['S'].values S值是每个电子邮件的分类标签这就是结果我在任何时候都不会指明哪一类是正的，哪一类是负的。。我如何知道哪个是哪个（垃圾邮件被认为是积极类）我有多个模型，支持向量机，朴素贝叶斯和决策树显示你的目标和预测。它们将按字母顺序进行

Scikit learn knn（k-最近邻）在什么维度开始表现不佳？

标签： Scikit Learn knn

我知道kNN搜索会随着问题维数的增加而表现得更差。我知道对于kNN搜索，20被认为是相当高的维度。我不知道的是，在第3个（我知道kNN工作得很好）和第20个（我知道kNN工作得不太好）之间，它到底从哪里开始变得糟糕假设一个平衡良好的树，有人知道平均查询速度与大约1到20个维度之间的维度有什么关系吗就不同的kNN算法产生的结果而言，我对此很感兴趣，但您可以假设Scikit学习实现为kNN作为问题的基线。性能在很大程度上取决于您使用的数据类型（以及scicit学习使用的任何索引）。有关简短示例

Scikit learn sklearn随机森林样本的拟合权重（）

标签： Scikit Learn random-forest

在sklearn的RF fit函数（或most fit（）函数）中，可以传入“sample_weight”参数来称量不同的点。默认情况下，所有点的权重相等，如果我传入一个1s的数组作为样本权重，则它确实匹配原始模型，而不带参数但是如果我传入一个0.1s或1/len（数组）的数组作为样本权重，它会改变模型（现在预测不同），尽管点的权重仍然相等。这是令人不安的，因为减肥似乎很重要。那么，什么是适当的缩放方式，以便我有一个独特的解决方案示例如下： import numpy as np from s

Scikit learn 如何正确安装MultiLabelBinarizer？

标签： Scikit Learn multilabel-classification

我有一些标签（A、B、C、H、H1、H2等），但是当我安装MultiLabelBinarizer时，它将H1拆分为H和1。有人能告诉我，除了把H1标签换成另一个标签外，这个问题还有什么解决办法吗。多谢各位 mlb = MultiLabelBinarizer() labels = pd.DataFrame(mlb.fit_transform(df['LABELS']),columns=mlb.classes_) 解决方案是添加所有可能的标签。这意味着您应该将可能的标签保存在excel文件

Scikit learn Scikit学习：线性回归插值不起作用

标签： Scikit Learn linear-regressioninterpolation

我试图使用Scikit learn的LinearRegression类执行插值，但结果似乎是错误的。其思想是使用多项式拟合，拟合次数等于观测次数减1。这将使线性回归估计产生插值。然而，线性回归不能给出插值解完整代码： import numpy as np import matplotlib.pyplot as plt from sklearn.linear_model import LinearRegression from sklearn.preprocessing import Polyn

Scikit learn 具有l1的logistic的SGD分类器结果和statsmodels结果的差异

标签： Scikit Learn statsmodels

为了检查我的工作，我一直在比较scikit learn的SGDClassizer logistic实现与statsmodels logistic的输出。一旦我加上一些l1和分类变量，我会得到非常不同的结果。这是不同解决方案技术的结果，还是我没有使用正确的参数在我自己的数据集上差异更大，但使用mtcars时仍然相当大： df = sm.datasets.get_rdataset("mtcars", "datasets").data y, X = patsy.dmatrices('am~st

Scikit learn 使用随机林时特征的P值

标签： Scikit Learn random-forestfeature-selectionp-value

我在scikit学习中使用随机森林，我想知道有什么方法可以获得特性的p值？我知道我可以使用feature_importances_来获得特征的重要性，但我需要有p值。同样与系数类似（使用线性回归），我需要知道特征如何影响预测，预测值如何随每个特征的变化而变化。您要查找的是Z分数。不确定是否在scikit中实现。为了研究你的映射曲率，你可以尝试部分依赖图或者密切相关的灵敏度分析或者。。。。一个无耻的建议：）跳转到R并尝试我的包forestFloor来可视化随机森林。我们也有z-score：据我所

Scikit learn 如何允许SKK最近邻采用自定义距离度量？

标签： Scikit Learn distancenearest-neighborudf

我有一个自定义距离度量，需要用于KNN，K近邻我试着跟随，但由于某种原因，我无法让它工作我假设距离度量应该采用两个长度相同的向量/数组，如下所述： import sklearn from sklearn.neighbors import NearestNeighbors import numpy as np import pandas as pd def d(a,b,L): # Inputs: a and b are rows from a data matrix

Scikit learn 使用xgboost进行校准

标签： Scikit Learn xgboost

我想知道我是否可以在xgboost中进行校准。更具体地说，xgboost是否与scikit learn中的现有校准实现类似，或者是否有一些方法将xgboost中的模型放入scikit learn的校准分类RCV中据我所知，在sklearn中，这是常见的程序： # Train random forest classifier, calibrate on validation data and evaluate # on test data clf = RandomForestClassifier

Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法

标签： Scikit Learn pca Dask

基于和增量PCA文档，它建议使用memmap数组，但是否可以使用dask完成相同的任务更新将问题扩展到包括其他部分拟合算法，因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法，但我似乎在API中找不到相关文档。当我尝试对6000x250000 float64dask数据帧进行增量pca时，在不调整dask调度程序的情况下，在16核104GB虚拟机上花了8个小时取得了9%的进度，但我不确定这是否是由于我的代码太差，或者对于这样大小的数据集，这是否

Scikit learn sklearn.neights.KDTree内存要求

标签： Scikit Learn kdtree

在for sklearn.neights.KDTree中有内存消耗的描述：存储树比例所需的内存量约为n_样本/叶大小这是否意味着当叶子大小变大时，存储树所需的内存会减少我认为leaf_size指定树中有多少个叶节点，因此如果有很多节点，内存就会增长。我是不是想错了？leaf\u size参数指定在树的“分支”底部的终端“leaves”中存储了多少条目。另一种说法是，将您的查询与之进行详尽比较的“邻居”的数量如果您有一个较小的叶大小。树需要更大，因此它增加了存储树的内存需求实际上，lea

Scikit learn 数据归一化后，使用回归分析如何预测y？

标签： Scikit Learn regressionnormalizationlinear-regressionstatsmodels

我已经对我的数据进行了标准化，并应用回归分析来预测产量（y）。但我的预测输出也给出了归一化（0到1）我希望我的预测答案是正确的数据，而不是0到1 数据：接下来，我将使用以下代码规范化数据： from sklearn.preprocessing import Normalizer import pandas import numpy dataframe = pandas.read_csv('/home/desktop/yield.csv') array = dataframe.values

Scikit learn XGboost python-分类器类权重选项？

标签： Scikit Learn xgboost

有没有办法为xgboost分类器设置不同的类权重？例如，在sklearn RandomForestClassifier中，这是通过“class_weight”参数完成的使用sklearn包装器时，有一个权重参数例如： import xgboost as xgb exgb_classifier = xgboost.XGBClassifier() exgb_classifier.fit(X, y, sample_weight=sample_weights_data) 其中参数shld类似于数组

Scikit learn 交叉验证评分函数与混淆矩阵（sklearn）

标签： Scikit Learn classificationcross-validationconfusion-matrix

我想知道是否有一种简单的方法（除了显式实现之外）来计算不同分裂上的混淆矩阵，比如： >> cross_val_score(grid_search_CV, X_train, y_train, scoring=make_scorer(confusion_matrix)) make_scorer用于分配一个分数，根据该分数，不同参数的不同cv折叠可以相互比较。所以在混乱矩阵中是不可能的，但是你可以使用类似于在

Scikit learn 如何使用带有KerasClassifier的Tensorboard（Scikit学习）？

标签： Scikit Learn Deep Learning Keras tensorboard

我已经知道如何在model.fit（）中使用tensorboard，当我移动到KerasClassifier时，我不知道如何使用它，我的代码： import keras as keras import numpy from keras.models import Sequential from keras.layers import Dense from keras.wrappers.scikit_learn import KerasClassifier from sklearn.model_

Scikit learn 使用TF-IDF测试和训练具有不同数量特征的集合

标签： Scikit Learn classificationtf-idftraining-data

我正在做一个简单的二元分类，我给你们举一个我遇到的问题的例子：假设我们有n文档（文档1，文档2，…，文档n）。我们将使用TF-IDF作为特征值，使用单词包训练二元分类器。我们的培训文件具有m功能（从技术上讲，m是我们在清理和预处理后在所有这些n个文档中拥有的唯一标记的数量）现在，假设我们有一个经过训练的模型，我们将预测一个新文档的标签。我们首先应该像对待培训文档一样对测试文档进行预处理。然后，我们应该使用TF-IDF为测试文档构建一个特征向量。这里有两个问题：对于训练集和测试集，特性的数量

Scikit learn X#u转换的#u拟合#u属性错误：AttributeError:'；KernelPCA'；对象没有属性'；X#u变换#u拟合'；

标签： Scikit Learn pcamatrix-decomposition

我试图获得我的数据集中哪些特征会影响主成分，并试图观察我的数据如何与我的内核PCA算法相匹配。我试图使用纪录片中存在的X_transformed_fit_属性，但我得到了以下错误：AttributeError:“KernelPCA”对象没有属性“X_transformed_fit” 我的KPCA代码如下： from sklearn.decomposition import KernelPCA kpca = KernelPCA(n_components = 2, kernel = 'cosine

Scikit learn 模块'；sklearn.metrics'；没有属性'；戴维斯·博尔丁分数'；

标签： Scikit Learn cluster-analysisk-meansevaluation Google Colaboratory

我试图使用sklearn.metrics.davies_bouldin_分数评估聚类kmeans模型。我正在使用GoogleColab和运行时Python 3和GPU加速器我得到了这个错误：模块“sklearn.metrics”没有属性“davies_bouldin_score”。我尝试过以不同的方式导入度量包，正如一些人建议的那样，从sklearn import metrics和导入sklearn.metrics。这没什么区别我还更新了sklearn软件包！pip安装--升级skle

Scikit learn 在训练之前或作为基于像素的分类的后处理执行的图形切割

标签： Scikit Learn image-segmentationsupervised-learning

我目前正在使用在Scikit learn中实现的简单监督分类器对图像执行基于像素的分类。首先将图像重塑为单像素强度的向量，然后按照以下步骤进行训练和分类：来自sklearn.linear\u模型导入SGDClassizer 分类器=sgdclassizer（详细=True） fit（训练数据、训练目标）预测=分类器。预测（测试数据）基于像素的分类的问题在于产生的分类图像的噪声性质。为了防止这种情况，我想使用Graph Cut（例如Boykov-Kolmogorov实现）来考虑像素之间的空

Scikit learn 对lat-long数据进行聚类

标签： Scikit Learn cluster-analysislatitude-longitude

我正试图将我的lat-long数据聚类并划分为12个不同的区域，但是kmeans算法把时间搞砸了。我只试了两个集群，结果坏得很厉害（附图），12个集群都不能正常工作。我知道kmeans对噪音很敏感，我也把它清理掉了 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans from collections import Counter df =

Scikit learn 向决策树添加正确的标签

标签： Scikit Learn decision-tree

我正在机器学习项目中使用随机森林回归器。为了更好地理解预测的逻辑，我想可视化一些决策树，并检查在预测时使用了哪些功能为此，我编写了以下代码： from sklearn.tree import export_graphviz from subprocess import call from IPython.display import Image # Select one estimator from the Random Forests estimator = best_estimators

Scikit learn 您能否解释所提供示例的分类报告（召回率和精确度）？

标签： Scikit Learn classificationconfusion-matrixprecision-recall

现在我知道很多人问过这个问题，但是，我仍然不太了解sklearn库输出的精确度和回忆分数。以下是示例输出：如果可能的话，有人可以用你能掌握的最简单的语言用以下方式回答我的问题： -精度0.95 False表示模型的精度是多少？ -精度0.56 True表示模型的精度是多少？ -召回0.88 False对该型号意味着什么？ -回忆0.76 True对于该型号意味着什么？提前谢谢您有两个不同的类：True或False。想象你有像苹果一样的真和像桔子一样的假召回是一个指标，它让我们了解相对于

Scikit learn 如何实施"；softplus"；SKlearn-tweedie回归器中的链接函数？

标签： Scikit Learn regressionglmpoisson

在SKLearn包中，Tweedie回归器只有“标识”和“日志”链接功能。我正在进行泊松GLM拟合，希望使用“softplus”（log（1+exp（x））的倒数）链接函数来克服“log”链接的溢出问题。在这里可以实现用户定义的“softplus”链接吗？提前谢谢

Scikit learn 属性错误：'；KMeans'；对象没有属性'；惯性'；从sklearn.cluster导入KMeans 进口numpy 作为pd进口熊猫从熊猫导入读取 boston=read_csv（“../desktop/boston.csv”）印刷品（波士顿）打印（波士顿专栏）德尔波士顿['index'] 德尔波士顿['chas'] 印刷品（波士顿） sse=[] 对于范围（1,9）内的i： kmeans=kmeans（n_集群=i，最大iter=300） sse.append（kmeans.INITERY)

标签： Scikit Learn k-means

我越来越 AttributeError:'KMeans'对象没有属性'inertia' 我试图使用k均值找出波士顿数据上适当数量的聚类，k均值在模型拟合时创建惯性等属性；但是在这里，您没有调用.fit方法，因此出现了错误在调用kmeans.惯性之前，需要使用数据运行kmeans.fit（）；以下是使用sklearn的波士顿数据的完整示例：从sklearn.cluster导入KMeans 从sklearn.dataset导入加载将matplotlib.pyplot作为plt导入十、 y=