Scikit Learn_IT技术博客_编程技术问答

Scikit learn 用python对大型数据矩阵进行集群？

标签： Scikit Learn bigdatacluster-analysisdata-miningpytables

我想聚集150万种化合物。这意味着有1.5 x 150万个距离矩阵我想我可以使用pyTables生成这样一个大的表，但是现在——有了这样一个表，我将如何对它进行集群我想我不能只是把pyTables对象传递给scikit学习集群方法之一是否有任何基于python的框架可以利用我的大表并使用它做一些有用的事情（lie集群）？也许是分布式的？我认为主要的问题是内存。1.5 x 1.5百万x 10B（1个元件尺寸）>20TB 您可以使用bigdata数据库，如pyTables、Hadoop和Map

Scikit learn 如何更改随机林用于从单个树做出决策的函数？

标签： Scikit Learn classificationrandom-forestensemble-learning

随机森林使用“大量的决策树在训练时输出类，这是单个树的类（分类）模式” 是否有一种方法可以代替使用作为模式的类，在原始树生成的输出上运行另一个随机林额外问题：这是个坏主意，有什么原因吗？（我相信人们以前会想到这一点）我认为这只是一个性能选项，您的想法听起来不错，但没有更好的“随机性”，但计算速度可能较慢。您可以访问拟合的随机林实例的估计器属性中的单个决策树您甚至可以重新采样该属性（它只是一个决策树对象的Python列表），以添加或删除树，并查看对结果林预测质量的影响。>是否有方法在结果树上运

Scikit learn 访问GridSearch中最佳估计器的矢量器使用的词汇表

标签： Scikit Learn grid-searchcountvectorizer

我不知道把它放在标题里这就是我试图做的：我使用GridSearch和管道来训练分类器。我想看看最佳估计器所使用的计数向量器的词汇表.items（）现在，在运行GridSearch之后，我正在这样做： classifier = gs_clf.best_estimator_ vect = classifier.named_steps["vec"] data = vect.fit_transform(x_train) vocab = = vect.vocabulary_.i

Scikit learn 可更新最近邻搜索

标签： Scikit Learn nearest-neighbor

我正试图为最近邻搜索应用程序提出一个好的设计。这有点类似于这个问题：在我的例子中，这将是在Python中，但主要的一点是，当新数据出现时，必须更新模型/索引。我现在正在和他玩，但我不认为这是一个很好的配合应用程序的目标是：用户输入一个查询，然后将显示现有数据集中的n个（可能固定为5个）最近邻。对于这一步，sklearn的这种搜索结构会有所帮助，但在添加新记录时必须重新生成。此外，这是第一次每次查询发生1次ste，因此与“立即”相比，可能会有点“慢”，如2-3秒然后，用户可以单击其中一条

Scikit learn 受限玻尔兹曼机器：如何预测类标签？

标签： Scikit Learn

因此，我在SKLearn网站上阅读了受限Boltzmann机器的示例，在该示例成功后，我想与BernoulliRBM进行更多的交流，以更好地了解RBM的工作原理。我试着做一些简单的课堂预测： # Adapted from sample digits recognition client on Scikit-Learn site. import numpy as np from sklearn import linear_model, datasets from sklearn.cross_va

Scikit learn scikit学习凝聚性、聚集性和连通性

标签： Scikit Learn connectivityhierarchical-clustering

我试图使用scikit中的凝聚聚类来学习在一个地方聚集点。点由存储在_XY中的坐标（X，Y）定义通过由定义的连通矩阵，集群仅限于几个邻居 C=kneighbors\u图（\u XY，n\u近邻=20）我希望有些点不是同一个集群的一部分，即使它们是邻居，所以我修改了连通矩阵，将0放在这些点之间该算法运行平稳，但在最后，一些簇包含不应该在一起的点，即一些偶，我施加了_C=0 从这些子项中，我可以看到，当两点（I，j）的簇已经形成时，问题就出现了，并且k连接（I，j），即使_C[I，k]=0 所

Scikit learn scikit学习：将主要成分的SVM权重投影到原始图像空间

标签： Scikit Learn pcamedical

我对我的3D图像数据集进行了PCA，并将前n个PC用作线性SVM中的特征。我为每台电脑设置了SVM权重。现在，我想将电脑权重投影到原始图像空间，以发现在分类过程中，图像的哪些区域更具辨别力。我对权重向量使用了逆变换PCA方法。然而，结果图像只有正值，而SVM权重既有正值也有负值。这让我想到我的方法是否有效。有人有什么建议吗提前谢谢。我有一个程序可以在图像空间中进行这种投影。需要意识到的是，权重本身并不定义“歧视”权重（如中所述）。您需要输入的总和由其核系数加权以这个玩具为例：类A有两个向量

Scikit learn 将scikit learn升级到新版本

标签： Scikit Learn Neural Network conda

我想将我的scikit学习版升级到0.18.dev0，其中包含用于NeuralNetworl分类器和回归的软件包。谁能给我详细的步骤，如何在Windows上这样做。我希望这些步骤非常详细我尝试的是conda update scikit learn，但实际情况是它并没有超出“获取包元数据…”的范围，而是被卡在了那里。谁能帮我一下吗。我在命令提示符下执行此操作。您可以使用pip从特定的git分支进行安装，如本答案中所述为什么不先自己尝试一下，然后在遇到问题时再问一个更具体的问题呢？很抱歉带来坏消

Scikit learn 在sklearn中，线性回归支持最多25个自变量？

标签： Scikit Learn

当我使用sklearn做一些关于线性回归的事情时，如下所示： x = df3.iloc[:,3:28].as_matrix().astype(int) y = df3.iloc[:,0].as_matrix().astype(int) from sklearn import linear_model clf = linear_model.LinearRegression() clf.fit(x,y) print clf.coef_ print clf.score(x,y) x = df3

Scikit learn 如何将tf idf集成到nusvc中？

标签： Scikit Learn svm

我正在使用sift处理一袋视觉单词，然后我想集成tf idf，然后将其提供给svm，即scikit学习中的nusvc。我该怎么做？有什么想法吗阅读scikit了解有关管道的文档：链接类和NuSVC类的实例确保您的输入数据是符合TFIDFTranformer类期望的2D数组或稀疏矩阵。谢谢。我可以在tf idf之后添加标准定标器以使数据更准确吗？

Scikit learn 如何根据随机值测试分类器的准确性？

标签： Scikit Learn classification

我已经建立了我的第一个scikit学习示例，我正在尝试评估我预测的准确性。我已经很好地设置了训练和测试列表，但即使我给出随机值，我也能获得~0.95的准确度这看起来是因为我正在检查0/1标签，95%的标签是零，所以我想它是在0上猜测，得到0.95的准确度？。显然这不是我想要的如何确定分类器是否正常工作，以及如何获得有意义的准确度值？您有一个明显的类不平衡问题。您的分类器一直在预测0，并且知道它95%的时间都是正确的。您可以在安装的分类器上调用predictX_测试来检查这一点。如果所有的值都

Scikit learn sklearn-如何从LinearSVC模型检索变量（分类参数）

标签： Scikit Learn

sklearn的svm LinearSVC使用以下模型：线性VC:1/2 | | |[w b]| | ^2+C和XIU i 我一直在查看文档，找不到任何方法来找到这些值。特别是w向量、b和C值。LinearSVC类似乎有一个get_params方法，但没有一个返回的参数与分类参数匹配有人有检索这些值的经验吗？使用sklearn的LinearSVC是否可能谢谢您需要先拟合模型，然后才能将其作为估计器的属性进行访问 w=系数_ b=截距_ C=C是在拟合之前由您设置的超参数，请注意，越高，正则

Scikit learn sklearn集成的自定义随机_采样

标签： Scikit Learn random-forestensemble-learningboosting

我需要在scikit learn中编写一个自定义随机_选择（用于随机选择特征，即“最大_特征”和列车数据子集，即“子样本”）模块，用于sklearn.ensemble.RandomForestClassifier和GradientBoostingClassifier。有人能指出一些例子/文档/讨论等吗？想法是使用一列（不依赖于，即Y）从在RandomForestClassifier中训练装袋数据这里似乎有两个主要选项：您可以手动迭代学习者。它会非常慢，但你可以手动输入采样数据或2。你可以通

Scikit learn InputField的数据类型是双精度的，尽管在PMMLPipeline中它是字符串

标签： Scikit Learn pmml

我正在将带有分类字符串功能的PMML管道导出为PMML文件。当我用Java打开文件并列出InputFields时，我看到day\u of_week字段的数据类型是双重的： InputField{name=day_of_week, fieldName=day_of_week, displayName=null, dataType=double, opType=categorical} 因此，当我评估输入时，我会得到错误： org.jpmml.evaluator.InvalidResultExce

Scikit learn 使用准确度以外的指标（如F1或AUC）进行OOB评估

标签： Scikit Learn classificationrandom-forestcross-validationauc

我在不平衡的数据集上训练随机森林，准确度不高。我希望避免交叉验证，而是使用现成的（OOB）评估。在sklearn中（或在python中，一般情况下）是否可以评估出包外（OOB）F1或AUC，而不是OOB准确性我在这些页面上找不到这样做的方法：或者我应该在oob_决策函数中计算平均预测（或分类多数票）的f1和AUC吗？从中，您可以看到精度计算是硬编码的，因此您无法通过设置一些参数获得另一个分数但是，正如您所说，oob预测是可用的，因此自己进行最终计算并不困难。为什么不在训练前分割数据的另

Scikit learn XGBoost gpu无法使用scikit RandomizedSearchCV运行

标签： Scikit Learn gpuxgboost

XGBoost在cpu和gpu上都可以正常工作，但只要我添加scikit的randomizedsearchcv用于超参数调优，它就会失败系统：Ubuntu20 环境：使用Python3.7的conda虚拟环境 xgboost安装：conda安装-c anaconda py xgboost gpu 代码：错误： Fitting 3 folds for each of 200 candidates, totalling 600 fits [Parallel(n_jobs=1)]: Using b

Scikit learn 当我在Google Colab中安装旧版本的scikit learn时，它仍然导入最新版本

标签： Scikit Learn Google Colaboratory uninstallation

我想在Google Colab中使用scikit学习版本0.24.1。首先，我通过以下方式卸载当前安装的版本（0.24.2）：然后，我通过以下方式安装版本0.24.1： !pip install scikit-learn==0.24.1 然而，当我导入scitkit learn时，它是版本0.22.2.post1，我认为它是最新的版本，而不是版本0.24.1 如果你有任何解决办法，请告诉我背景：我通过scikit learn 0.24.1对模型进行了培训，我希望使用相同的版本加载经过培训

Scikit learn 交叉验证后，是否可以在新的测试集上使用估计器预测？

标签： Scikit Learn cross-validationlogistic-regression

我有一个关于scikit的新问题要问你分类问题，logistic回归作为估计量。我有我的X数据集和我的功能我想通过交叉验证使用我的算法，我有两种方法：我手动将我的数据集拆分为5个子集，最后我迭代5次，每次都留下一个不同的集进行测试。我得到了我的分数，但我现在想要的是与估计器一起使用的系数的平均值，以便在新的数据集上进行预测。我在stackoverflow的某个地方读到，可以将系数传递给scikit逻辑回归估计器另一种方法是使用交叉评分法： lrmodel=LogisticRegressi

Scikit learn 如何将保存的scikit学习模型从版本0.15.2升级到版本0.16.1？

标签： Scikit Learn

我有一些模型是在版本0.15.2中创建的，并使用pickle保存的。现在我想升级到版本0.16.1，在新版本中使用这些模型，而无需对它们进行再培训我将需要升级的特定类是PLSRegression和RandomForestClassifier 内存中是否有升级这些对象的帮助器方法？如果没有，请提供有关哪些成员已更改以及新成员与旧成员之间的关系的信息。发现：以及：

Scikit learn 在ipython/Jupyter笔记本中导入scikit学习

标签： Scikit Learn jupyter

我可以从python或ipython控制台（python 2.7和3.5）导入scikit learn，但是当我在ipython笔记本（同样是2.7或3.5）中导入sklearn时，我会收到下面的错误消息。我怎样才能解决这个问题 ImportError回溯（最近的呼叫）最后）在（） ---->1导入sklearn ImportError:没有名为sklearn的模块您报告的问题仍然有点不清楚，因为您没有提供关于设置Python或iPython的步骤的详细信息。这些信息以及您的操作系统（OS

Scikit learn 导入错误：无法导入名称'；相互信息分类'；

标签： Scikit Learn feature-selection

我想在scikitlearn中使用K-Best和评分函数“相互信息分类”进行特征选择。但是，由于以下错误，我无法导入此函数： ImportError: cannot import name 'mutual_info_classif' 请提供。请包括您正在使用的scikit版本。问题可能与感谢@ncfirth对您的帮助有关。我的scikitlearn版本是0.17，我将其升级到了0.18。请提供一个。请包括您正在使用的scikitlearn版本。问题可能与感谢@ncfirth对您的帮助有关。我的

Scikit learn 利用sklearn的id3算法训练决策树

标签： Scikit Learn python-3.5decision-treecross-validationconfusion-matrix

我正在尝试使用id3算法训练决策树。其目的是获得所选特征的索引，估计发生率，并建立总混淆矩阵该算法应将数据集拆分为训练集和测试集，并使用4倍交叉验证我是新来的，我读过关于sklearn的教程和关于学习过程的理论，但我还是很困惑我试着做的是： from sklearn.model_selection import cross_val_predict,KFold,cross_val_score, train_test_split, learning_curve from sklearn.t

Scikit learn 线性判别分析要求

标签： Scikit Learn data-analysislinear-discriminant

我正在尝试使用sklearn LDA分析一个稀疏数据集，但不仅是那个，我还尝试了一个个人实现。数据集有14列和一些不同数量的列，我选择这些列来运行不同的实验，保留那些差异最大的列 X = dfplants.values print(X.shape) (14,15) u,s,v = np.linalg.svd(X) print(len(s)) y = dfplants_sup['tecnique'].values lda = LDA(n_components=2, solver='svd', s

Scikit learn 使用sklearn时的精度和召回错误

标签： Scikit Learn precision-recall

我正在使用sklearn precision和recall获得这些分数。我说值错误时出错。谁能告诉我哪里做错了我的y_测试如下 443 positive 3615 positive 2030 negative 2993 positive 2870 positive 2907 negative 2215 positive ['positive' 'positive' 'positive' ..., 'positive' 'positive' 'pos

Scikit learn train_test_split函数是否保持了类之间的平衡

标签： Scikit Learn

我有一个问题，我一直在寻找答案，但我找不到答案如果我有一个使用三个或更多类标记的数据集，其中每个类代表33%的数据。当我分割数据时，培训/验证/测试集是否在类之间保持相同的平衡如果没有，有没有办法保持平衡提前谢谢。找到了 X\u-train，X\u-test，y\u-train，y\u-test=train\u-test\u-split（X，y，test\u-size=0.2，random\u-state=42，stratify=y）这有什么可能的重复？它将列/测试集中的数据分层，并保持类

Scikit learn 我想在时间序列数据中处理PCA。样本数据格式附在这里。总数据大小为40列40行

标签： Scikit Learn pca

请指导我通过这些方法，因为我一直在遵循python中其他较长的方法来执行PCA什么工作正常？什么工作不正常？简单地要求我们为您提供指导并不能告诉我们您的编程问题是什么。如何在我共享的文件中输入信息…这是一个跨不同站点的变量…只是如何使其可读，以便首先在此代码中进行进一步分析 from sklearn.decomposition import PCA as sklearnPCA sklearn_pca = sklearnPCA(n_components=2) Y_sklearn = sklearn

Scikit learn 为什么n-gram范围去掉了中性标记和概率？

标签： Scikit Learn Nlp range Google Colaboratory n-gram

为什么上面缺少9%:Neutral？你可以发布一个y值的摘要（比如标签和每个标签的样本数）？'13%'：'sazing'，'15%'：'Bad'，'57%'：'Good'，'6%'：'sorry'：通常是9%。不仅是这批的结果。 from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer(stop_words = "english", ngram_range=(1, 2), m

Scikit learn sklearn'中使用的决策函数是什么；s支持向量机

标签： Scikit Learn

我正在努力找出sklearn的svm中用于ovr类型决策函数的决策函数。有人能帮我吗。非常感谢你看过吗？那篇文章讨论了一些决策函数。@nbro这确实很有帮助，谢谢！你看过吗？那篇文章讨论了一些决策函数。@nbro这确实很有帮助，谢谢！

Scikit learn 多类别分类的可视化预测概率

标签： Scikit Learn classificationdata-visualization

使用model.predict_proba（X）我得到了一个包含大量数字的大数组我正在寻找一种方法来可视化所有类别的分类概率（在我的案例13中）。我使用了一个随机分类器有什么建议吗？热图是可视化2D矩阵的好方法。当然，如果X中的记录数量很大，很难一次就将所有内容可视化。否则，您可能必须对记录进行采样。这里我展示了前10张唱片的视觉效果看看这个例子：从sklearn.dataset导入make_分类从sklearn.employ导入随机林分类器从sklearn.linear_模型导入逻

Scikit learn 与数据科学相关：单位销售日预测问题

标签： Scikit Learn data-science

我有一个产品，每年1月1日发布。今年它也在同一天发布（称为版本10）随着时间的推移，人们将开始购买该软件，随着时间的推移，软件的采用也将发生变化我有一个关于去年收养人数的数据（称之为版本9）。如何通过使用版本9的历史数字来预测版本10的采用数量（按天计算）。您好，欢迎使用Stack Overflow。请拿着这本书读一读。这里的格式不适合讨论方法，而是用于解决特定的编码问题。我认为你应该更准确地说明你的问题，或者在其他网站上询问，比如maybe

Scikit learn 为什么精确性和召回率的价值与代表性不足阶层的精确性和召回率几乎相同

标签： Scikit Learn precisionprecision-recallimbalanced-data

我有二元分类，其中一个类的大小几乎是另一个类的0.1 我正在使用sklearn创建一个模型并对其进行评估。我正在使用这两个功能： print(precision_recall_fscore_support(y_real,y_pred)) out: (array([0.99549296, 0.90222222]), # precision of the first class and the second class array([0.98770263, 0.96208531]), # re

Scikit learn GridSearch/make_记分器使用xgboost模型生成奇怪的结果

标签： Scikit Learn xgboostgrid-search

我正在尝试使用sklearn的gridsearch和xgboost创建的模型。为此，我创建了一个基于ndcg评估的自定义记分器。我成功地使用了Snippet 1，但是它太混乱了，我更愿意使用好的旧sklearn来简化代码。我尝试实现GridSearch，结果完全不正确：对于相同的X和y集，我得到了相同的结果NDCG@k=0.8（代码段1）与0.5（代码段2）。很明显我在这里没有做什么以下代码返回的结果非常不同：第1段： kf = StratifiedKFold(y, n_folds=5, s

Scikit learn 无法通过Anaconda/jupyter获取MNIST数据库

标签： Scikit Learn Anaconda jupyter

胡，伙计们我对python/anaconda/jupyter/numPy、panda等都是新手。。。。所以，如果这是一个非常愚蠢的问题，请原谅。我正在尝试使用anaconda/jupyter获取MNIST数据库。但每次我在最后收到一个HTTP错误500。这真的是一个服务器问题（如500所示）还是我做错了什么 jupyter中的输入： from sklearn.datasets import fetch_mldata mnist = fetch_mldata('MNIST original')

Scikit learn 可视化从gensim生成的word2vec

标签： Scikit Learn data-visualizationgensimword2vec

我使用gensim在自己的语料库上训练了一个doc2vec和相应的word2vec。我想用t-sne和单词来可视化单词2vec。如中所示，图中的每个点也有“单词” 我在这里看到了一个类似的问题：下面是我的代码：进口gensim 将gensim.models导入为g from sklearn.manifold import TSNE import re import matplotlib.pyplot as plt modelPath="/Users/tarun/Desktop/PE/doc

Scikit learn 各向异性点聚类

标签： Scikit Learn cluster-analysisk-meansdbscangmm

K-均值法不能处理各向异性点。根据scikit learn，DBSCAN和高斯混合模型似乎可以处理这一问题。我尝试过使用这两种方法，但它们对我的工作不起作用 DBSCAN 我使用了以下代码： db = DBSCAN(eps=0.1,min_samples=5 ).fit(X_train,Y_train) labels_train=db.labels_ # Number of clusters in labels, ignoring noise if present. n_clusters_ =

Scikit learn 属性错误：'；普通编码器&x27；对象没有属性'；类别映射'；

标签： Scikit Learn categoriesencoderordinal

当我使用以下函数时，我会得到属性错误从category_编码器导入序号编码器 def标签编码（输入数据，列）：名称=列+“\u编码” 编码器=普通编码器（返回_df=True，句柄_unknown='ignore'） input_data[name]=编码器.fit_变换（input_data[col].values）。值-1 编码器=dict（编码器.类别映射[0]['mapping']）返回输入数据、编码器、名称您是否可以检查运行dir（编码器）时是否显示类别映射如果列表中未显示该映

Scikit learn 在sklearn中仅使用一个特征/变量训练/拟合线性回归

标签： Scikit Learn regression

所以我理解套索回归，我不明白为什么它需要两个输入值来预测另一个值，而它只是一个二维回归文件中说 clf.fit([[0,0], [1, 1], [2, 2]], [0, 1, 2]) 我不明白。为什么是[0,0]或[1,1]而不仅仅是[0]或[1] [[0,0], [1, 1], [2, 2]] 意味着您有3个样本/观测值，每个样本/观测值具有2个特征/变量（二维）事实上，您可以拥有这3个样本，其中只有1个特征/变量，并且仍然能够拟合模型。使用1个功能的示例。 from sklearn

Scikit learn 试图理解SKL，学习回归预测数组

标签： Scikit Learn linear-regression

我对Python编程非常陌生，对SKLearn和ML甚至更新。所以请原谅我对这些问题的无知我已经开始尝试SKLearn回归模型和代码，但在理解这个实验代码的结果时遇到了一个基本问题给出下面的代码，我试图找出LinearRegression model predict（）函数的结果是什么，与存储在sales_数据数组中的假定商品每日销售数字相关 import numpy as np from sklearn.model_selection import train_test_split fr

Scikit learn 解释SVC和GridSearch结果

标签： Scikit Learn classificationsvmgrid-search

我正在使用纹理分类器作为模型。我对我得到的一些结果有点困惑，主要是为什么参数gamma和C的选择对我的结果有如此大的影响。下面是对我的案例的简短描述：我总共有195张图片，分为8类，如下所示：；木材-56，大理石-23，水泥-16，混凝土-7，瓷砖-32，地毯-18，砖-25，织物-18 我将数据按80-20的比例随机分成训练集和测试集我使用SVC作为模型：model=SVC（C=C，random_state=42，gamma=gamma）我用训练数据来拟合我的模型。接下来，我为我的测试数

Scikit learn 负均方根越大，精度越高，还是计算越少，精度越高？

标签： Scikit Learn gridsearchcvmean-square-error

-0.567 -4.235 上面哪个负均方误差值计算得更准确？值越高越好。因此，在您的情况下，-0.567更好。A根据sklearn评分函数，保持以下惯例较高的返回值优于较低的返回值。但是当你看均方误差或者甚至是均方绝对误差时，数值越低越好。所以他们只是翻转值的符号，以确保它符合约定。例如，-0.567导致均方误差仅为0.567，而-4.235的均方误差远高于前者希望这有帮助

Scikit learn 这是xgboost&x27中的一个bug吗；XGBS分类器？

标签： Scikit Learn xgboost

在我看来，标签编码器已经被弃用了，但如果我们的分类不包含零，我们就不得不使用它 import numpy as np from xgboost import XGBClassifier model = XGBClassifier( use_label_encoder=False, label_lower_bound=0, label_upper_bound=1 # setting the bounds doesn't seem to help ) x = np.arr

Scikit learn 在Scikit中使用内核K-Means

标签： Scikit Learn svmk-means

我正在处理一个非常大的数据集（150万行），并考虑使用SVR。因为有太多的数据，我想切换到线性支持向量机和使用nystroem 从均匀采样数据生成核的方法然而，我更愿意通过kernelk-Means构建内核，但是我没有找到一个官方的尚未实施这个链接提供了一个非官方的方法，但由于它是序列化的，所以会产生一个非常大的模型。也许有人知道该从何处查找该数据，或者如何从任意数据集中按代码实现该数据？您正在处理时间序列数据吗？不，不幸的是，我正在处理住房数据。我不知道您是否可以将tslearn算

Scikit learn scikit中的弱学习者学习随机林和额外树分类器

标签： Scikit Learn random-forest

在论文“”中，作者谈到了不同类型的弱学习者：轴对齐超平面、一般定向超平面和二次型是我遗漏了什么，还是Scikit Learn中的实现在每次拆分时都执行了与轴对齐等效的操作？您是对的，我们只执行轴对齐拆分。事实上，这是最常见的分割策略，在大多数情况下，在不增加计算复杂度的情况下，可以获得足够好的结果

Scikit learn Scikit学习：偏差平均精度报告

标签： Scikit Learn classificationmetricsaverage-precision

我正在使用scikit学习执行二进制分类，但是标签并不是均匀分布在整个数据集中。对于我有兴趣预测少数类的情况，我对metrics.average\u precision\u score提供的平均精度度量有些担心。当我运行实验并打印分类报告时，我看到总体精度表现良好，但这显然是因为模型在预测大多数类别方面做得很好，比如： precision recall f1-score support label of interest 0.24

Scikit learn y参数在sklearn.decomposition.DicitonaryLearning.fit中起什么作用？

标签： Scikit Learn

sklearn.decomposition.DictionaryLearning.fit具有参数X，该参数是训练向量形状（n_个样本，n_个特征）和未解释的参数y 同一类的其他函数也有参数y，它们是“目标值”，是一个形状[n_样本]数组我不知道在创建字典时“目标值”的概念从何而来这里有一个指向文档的链接：由于技术原因，它被忽略，就在那里。由于技术原因，它被忽略，就在那里。有没有关于这些技术原因的解释？有没有关于这些技术原因的解释？

Scikit learn 为什么随机林的性能比决策树差

标签： Scikit Learn random-forest

这是我的第一次随机森林实践，不幸的是，它的性能比单个决策树差。我在这方面已经工作了一段时间，但没有找出问题出在哪里。下面是一些运行记录。我很抱歉发布完整的代码 Sklearn决策树分类器0.714285714286 Sklearn随机森林分类器0.714285714286 我自制的随机森林分类器0.628571428571 Sklearn决策树分类器0.642857142857 Sklearn随机森林分类器0.814285714286 我自制的随机森林分类器0.571428571429 Skle

Scikit learn 如何使用加权对数损失作为线性模型SGDClassizer的评分函数？

标签： Scikit Learn Computer Vision logistic-regressionweighted

我正在使用 linear\u model.sgdclassizer（loss='log'，class='weight='balanced'）对于10类分类（类非常不平衡）看起来，类_重量仅在训练时使用（在损耗函数中）。它们不用于得分。因此，我使用 GridSearchCV（测试模型、我的超参数、评分class='f1\U宏'）由于“f1_宏”，它计算“每个标签的度量，并找到它们的未加权平均值。这不考虑标签不平衡。” 我想用‘负失球’作为得分。因此，我会： GridSearchCV（测试模

Scikit learn LDA降维后的特征尺寸是意外的

标签： Scikit Learn

嗨，我有5994个类，我的原始特征尺寸是300，我有1092008个样本，当我把n_components=200时，它给我的尺寸是33？你有什么想法吗 from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA lda_model = LDA(n_components=lda_dim) lda_model.fit(x_train,labels) x_train = lda_model.transform(

Scikit learn 英特尔MKL致命错误：无法加载libmkl_core.so

标签： Scikit Learn Julia cross-validationintel-mkl

我尝试在Julia 1.0.5中使用train_test_split，代码如下： using ScikitLearn using ScikitLearn.CrossValidation: train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2019) 我得到了这个错误： INTEL MKL ERROR: /home/denis/.julia/

Scikit learn 停止标志在sklearn'中翻转；s主成分分析

标签： Scikit Learn pca

我使用PCA来可视化训练过程中网络高维潜在空间的演化。为此，我使用了sklearn.decomposition中的PCA函数，并每隔10个时期对潜在空间进行可视化问题在于，在演化过程中，PCA轴的方向从一帧翻转到另一帧。虽然这不是特别重要，但它破坏了我的动态潜在空间进展。我想知道是否有办法阻止标志翻转下面是我的动画中带有符号翻转的两个连续帧尝试设置sklearn.decomposition.PCA的random\u状态参数希望有帮助。我将随机状态设置为0，但问题仍然存在。不过还是要谢谢