当使用auc_分数作为分数函数时,GridSearchCV是否使用predict或predict_proba
predict函数生成预测类标签,这将始终导致一条三角形ROC曲线。使用预测的类概率得到更弯曲的ROC曲线。据我所知,后者更准确。如果是这样,“弯曲”ROC曲线下的区域可能是衡量网格搜索中分类性能的最佳区域
因此,当使用ROC曲线下的面积作为性能度量时,我很好奇是否将类标签或类概率用于网格搜索。我试着在密码中找到答案,但没能找到。这里有人知道答案吗
感谢使用auc\u分数进行网格搜索,您
我有超过15000个特定主题的文本文档。我想在前者的基础上建立一个语言模型,这样我就可以向这个模型展示不同主题的新的随机文本文档,并且算法告诉我们新文档是否属于同一主题
我尝试了sklearn.naive_bayes.MultinomialNB,sklearn.svm.classes.LinearSVC和其他方法,但是我有以下问题:
这些算法需要具有多个标签或类别的训练数据,我只有覆盖特定主题的网页。其他文档没有标记,并且包含许多不同的主题
如果您能提供关于如何培训只有一个标签的模型或如何进行总
我无法在ipython笔记本中导入以下模块:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
弹出以下错误
ImportError:无法导入名称多项式特征
同样的错误也出现在make_pipeline中
我是scikit学习的新手,请帮忙
我正在使用python的miniconda安装,scikit learn的版本号是0.14.1,多项式功能包含在
我正在使用梯度推进回归建立一个预测模型
在所有的调整/CV之后,我终于得到了正确的预测。我现在想把模型转储到一个文件中,这样我的生产C++程序就可以加载并使用它。
sklearn似乎通过pickle提供了模型持久性,但我想知道是否有一种方法可以将pickle模型转换为txt,就像xgboost一样。我的生产代码是C++,所以有泡菜作为媒体真的不方便
库中是否有“dumpModel”函数
有人有经验吗
谢谢
为这些愚蠢的问题道歉-这里的总数为n00b
假设我有以下数据集
date,site,category,locale,type,rank,sessions,logins
01/01/2017,google.com,search,US,free,1,3393093,50000
01/01/2017,google.com,overall,US,free,1,3393093,50000
01/01/2017,yahoo.com,search,US,3,free,core,393093,40000
01/
我正在使用scikit learn用python构建一个简单的KNN模型。我在UCI的wine数据集上测试了它,我注意到.predict()函数返回的结果不是大多数邻居类
knn = KNeighborsClassifier(n_neighbors=3,weights='uniform')
knn.fit(wine,class_wine)
predictions = list(knn.predict(wine))
# S is array I've made that chooses majo
我想知道我的K-Fold实现是否正确:
from sklearn.model_selection import KFold
kf = KFold(n_splits=numFolds, shuffle=False, random_state=7)
sales_prediction_model = xgb.XGBRegressor(
silent=False,
learning_rate=0.03,
我的火车数据集中有三列——问题、答案和干扰
正如我们所知,MCQ有一个问题和4个选项。其中1个答案是正确的,另外3个是干扰
我的测试集中有两个栏目——问答。我需要预测干扰因素
请建议如何处理这个问题
如果您想要机器学习解决方案:这是一个顺序到顺序的学习问题。然而,序列到序列的学习需要大量的训练数据,除非有成千上万的例子,否则可能无法很好地工作
用特殊标记分隔的问题和答案将作为输入,干扰者的答案将作为输出。对于seq2seq,您可以使用类似或任何其他工具。您可以更具体地说明您的目标是什么吗?对于一
我用sklearn编写了一小段代码来做线性回归
我创建了一个2列csv文件(列名称X,Y和一些数字)和
当我读取文件时,我看到内容被正确读取-如下所示
但是,当我尝试使用命令datafile[:,:]或datafile[:,-1]引用列时,出现“unhable type”错误
当我尝试使用X作为响应,Y作为sklearn线性回归中的预测值时,我得到的值误差如下所示
我在网上查看了一下,但无法找出我的代码或文件有什么问题。请帮忙
import pandas as pd
datafile=pd.re
标签: Scikit Learn
feature-selectiondeprecation-warninggrid-search
我正在构建多分类器的网格搜索,并希望使用递归特征消除和交叉验证。我从中提供的代码开始。以下是我的工作代码:
param_grid = [{'C': 0.001}, {'C': 0.01}, {'C': .1}, {'C': 1.0}, {'C': 10.0},
{'C': 100.0}, {'fit_intercept': True}, {'fit_intercept': False},
{'penalty': 'l1'}, {'penal
与标题相同,我想使用名为MLPREGESSOR的Scikit学习类构建一个神经网络模型。安装和编译后,代码将不会运行并给出返回值:无法导入名称MLPREGESSOR
from sklearn.neural_network import MLPRegressor
mlp = MLPRegressor(hidden_layer_sizes=(5, ), activation='relu', verbose=True, learning_rate_init=1, learning_rate='adap
标签: Scikit Learn
cythonipython-parallelmatrix-factorizationnmf
(这是我第一次提问,如果您认为标签或描述有问题,请告诉我,谢谢!)
我正在做一项关于矩阵分解的工作,并使用模块sklearn.decomposition.nmf
该模块使用另一个模块
来自sklearn.decomposition.cdnmf\u fast import\u update\u cdnmf\u fast
此模块来自文件cdnmf\u fast。因此
你可以在这个网站上查看它的源代码
我们可以看到它使用C语言和“with nogil:”,所以我认为它一定使用了并行化。
因此,我编写了
当我第一次将代码更改为“model_selection”时,警告退出。周末我更新了Anaconda,现在任何sklearn的导入都会触发“cross_validation”警告
我在网上找到了几个关于这个错误的例子,没有一个能解决这个具体问题。如果是的话,那是因为我的旧大脑不能正确地形成这个问题。事先道歉。非常感谢您的澄清
#!/usr/bin/env python
# tpot pipeline
from tpot import TPOTClassifier
from sklearn.mo
根据scikit学习SGDClassizer,修改后的Huber损失函数可用于对异常值提供更高的容忍度
但是,看看成本函数的性质,难道修改后的Huber不那么宽容吗?这似乎会给f(x)的观测带来更高的成本。这里的问题是,scikit学习文档没有说明我们应该将修改后的Huber容差与异常值进行比较的基线损失函数
修正的Huber损失源于Huber损失,用于回归问题。看看这个,我们发现Huber损失比平方损失对异常值的容忍度更高。正如您所注意到的,除了平方铰链损失之外,其他损失函数对异常值的容忍度要
在LIBSVM中,svmtrain中的-b标志用于训练SVC或SVR模型进行概率估计。为了获得测试集的相应结果,我们还将-b结果设置在svmpredict
例如,在MATLAB中,我们将编写以下代码,以便在启用概率估计的情况下进行训练和测试:
model = svmtrain(train_labels, train_set, '-b 1')
[result, accuracy, prob] = svmpredict(test_labels, test_set, '-b 1')
但是,在scik
我有一个管道对象,我想使用随机搜索CV优化其超参数,但我需要绑定两个参数,即如果一个参数设置为值,另一个参数将自动设置为相同的值
以下是我的具体案例:我将一个PCA链接到一个Keras分类器,该分类器需要明确其输入dimnbFeature。显然,当两者不匹配时,这种方法就失败了。请参见下面的玩具示例:
#设置
将numpy作为np导入
从sklearn.pipeline导入管道
从sklearn.decomposition导入PCA
从sklearn.model_选择导入随机化搜索CV
从ker
我有一个蛋白质数据集,我需要对它执行RFE。有100个带有二进制类标签(sick-1、health-0)的示例,每个示例有9847个特性。为了降低维度,我使用逻辑回归估计器和5倍CV进行RFECV。代码如下:
model = LogisticRegression()
rfecv = RFECV(estimator=model, step=1, cv=StratifiedKFold(5), n_jobs=-1)
rfecv.fit(X_train, y_train)
print("Nu
我正在尝试建立一个分类器。在玩hyperparameters时,我碰巧同时使用了参数class_权重和C,并且看到了我不理解的结果
这个代码给了我一个不同的f1分数
clf = svm.SVC(kernel="linear",class_weight={1:10,0:5})
clf.fit(X_train_tfidf, y_train)
predicted=clf.predict(X_test_tfidf)
f1_score(y_test, predicted)
从这个代码
clf = svm
我有一个时间序列的第一个差异,我应用PCA使用scikit获得第一台电脑
# data is a timeseries of first differences
pca = PCA(n_components=1)
pca.fit(data)
pc1_trans = pca.transform(data)
pc1_dot = numpy.dot( data, pca.components_.T)
plt.plot( numpy.cumsum( pc1_dot ) )
plt.plot( nump
大家好,我正在尝试使用sklearn中的make_管道模块。但当我尝试使用以下工具导入时:
from sklearn.pipeline import make_pipeline
我得到这个错误:
ImportError: cannot import name '_print_elapsed_time'
我在谷歌上搜索过,但似乎没有其他关于这方面的帖子。我尝试重新安装scikitlearn,但仍然出现相同的错误:/有人有什么想法吗?看起来这是一个错误引入了一个较新版本的scikitlearn(
给定两个视图矩阵X和Y,CCA应返回n_分量具有最大相关性的X和Y向量中元素的线性组合,即第一个分量具有最大相关性,第二列在与第一列不相关的方向上具有第二大相关性,等等。但是,在以下代码中,第二列的相关性明显小于第三列的相关性:
from sklearn.cross_decomposition import CCA
import numpy as np
from scipy import stats
X = [[0.006061109337620652, 0.0392466675239141,
我试图运行代码并获得错误太多值无法解包,如何解决该问题?
这是一段代码,看不到错误
parameter_grid = [{'n_estimators': [100], 'max_depth': [2, 4, 7, 12, 16]}, {'max_depth': [4], 'n_estimators': [25, 50, 100, 250]}]
metrics = ['precision_weighted', 'recall_weighted']
for metric in metrics:
在Scikit学习的随机森林回归器中,可以设置与修剪技术()相关的ccp_alpha参数,我用它来控制过度拟合
在应用它之后,我想使用这个修剪过的模型,通过随机搜索执行超参数调整,并找到我最好的模型。所以,我想要这个修剪过的模型
是否可以获得此修剪模型?当您将.fit(X\u序列,y\u序列)函数应用于RandomForestClassifier()或RandomForestRegressionor()类的对象时,返回的拟合模型已被修剪。
这在sklearn实现中的引擎盖下发生。从理论上讲,Ra
我正在尝试使用Dask-ML训练模型。我的最终目标是在大于内存的数据集上进行预测,因此我正在使用Dask的ParallelPostFit包装器在相对较小的数据集(4 Gb)上训练模型,期望稍后在较大的数据帧上进行预测。我正在连接一个有50名工人的纱线集群,将我的数据从拼花地板加载到dask数据框中,创建一个管道,并进行培训。培训是有效的,但当我尝试在搁置的测试集上进行评估时,我遇到了问题。当我使用sklearn的LogisticRegression作为分类器时,训练和预测成功运行。然而,当我使用
我有一个用于检测AO/非AO图像的二进制分类问题,为此使用Pytork。
首先,我使用ImageFolder实用程序加载数据。
Dataset.class_to_idx中的数据集类到标签映射是{0:'AO',1:'Non-AO'}
因此,我的“积极类”AO分配了一个标签0,而我的“消极类”非AO分配了一个标签1。
然后我培训并验证模型,没有任何问题。
在进行测试时,我需要计算测试数据的一些指标。
这就是我困惑的地方。
[方法A]
fpr, tpr, thresholds = roc_curve(
我正在使用带有scikit学习的一类SVM检测数据集中的异常值。我将试着用一个例子来解释我的问题:
想象一个具有高度和性能特征的简单数据集(这只是一个简化,我的数据集要大得多)。我想检测的是当这两个特性之间存在奇怪的组合时的异常值,例如:
h - height
p - performance
h p class
----------
10 0.1 1
12 0.5 1
20 3.2 1
24
出于充分的理由,大多数(全部?)实现fit和transform(转换器或估计器)的sklearn方法对包含NaN值的数据不起作用。由于大多数机器学习算法无法即时处理这些问题,并且各种转换与NaN不明确(一个具有6的功能与一个具有NaN的功能之间的交互是什么?),因此当您试图将包含空值的数据集传递到(例如,StandardScaler,PCA)时,会出现错误,和随机森林分类器
然而,我目前正在使用一种能够处理缺失值的估计器。这对于我的数据集来说相当重要,因为大多数数据段都至少缺少一个功能(因此删除
我正在使用sklearn将训练数据拆分为批。这样,我输入NN的每一批都将具有与训练集相同的类比例。或者换句话说,我想在每一批中保留与培训集相同的每个类的百分比
我感到困惑的是,对于每个迭代,每个批都有一点差异。虽然它也有类似的趋势,但它并不遵循训练集的确切百分比。为什么不给出确切的百分比
现在,我自己编写代码,以获得完全相同的百分比。假设您有11个点,并且想要70%的训练集。你得多少分
七点?那么是63.64%
八点?该比率为72.73%
StratifiedShuffleSplit有时需要7,
我有一个数据集,每个文档有一个标签,如下例所示
label text
pay "i will pay now"
finance "are you the finance guy?"
law "lawyers and law"
court "was at the court today"
finance report "bank reported annual share.."
在我的mac上,我安装了多个版本的Sklearn,如下所示:
Sklearn 0.19.1
~/anaconda2/pkgs/scikit-learn-0.19.1-py27h9788993_0/lib/python2.7/site-packages/sklearn
Sklearn 0.20.0
~/anaconda2/pkgs/scikit-learn-0.20.0-py27h4f467ca_1/lib/python2.7/site-packages/sklearn
启动jupyter时,它会
当我在scikit learn中训练SGDClassizer时,我可以打印出每次迭代的损失值(设置详细程度)。如何将值存储到数组中?根据此修改答案
通过sgdclassizer
old_stdout = sys.stdout
sys.stdout = mystdout = StringIO()
通过将verbose设置为1,将模型设置为打印其输出
clf = SGDClassifier(verbose=1)
clf.fit(x_tr, y_tr)
获取SGDClassizer详细信息的输出
我想训练一个多输出回归器,这样我的y_train就是一个可能包含未知值的矩阵(np.nan)。本机不支持多输出回归的多输出回归器适用于模型中的每个目标(对应于目标矩阵的列数)
我希望忽略目标中未知的值,即如果目标的第三个输出未知,则不应针对该实例训练与目标对应的回归器
例如:
给定特征向量(0.4,0.3,0.6,0.9)和相应的目标(0.3,np.nan),我想在本例中训练预测0.3的回归器,但忽略np.nan的回归器。有什么优雅的方法可以做到这一点吗
我正在尝试为一个csv文件构建一个隔离林,我从不同的大小值中预测“页面”。“pages”值当前为“low”和“high”,我已将它们编码为0和1,以便检测异常。然而,我不断地得到错误“File”/Library/Frameworks/Python.framework/Versions/3.8/lib/python3.8/site-packages/sklearn/employ/_-ifrest.py”,第312行
100. * 自污染)
TypeError:不支持*:“float”和“type”
我已经定义了一个定制的tansformer,它接受一个pandas数据帧,只在一列上应用一个函数,并保留所有剩余列不变。变压器在测试期间工作良好,但在我将其作为管道的一部分时,情况并非如此
这是变压器:
import re
from sklearn.base import BaseEstimator, TransformerMixin
class SynopsisCleaner(BaseEstimator, TransformerMixin):
def __init__(self):
这是我的密码:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
event_data = pd.read_excel("Jacob's Farming Contest.xlsx")
event_da
我读到它有一些数值稳定性错误,我想知道它是否已经准备好进入黄金时段 如果发生数值稳定性问题,可以很容易地检测到:您将在输出和/或模型的拟合参数中获得NaN值。如果发生数值稳定性问题,可以很容易地检测到:您将在输出和/或模型的拟合参数中获得NaN值。我决定为可能在谷歌搜索时崩溃的人收集此信息
正如scikit文档中所述,隐马尔可夫模型模块现在已被弃用:
警告:sklearn.hmm模块现在已被弃用,因为它不再与项目的范围和API匹配。计划在项目的0.17版本中将其删除。
现在是一个单独的项目,
我有一个关于在sklearn的文本分类中使用交叉验证的问题。在交叉验证之前对所有数据进行矢量化是有问题的,因为分类器会“看到”测试数据中出现的词汇表。Weka已经过滤了分类器来解决这个问题。此函数的sklearn等效值是什么?我的意思是,对于每个折叠,特征集都会不同,因为训练数据不同。这个问题的scikit学习解决方案是交叉验证估计器的管道,例如:
>>> from sklearn.cross_validation import cross_val_score
>>
所以我把我的语料库转换成了一个漂亮的word2vec矩阵。
此矩阵是具有负数和正数的浮点矩阵
我似乎无法用无限狄利克莱过程给出任何有连贯性的答案
示例输出[针对2个步骤]如下所示:
original word2vec matrix:
[[-0.09597077 -0.1617426 -0.01935256 ..., 0.03843787 -0.11019679
0.02837373]
[-0.20119116 0.09759717 0.1382935 ..., -0.08172
我是scikit新手,尝试在网站上学习教程:
我下载了数据集,并使用load_文件来加载它,但我一直在得到关于编码的错误。下面是它的加载方式:
twenty_train = load_files("./dataSet/20news-bydate/20news-bydate-train", description= None, categories=categories, load_content = True, encoding='utf-8', decode_error='strict',
按照我的理解,在创建一个随机森林的过程中,该算法将一组随机生成的决策树捆绑在一起,对它们进行加权,使它们适合于训练数据
可以将森林的平均值简化为一个简单的决策树,这合理吗?如果是的话,我如何访问和展示这棵树
我想在这里做的是提取树中的信息,以帮助识别前导属性、它们的边界值和在树中的位置。我假设这样一棵树将为人类(或计算机启发性)提供洞察数据集中的哪些属性为确定目标结果提供了最深入的洞察
这似乎是一个幼稚的问题——如果是这样,请耐心等待,我对这一点还不熟悉,我想进入一个能够充分理解它的阶段。Ran
整个数据集有80100万个样本,每个样本有200密集特征。我们经常用批处理来训练分类器。例如,我们采用clf=sklearn.linear\u model.sgdclassizer,然后我们可以使用clf.partial\u fit(batch\u data,batch\u y)用批数据拟合模型
在此之前,我们应该首先缩放批处理数据。假设我们使用平均标准化。因此,我们应该获得每个特征维度的全局平均值和标准偏差。然后,我们可以使用全局平均值和STD来缩放批次数据
现在的问题是如何获得整个数据集的均
我想使用scikit learn的svm.SVC估计器对多维时间序列执行分类任务——也就是说,在时间序列中,序列中的点取R^d中的值,其中d>1
这样做的问题是svm.SVC将只获取维度最多为2的ndarray对象,而这样的数据集的维度将为3。具体来说,给定数据集的形状将是n_个样本,n_个特征,d
有解决办法吗?一个简单的解决方案就是重塑数据集,使其成为二维数据集,但我认为这会导致分类器无法正确地从数据集学习。如果没有任何关于数据重塑的进一步知识,则最好是这样做。是一门非常手工的艺术,在很大程
我正在尝试对一个问题使用scikit learngridsearchcv,当sklearn的gridsearchcv方法中设置了n_jobs=-1时,它会出现一个PicklingError错误。我在论坛上搜索了一个解决方案,但没有找到多少有用的。错误似乎在多处理模块中,无法在并行处理环境中序列化对象。这里我没有使用任何自定义类,只使用标准的sklearn transformers和estimators。如果您能帮助解决此问题,我们将不胜感激。谢谢
import pandas as pd
impo
为了能够完全访问内部和外部分数,我想创建一个嵌套的cros验证和网格搜索,而不使用cross_val_分数
我在网上找到了这样的例子
我怀疑内巢是否正常。我不确定在调用GridSearchCV之前是否必须拆分数据:
for train_index_inner, test_index_inner in inner_cv.split(X_train_outer, y_train_outer):
X_train_inner = X_train_outer[train_i
我发现并成功测试了以下脚本,该脚本将Pipeline和GridSearchCV应用于分类器选择。脚本输出最佳分类器及其精度
import numpy as np
from sklearn import datasets
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import
想象一个简单的回归问题,在这里使用梯度下降。为了正确实现,您需要使用整个训练数据集的平均值来缩放值。假设你的模型已经训练好了,你给它另一个你想预测的例子。如何相对于以前的数据集正确地缩放它?您是否将新示例包括在训练集中,然后使用此训练数据集+新数据点的平均值对其进行缩放?如何以正确的方式实现这一点
通过引用新的数据点,我指的是模型以前从未见过的东西,无论是在训练还是测试中。如果训练集的缩放是针对整个集合而不是单个观察值进行的,那么如何处理传递给regr.predict()的任何对象的缩放
假设您
我尝试使用精度召回曲线从召回值(例如0.9)计算精度。我的方法是找到接近abs最小值的索引(idx)(回忆-0.9),然后找到精度(idx),我可以使用最小值两侧的插值来提高精度。不过,我认为一定有更好的办法。是否有一个函数可以从回忆中查找或插入预测,或从预测-回忆曲线中查找或插入预测
下面是我的代码。我试图找到更好的方法
from sklearn.metrics import precision_recall_curve
y_scores_lr = m.decision_function(X_
我正在尝试使用scikit learn中的IncrementalPCA。我真的需要算法的增量版本,因为我的应用程序是在线的。我的代码非常简单:
from sklearn.decomposition import IncrementalPCA
import pandas as pd
with open('C:/My/File/Path/file.csv', 'r') as fp:
data = pd.read_csv(fp)
ipca = IncrementalPCA(n_compon
我想在一个管道中级联4个步骤来构建一个有监督的分类器:
(1) 使用PCA进行降维,通过c列(组件)获得s行(样本)的矩阵_1
(2) 将(1)中的输出矩阵_1馈送到KMeans盲分离,以1列(组标签)获得s行(样本)的矩阵_2
(3) 水平连接(1)中的矩阵_1和(2)中的矩阵_2,通过c+1列(c分量加1个标签)获得s行(样本)的矩阵_3
(4) 将(3)中的输出矩阵_3输入MLP分类器的神经网络
因此,我的管道将如下所示:
Pipeline(steps=[('step1', PCA()),
我是yellowbrick的新用户。在yellowbrick ClassificationReport中实现sklearn LogisticRegression API时,我发现了一些异常错误。正如yellowbrick官方文件以及大多数数据科学社区用户(媒体等)所建议的那样,我尝试了许多语法,但仍然得到了相同的错误。虽然我得到了分类报告,但错误是相当恼人的
#Using yellowbrick library
from sklearn.linear_model import LogisticR
上一页 1 2 ...
8 9 10 11 12 13 14 ...
下一页 最后一页 共 40 页