我正在使用PyInstaller将我的应用程序捆绑到一个.exe文件中。
问题是它可以与--onedir选项配合使用,但在使用--onefile构建时找不到模块
--onedir和--onefile都表示在构建过程中:
<...>
INFO: Analyzing hidden import 'sklearn.utils.sparsetools._graph_validation'
<...>
onefile.spec
# -*- mode: python -*-
a =
当我使用以下选项训练an时:sgdclassizer(loss='log',class_weight=None,pould='l2'),训练将毫无错误地完成。
然而,当我在scikit learn v0.15上使用class_weight='auto'训练这个分类器时,我得到了以下错误:
return self.model.fit(X, y)
File "/home/rose/.local/lib/python2.7/site-packages/scikit_learn-0.15.0b1
我将GridSearchCV的参数设置为:
parameters = {'kernel':['rbf'], 'C':[1, 5, 0.5], 'gamma':[1, 5, 0.5]}
grid = GridSearchCV(SVC(), parameters)
grid.fit(dataset, targets)
然后grid.best_params_或grid.best_estimator_始终将列表中的第一个参数返回为最佳(即1和1)。如果我改变参数的顺序,将5放在“C”列表的顶部,那么最
我正在scikit学习中使用fit功能进行分类培训。
例如,在使用随机林时,通常使用以下类型的代码:
import sklearn
from sklearn.ensemble import RandomForestClassifier as RF
forest=RF(n_estimators=10)
forest=forest.fit(TrainingX,Trainingy)
不幸的是,我在使用Python 3时遇到以下错误:
C:\Anaconda3\lib\site packages\sk
我目前正在使用svc来分离两类数据(下面的特性是命名数据,标签是条件)。使用gridSearchCV对数据进行拟合后,我得到了大约0.7的分类分数,我对这个数字相当满意。之后,我使用grid.best_estimator_u.decision_function()获取每个类数据与超平面的相对距离,并将它们绘制在箱线图和直方图中,以更好地了解重叠的程度。我的问题是,在柱状图和箱线图中,这些看起来是完全分开的。我知道情况并非如此。我肯定我调用的decision_function()不正确,但不知道如
我现在正在做一个文本分类项目。首先,我使用Weka,它的SVM方法有一个归一化的多项式核,我使用该核得到了最好的结果。我正试图用sklearn完成同样的任务。我发现svm.SVC只有“poly”内核。那么,是否可以使用sklearn实现规范化多项式核呢
random_state = np.random.RandomState(0)
clf = svm.SVC(kernel='poly', gamma='auto', C = 2.0,decision_function_shape='ova',pr
我学习SVM,并将使用python sklearn.SVM.SVC实现SVM
据我所知,SVM问题可以用QP(二次规划)来表示
所以在这里我想知道哪个QP解算器用于解决sklearn SVM中的SVM QP问题
我认为可能是SMO或坐标下降算法
请让我知道sklearn svm中使用的确切算法,过去已经使用过现成的QP解算器,但多年来使用了专用代码(更快、更健壮)。这些解算器不再是(通用的)QP解算器,只是为这个用例构建的
sklearn的SVC是()的包装器
正如链接所说:
从版本2.8开始,
我对一个时代的理解是,它是指我们在整个训练过程中经历的次数。但是当我用verbose=true训练sgdclassizer时,我看到了下面的内容。它只是在5个纪元后重置,并再次从1开始计数。为什么会这样
以下是我如何实例化模型:
clf = linear_model.SGDClassifier(loss='log', verbose=True)
clf.fit(X_train, y_train)
以下是输出:
-- Epoch 1
Norm: 5.26, NNZs: 448659, Bias:
我尝试使用XGB进行增量学习,并使用Sklearn的MultiOutputRegressor进行包装,以获得多类回归:
# For instance
# X = np.zeros((1, 8)
# y = np.zeros((1, 32)
multi_model = MultiOutputRegressor(
xgb.XGBRegressor(objective='reg:squarederror')
).fit(X, y)
但是,如果我反复调
我想在预处理包中使用StandardScaler类,但我一直得到一个AttributeError:“module”对象在scikit learn 0.13上没有属性“StandardScaler”
预处理.\uuuu dict\uuuu不显示StandardScaler
我可以在同一个包中使用LabelEncoder类。python路径中的sklearn包可能是旧版本,而不是您安装的0.13版本。尝试:
python -c "import sklearn; print(sklearn.__fil
我正在查看上给出的示例代码
此脚本中有以下代码:
# in this case the seeding of the centers is deterministic, hence we run the
# kmeans algorithm only once with n_init=1
pca = PCA(n_components=n_digits).fit(data)
bench_k_means(KMeans(init=pca.components_, n_clusters=n_digits
我一直在尝试调用sklearn.feature\u extraction中的dictvectorier
import numpy
import scipy
import sklearn
from sklearn.feature_extraction import DictVectorizer
然而,它给出了以下错误
Traceback (most recent call last):
File "<pyshell#5>", line 1, in <module>
我想对标准普尔500指数实现K-最近邻算法来预测未来价格,并通过scikit学习库用python开发定量算法交易模型。
虽然我对kNN算法有基本的了解,但我完全是python机器学习编码的新手,所以如果有人能帮助我,我很高兴
这是我的模拟逻辑
资产:标准普尔500指数月度价格(可与ETF投资)
逻辑
每个月末根据kNN算法预测下个月的价格方向(上涨或下跌)--->预测上涨:买入标准普尔500指数,下跌:持有现金(假设年回报率为3%)
训练数据集:最近滚动的12个月数据(训练数据集随着时间的推移
假设我们使用TFIDF转换将文档编码为连续值特征
我们现在如何使用它作为朴素贝叶斯分类器的输入
伯努利朴素贝叶斯(Bernoulli naive bayes)被淘汰了,因为我们的功能不再是二进制的了。
似乎我们也不能使用多项式朴素贝叶斯,因为这些值是连续的而不是绝对的
作为替代方案,是否适合使用高斯朴素贝叶斯?在高斯分布假设下,TFIDF向量是否可能保持良好
sci工具包中关于MultionomialNB的学习文档建议如下:
多项式朴素贝叶斯分类器适合于分类
具有离散特征(例如,文本分类的字数)
有人知道我如何删除下面的错误吗
NameError Traceback (most recent call last)
<ipython-input-31-d3625a93ead4> in <module>()
11 loo = LeaveOneOut(num_of_examples)
12 for train_index, test_index in loo:
---> 13
我试图用t-SNE来可视化神经网络(在Keras中实现)的输出。调用fit\u transform时,我会得到一个MemoryError。目前我正在Windows 10上运行我的代码
代码:
您需要将输出大小减小到系统可以处理的值
除此之外,您还可以使用主成分分析(PCA)来降低输出的维度,然后再将其输入t-SNE。请参见此处:Windows或Unix?@mkaran Windows在输出中有多少预测?你试过更少的样品吗?你试过用主成分分析法来降低维度吗?你认为我们能做什么?谁知道输出有多大?对
我正在尝试使用scikit learn提供的函数训练一个用于评估棒球运动员的决策树分类器。然而,我想提前“预先指定”或“强制”一些拆分,这是基于我所知道的关于专家思考方式的真实情况(无论如何都需要合并)。例如,我想基于打击平均值>0.300强制分割
一个相关的问题是——我是否可以“预加载”一个先前训练过的决策树模型,然后在后续训练中“更新”它?还是每次运行决策树分类器时都需要重新学习所有规则?我在这里试图做的类比是转移学习,但应用it决策树。我预先指定拆分的方法是创建多棵树。将玩家分成两组,平均
我训练了一个垃圾邮件过滤模型
我用这行代码得到了混乱矩阵
tn, fp, fn, tp= confusion_matrix(targets, predictions).ravel()
分类标签如下所示:
targets = test_set['S'].values
S值是每个电子邮件的分类标签
这就是结果
我在任何时候都不会指明哪一类是正的,哪一类是负的。。我如何知道哪个是哪个(垃圾邮件被认为是积极类) 我有多个模型,支持向量机,朴素贝叶斯和决策树显示你的目标和预测。它们将按字母顺序进行
我知道kNN搜索会随着问题维数的增加而表现得更差。我知道对于kNN搜索,20被认为是相当高的维度。我不知道的是,在第3个(我知道kNN工作得很好)和第20个(我知道kNN工作得不太好)之间,它到底从哪里开始变得糟糕
假设一个平衡良好的树,有人知道平均查询速度与大约1到20个维度之间的维度有什么关系吗
就不同的kNN算法产生的结果而言,我对此很感兴趣,但您可以假设Scikit学习实现为kNN作为问题的基线。性能在很大程度上取决于您使用的数据类型(以及scicit学习使用的任何索引)。
有关简短示例
在sklearn的RF fit函数(或most fit()函数)中,可以传入“sample_weight”参数来称量不同的点。默认情况下,所有点的权重相等,如果我传入一个1s的数组作为样本权重,则它确实匹配原始模型,而不带参数
但是如果我传入一个0.1s或1/len(数组)的数组作为样本权重,它会改变模型(现在预测不同),尽管点的权重仍然相等。这是令人不安的,因为减肥似乎很重要。那么,什么是适当的缩放方式,以便我有一个独特的解决方案
示例如下:
import numpy as np
from s
我有一些标签(A、B、C、H、H1、H2等),但是当我安装MultiLabelBinarizer时,它将H1拆分为H和1。
有人能告诉我,除了把H1标签换成另一个标签外,这个问题还有什么解决办法吗。
多谢各位
mlb = MultiLabelBinarizer()
labels = pd.DataFrame(mlb.fit_transform(df['LABELS']),columns=mlb.classes_)
解决方案是添加所有可能的标签。这意味着您应该将可能的标签保存在excel文件
我试图使用Scikit learn的LinearRegression类执行插值,但结果似乎是错误的。其思想是使用多项式拟合,拟合次数等于观测次数减1。这将使线性回归估计产生插值。然而,线性回归不能给出插值解
完整代码:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import Polyn
为了检查我的工作,我一直在比较scikit learn的SGDClassizer logistic实现与statsmodels logistic的输出。一旦我加上一些l1和分类变量,我会得到非常不同的结果。这是不同解决方案技术的结果,还是我没有使用正确的参数
在我自己的数据集上差异更大,但使用mtcars时仍然相当大:
df = sm.datasets.get_rdataset("mtcars", "datasets").data
y, X = patsy.dmatrices('am~st
我在scikit学习中使用随机森林,我想知道有什么方法可以获得特性的p值?
我知道我可以使用feature_importances_来获得特征的重要性,但我需要有p值。同样与系数类似(使用线性回归),我需要知道特征如何影响预测,预测值如何随每个特征的变化而变化。您要查找的是Z分数。不确定是否在scikit中实现。为了研究你的映射曲率,你可以尝试部分依赖图或者密切相关的灵敏度分析或者。。。。一个无耻的建议:)跳转到R并尝试我的包forestFloor来可视化随机森林。我们也有z-score:据我所
我有一个自定义距离度量,需要用于KNN,K近邻
我试着跟随,但由于某种原因,我无法让它工作
我假设距离度量应该采用两个长度相同的向量/数组,如下所述:
import sklearn
from sklearn.neighbors import NearestNeighbors
import numpy as np
import pandas as pd
def d(a,b,L):
# Inputs: a and b are rows from a data matrix
我想知道我是否可以在xgboost中进行校准。更具体地说,xgboost是否与scikit learn中的现有校准实现类似,或者是否有一些方法将xgboost中的模型放入scikit learn的校准分类RCV中
据我所知,在sklearn中,这是常见的程序:
# Train random forest classifier, calibrate on validation data and evaluate
# on test data
clf = RandomForestClassifier
基于和增量PCA文档,它建议使用memmap数组,但是否可以使用dask完成相同的任务
更新将问题扩展到包括其他部分拟合算法,因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法,但我似乎在API中找不到相关文档。当我尝试对6000x250000 float64dask数据帧进行增量pca时,在不调整dask调度程序的情况下,在16核104GB虚拟机上花了8个小时取得了9%的进度,但我不确定这是否是由于我的代码太差,或者对于这样大小的数据集,这是否
在for sklearn.neights.KDTree中有内存消耗的描述:
存储树比例所需的内存量约为n_样本/叶大小
这是否意味着当叶子大小变大时,存储树所需的内存会减少
我认为leaf_size指定树中有多少个叶节点,因此如果有很多节点,内存就会增长。我是不是想错了?leaf\u size参数指定在树的“分支”底部的终端“leaves”中存储了多少条目。另一种说法是,将您的查询与之进行详尽比较的“邻居”的数量
如果您有一个较小的叶大小。树需要更大,因此它增加了存储树的内存需求
实际上,lea
标签: Scikit Learn
regressionnormalizationlinear-regressionstatsmodels
我已经对我的数据进行了标准化,并应用回归分析来预测产量(y)。
但我的预测输出也给出了归一化(0到1)
我希望我的预测答案是正确的数据,而不是0到1
数据:
接下来,我将使用以下代码规范化数据:
from sklearn.preprocessing import Normalizer
import pandas
import numpy
dataframe = pandas.read_csv('/home/desktop/yield.csv')
array = dataframe.values
有没有办法为xgboost分类器设置不同的类权重?例如,在sklearn RandomForestClassifier中,这是通过“class_weight”参数完成的 使用sklearn包装器时,有一个权重参数
例如:
import xgboost as xgb
exgb_classifier = xgboost.XGBClassifier()
exgb_classifier.fit(X, y, sample_weight=sample_weights_data)
其中参数shld类似于数组
标签: Scikit Learn
classificationcross-validationconfusion-matrix
我想知道是否有一种简单的方法(除了显式实现之外)来计算不同分裂上的混淆矩阵,比如:
>> cross_val_score(grid_search_CV, X_train, y_train, scoring=make_scorer(confusion_matrix))
make_scorer用于分配一个分数,根据该分数,不同参数的不同cv折叠可以相互比较。所以在混乱矩阵中是不可能的,但是你可以使用类似于在
我已经知道如何在model.fit()中使用tensorboard,当我移动到KerasClassifier时,我不知道如何使用它,我的代码:
import keras as keras
import numpy
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_
我正在做一个简单的二元分类,我给你们举一个我遇到的问题的例子:假设我们有n文档(文档1,文档2,…,文档n)。我们将使用TF-IDF作为特征值,使用单词包训练二元分类器。我们的培训文件具有m功能(从技术上讲,m是我们在清理和预处理后在所有这些n个文档中拥有的唯一标记的数量)
现在,假设我们有一个经过训练的模型,我们将预测一个新文档的标签。我们首先应该像对待培训文档一样对测试文档进行预处理。然后,我们应该使用TF-IDF为测试文档构建一个特征向量。这里有两个问题:
对于训练集和测试集,特性的数量
我试图获得我的数据集中哪些特征会影响主成分,并试图观察我的数据如何与我的内核PCA算法相匹配。
我试图使用纪录片中存在的X_transformed_fit_属性,但我得到了以下错误:AttributeError:“KernelPCA”对象没有属性“X_transformed_fit”
我的KPCA代码如下:
from sklearn.decomposition import KernelPCA
kpca = KernelPCA(n_components = 2, kernel = 'cosine
我试图使用sklearn.metrics.davies_bouldin_分数评估聚类kmeans模型。我正在使用GoogleColab和运行时Python 3和GPU加速器
我得到了这个错误:
模块“sklearn.metrics”没有属性“davies_bouldin_score”。
我尝试过以不同的方式导入度量包,正如一些人建议的那样,从sklearn import metrics和导入sklearn.metrics。这没什么区别
我还更新了sklearn软件包!pip安装--升级skle
我目前正在使用在Scikit learn中实现的简单监督分类器对图像执行基于像素的分类。首先将图像重塑为单像素强度的向量,然后按照以下步骤进行训练和分类:
来自sklearn.linear\u模型导入SGDClassizer
分类器=sgdclassizer(详细=True)
fit(训练数据、训练目标)
预测=分类器。预测(测试数据)
基于像素的分类的问题在于产生的分类图像的噪声性质。为了防止这种情况,我想使用Graph Cut(例如Boykov-Kolmogorov实现)来考虑像素之间的空
我正试图将我的lat-long数据聚类并划分为12个不同的区域,但是kmeans算法把时间搞砸了。我只试了两个集群,结果坏得很厉害(附图),12个集群都不能正常工作。我知道kmeans对噪音很敏感,我也把它清理掉了
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from collections import Counter
df =
我正在机器学习项目中使用随机森林回归器。为了更好地理解预测的逻辑,我想可视化一些决策树,并检查在预测时使用了哪些功能
为此,我编写了以下代码:
from sklearn.tree import export_graphviz
from subprocess import call
from IPython.display import Image
# Select one estimator from the Random Forests
estimator = best_estimators
标签: Scikit Learn
classificationconfusion-matrixprecision-recall
现在我知道很多人问过这个问题,但是,我仍然不太了解sklearn库输出的精确度和回忆分数。以下是示例输出:
如果可能的话,有人可以用你能掌握的最简单的语言用以下方式回答我的问题:
-精度0.95 False表示模型的精度是多少?
-精度0.56 True表示模型的精度是多少?
-召回0.88 False对该型号意味着什么?
-回忆0.76 True对于该型号意味着什么?
提前谢谢 您有两个不同的类:True或False。想象你有像苹果一样的真和像桔子一样的假
召回是一个指标,它让我们了解相对于
在SKLearn包中,Tweedie回归器只有“标识”和“日志”链接功能。我正在进行泊松GLM拟合,希望使用“softplus”(log(1+exp(x))的倒数)链接函数来克服“log”链接的溢出问题。在这里可以实现用户定义的“softplus”链接吗?提前谢谢
我越来越
AttributeError:'KMeans'对象没有属性'inertia'
我试图使用k均值找出波士顿数据上适当数量的聚类,k均值在模型拟合时创建惯性等属性;但是在这里,您没有调用.fit方法,因此出现了错误
在调用kmeans.惯性之前,需要使用数据运行kmeans.fit();以下是使用sklearn的波士顿数据的完整示例:
从sklearn.cluster导入KMeans
从sklearn.dataset导入加载
将matplotlib.pyplot作为plt导入
十、 y=
我正在尝试使用逻辑回归模型对一些脑电图数据进行分类(这似乎是我数据的最佳分类)。我拥有的数据来自多通道EEG设置,因此本质上我有一个63 x 116 x 50的矩阵(即通道x时间点x试验次数(有两种试验类型为50),我将其重塑为一个长向量,每个试验一个
我想做的是在分类之后,看看哪些特征在对试验进行分类时最有用。我该如何做,是否有可能测试这些特征的重要性?例如,说分类主要由N个特征驱动,这些是特征x到z。因此,我可以举个例子说,在时间点90-95对分类具有重要意义
那么这是可能的还是我问错了问题
我正在使用LinearSVC将文本数据分为3类。输入数据是每个单词的tfidf分数。我很想看看单词对分类的“贡献”。第一个问题是我能用coef_u来做这个吗?文件规定:
系数:数组,形状=[n_特征]如果n_类==2,则其他[n_类,n_特征]
因此,我假设“n_类”对应于文档可以分类到的3个类中的每一个,n_特征是我的tfidf特征的系数值。假设是这样的话,coef_中类的顺序是什么?如何将数组中的每一行与我的一个类相匹配
谢谢
尼克如果不深入研究源代码,我相信您的问题有两个答案:
这些类被分
我试图把电影分为两类。我得到了这部电影的情节大纲和类型。当我使用TFIDFvectorier时,为了将我的概要转换为功能,我需要使用电影的类型作为一个单独的功能
目前,我只是在大纲的文本中添加体裁,并将其输入分类器
问题在于,这两种特征是不同的。当这些词被转换成tfidf矩阵时,我觉得应该以不同的方式对待这一类型,而不仅仅是像其他任何词一样。还有什么我可以做到的吗?您应该使用,对于每个可能的分类功能(流派),它会创建新的二进制功能,并且仅当您的电影来自该流派时,才会在相应的功能上设置1
from
当访问决策树中某个节点的tree\uU.threshold时,类型似乎是float。有没有办法将阈值的“精度”设置为整数?
在我的例子中,这些特性都是整数值,因此不需要对以这种精度定义的值进行拆分。否,scikit学习树在编译时为阈值使用double类型(请参阅)。固定的数据类型允许生成高效的C代码。您必须更改scikit学习源代码,从Cython.pyx文件重建C扩展名,然后安装修改后的scikit学习使用整数阈值。在引用的_tree.pyx文件中:来自numpy import float32
这段代码的问题是我给了分类器,
一个热编码数据:
指:
X-train,X-test,y\u-train,y\u-test是一种热编码。
但分类器正在预测输出:
y\u pred\u测试,y\u pred\u列车以数字形式
(我认为这也是不正确的)。有人能帮忙吗?
这是一个虚拟示例,因此不必担心低精度,只需知道为什么它不是以一种热编码形式预测输出。
谢谢
分类器正在预测一个类的概率。如果您想要最终预测,请使用:y_pred.argmax(axis=-1)对不起,我不理解您的建议。y_测试是[[
使用Google Colab可视化决策树的最佳方法是什么?“dtreeviz”(例如)的可视化效果非常好,但在运行类似
!pip install dtreeviz
及
接
classifier = tree.DecisionTreeClassifier(max_depth=4)
cancer = load_breast_cancer()
classifier.fit(cancer.data, cancer.target)
viz = dtreeviz(classifier,
我正在尝试将cross_val_score()应用于以下算法:
cgnet = algorithms.LevenbergMarquardt(
connection=[
layers.Input(XTrain.shape[1]),
layers.Linear(6),
layers.Linear(1)],
mu_update_factor=2,
mu=0.1,
shuffle_data=True,
我看到sklearn文档中提到了transformer和estimator
这两个词之间有什么区别吗?基本区别是:
Transformer以某种方式转换输入数据(X)
估计器使用输入数据(X)预测一个(或多个)新值(y)
变压器和估计器都应该有一个fit()方法,可以用来训练他们(他们学习数据的一些特征)。签名为:
fit(X, y)
fit()不返回任何值,只将学到的数据存储在对象中
这里,X表示样本(特征向量),y是目标向量(在X中,每个对应样本可能有一个或多个值)。请注意,y在一些变
我目前正在用ScikitLearn中的两个类处理一个分类问题,使用解算器adam和激活relu。为了探索我的分类器是否存在高偏差或高方差,我使用Scikitlearns内置函数绘制了学习曲线:
我使用的是一个包含8个拆分的Group-K_折叠交叉验证。
然而,我发现我的学习曲线强烈依赖于分类器的批量大小:
应该是这样吗?我认为学习曲线处理的是依赖于独立于任何批次/时期的训练数据部分的准确性分数?我是否可以将此内置函数用于批处理方法?如果是,我应该选择哪个批次大小(完整批次或批次大小=培训示例
上一页 1 2 ...
11 12 13 14 15 16 17 ...
下一页 最后一页 共 40 页