在scikit学习中运行线性_模型.lars_路径(模型='lasso')时,我对套索路径的行为感到困惑
我认为,一旦权重(系数)变为活动状态(从0开始的差异),它必须在LARS算法的所有后续步骤中保持活动状态
当在我的数据上运行算法时,我注意到有时系数会变为活动的,然后它会变为零(从活动集中删除)。这是LARS算法的正确行为,还是scikit学习实现中存在错误 对于L1正则化版本的LAR来说,这是正确的行为(L1正则化回归通常被称为“套索”)
在L1版本中,如果沿LAR路径的步骤导致数据矩阵的
我试图从一组文本文档中获取单词共现矩阵。我不想自己创建矩阵并处理它们,而是想知道scikit中是否有一种方法可以从文档列表中获取单词共现矩阵
任何指向相关类的指针都将不胜感激 嗨,输出格式是什么?它是一个矩阵,其中每个条目(i,j)是单词i和j的共现计数吗?
当使用随机森林回归器(或任何集成学习器)时,处理缺失分类特征值的一般准则是什么?我知道scikit learn具有插补功能(如平均值…策略或接近度)来插补缺失值(数值)。但是,人们如何处理缺失的分类价值:比如工业(石油、计算机、汽车,无),专业(学士、硕士、博士,无)
欢迎提出任何建议。随机森林的发明者布雷曼和卡特勒提出了两种可能的策略(见):
随机林有两种替换缺失值的方法。第一条路
速度很快。如果mth变量不是分类变量,则该方法计算
j类中该变量所有值的中值,然后使用
此值用于替换类中mth变
例如,我有一个向量x,而a是它最近的邻居。然后,b是它的下一个近邻。Pyton或R中是否有任何包输出类似于[a,b]的内容,这意味着a是其最近邻(可能通过多数票),而b是其第二最近邻。这正是这些度量树的构建目的
您的问题是,您正在使用sklearn(根据您所使用的度量标准,考虑BallTree)来询问一些简单的问题:
将numpy导入为np
从sklearn.KDTree导入
X=np.数组([[1,1],[2,2],[3,3]])#2维中的3个点
tree=KDTree(X)
dist,ind
我在这里有点困惑,我对所有
我有以下两个数据帧,比如说df1
a b c d
0 0 1 2 3
1 4 0 0 7
2 8 9 10 11
3 0 0 0 15
和df2
a b c d
0 5 1 2 3
我感兴趣的是对df1中的每一行和df2中的单行进行成对操作。但是,如果df1行中的一列为0,则该列在df1行和df2行中都不用于执行成对操作。因此,每个成对操作将在不同长度的成对行上工作。让我把它分解成
当我尝试在jupyter笔记本中导入sklearn时,我收到如下错误消息:
FileNotFoundError Traceback (most recent call last)
<ipython-input-2-ae13d4c4c2fb> in <module>
1 # Scikit-Learn ≥0.20 is required
----> 2 import sklearn
3 assert
如果一个被记忆的函数从两个作业并行调用,会发生什么?一个调用的结果被保存,另一个被检索,或者两个调用都在不使用彼此结果的情况下运行?还是根本不支持这种情况
在文档中找不到对此的引用如果结果已被计算并保存(由同一进程或并发进程保存),则可重复使用该结果
如果两个并发进程第一次计算相同的结果,则要完成的第一个进程将结果保存在驱动器上以供以后重用,第二个进程第一次使用自己的计算结果,以后可以重用缓存的结果
此外,在Python程序结束后,缓存会保留在硬盘上,以便以后重新启动相同的脚本/程序时可以重用它
我有一个关于sklearn的特定技术问题,随机森林分类器
使用“.fit(X,y)”方法拟合数据后,
有没有办法提取实际的树
从估计器对象,以某种常见格式,因此“.predict(X)”
方法可以在python之外实现?是的,林的树存储在
森林物体
您可以查看export\u graphviz
函数了解如何编写自定义导出器:
以下是此功能的使用说明:
是的,并且@ogrisel answer使我能够实现以下代码片段,它允许使用(部分训练的)随机林来预测值。如果要交叉验证随机森林模型的树数,可以
如何在scikit learn中为随机林使用高维特征?
我打算使用10维特征向量和向量之间的马氏距离。根据基尼和熵标准,可以生长分类树。但是,您可以自己编写一个新标准并使用它。我不理解这个问题。10维特征向量并不是真正的高维。另外,您打算如何将马氏距离用于随机林?随机林由决策树组成。树的每个节点都是基于比较的决策。对于每个比较,我们需要一个距离。我打算使用马氏距离来寻找特征向量之间的距离,并将它们用于决策树。
我正在尝试使用scikit中的线性回归拟合线性模型。从预测函数中,我得到一个点估计预测,但我需要一个可能值的分布,其中预测的点值可能是高斯分布的平均值。我想知道是否有一种方法可以从任何scikit模型中获得这样的分布。我检查了方差分数,但无法找出将其映射到方差的方法。
请提供帮助。如果您拟合的数据实际上来自线性高斯过程,并且您用来拟合的样本集足够大,并且被高斯噪声破坏,那么您可以从线性回归对象的score()方法返回的R^2系数中获得预测的分布。R^2是1-(预测误差的方差)/(y的方差)。因此
我有一个sklearn.svm.SVC对象,并通过一些数据对其进行训练。现在我需要得到
v = TfidfVectorizer()
train_data = v.fit_transform(data)
clf2 = SVC(kernel='linear')
clf2.fit(train_data, train_target)
print clf.coef_
为了得到集合中最有价值的单词,我需要得到clf2.coef uf稀疏矩阵的绝对值。如何通过绝对值获得前N个单词
调用model.fit(X,y);model.get_params()返回初始化内核时使用的值。如何获取训练模型的超参数 前面提到的model.get_params()将返回传递到GPR初始化中的参数
它使用model.kernel.优化传递的内核内部参数
有关更多详细信息,请参阅文档和相关示例
我将第一次使用朴素贝叶斯进行文本分类。
我在以下网站上找到此代码:
我想解决一个关于传递给函数fit()的参数X\u train\u tfidf,tworn\u train.target的疑问
X_train_tfidf是序列集中所有文档的tfidf向量表示
目标是文档的相应标签,其顺序与X\u train\u tfidf集合中显示的顺序一致
我说的对吗?简短的回答:是的
详细回答:这适用于使用API找到的每个fit方法。给定维度为[m,n]的文档的矩阵X,目标向量Y将具有维度[n,1],并且文
[[1 0 1][1 0 1][0 1 0][0 1 0]]
feature0有值男性和女性,为什么一个热输出三个cols和columntransformer?首先,欢迎使用StackOverflow。根据社区的建议,建议在源代码中加入上下文,以便获得正确的响应。首先请检查文档,欢迎来到StackOverflow。根据社区的建议,建议在源代码中加入上下文,以便获得正确的响应。请检查文件
from sklearn.preprocessing import OrdinalEncoder
from s
我正在处理一个回归问题,希望评估使用不同标准化方法的效果(StandardScaler,RobustScaler,Normalizer,…)。
稍后,我还想评估处理缺失数据的不同方法(SimpleImputer,IterativeImputer)
这是我目前的设置
# Create some dummy data
X = pd.DataFrame({
'x1': np.random.rand(1000)*123 - 83,
'x2': np.random.rand(1000)*2
我一直在试验iris数据集,希望创建一个混淆矩阵。我创建混淆矩阵的代码如下:
from sklearn.metrics import confusion_matrix
mat = confusion_matrix(ytest, y_model)
sns.heatmap(mat, square=True, annot=True, cbar=False)
plt.xlabel('predicted value')
plt.ylabel('true value');
结果在顶部和底部都被切断了。
我想用Keras的序列模型来预测序列。我的数据帧包含字符串数据,因此我决定使用sklearn库中的LabelEncoder对字符串数据进行编码
我尝试了以下代码片段:
import pandas as pd
df = pd.read_csv("sample-03.csv")
from sklearn.preprocessing import LabelEncoder
df.apply(LabelEncoder().fit_transform)
给出这个结果:
此标签编码
我有一个类似这样的sklearn管道
您会注意到重复的步骤,features\u to\u vectorize,位于FeatureUnion的左侧和右侧功能向量化是对数据帧列应用指令向量化器的结果。然后,我想将特性\u矢量化,并将其与自身的转换连接起来。我当前的设置复制了转换,因为我不确定如何在features\u\u矢量化处创建一个fork,在那里我可以为该数据创建一个传递,但也可以对该数据应用转换,然后再对其应用FeatureUnion转换。有没有办法更好地设置它以避免重复计算?谢谢
su
我一直在自学和实践sklearn library。当我参加Kaggle竞赛时,我注意到提供的示例代码使用了sklearn.base中的BaseEstimator。
我不太明白如何/为什么使用BaseEstimator
from sklearn.base import BaseEstimator
class FeatureMapper:
def __init__(self, features):
self.features = features #featur
为了在大约400 MB的文本数据中运行NB分类器,我需要使用矢量器
vectorizer = TfidfVectorizer(min_df=2)
X_train = vectorizer.fit_transform(X_data)
但这是一个内存不足的错误。我正在使用Linux64,它是python的64位版本。人们如何在Scikit for large data set(文本)中完成矢量化过程
回溯(最近一次呼叫最后一次):
文件“ParseData.py”,第234行,在
main()
文
我试图用k-均值聚类1000维250k向量。我正在工作的机器有80个双核
只是确认一下,是否有人比较了k-means默认批处理并行版本和k-means迷你批处理版本的运行时间?关于sklean的文档没有提供太多信息,因为数据集非常小
非常感谢你的帮助
在这方面,认为小批量K-Means对于10000个以上的样本应该更快、更有效。由于您有250000个样本,如果您不想自己测试,您可能应该使用mini-batch
请注意,通过更改此行中的n_样本,可以很容易地将示例更改为5000点、10000点或2
我想知道sklearn函数sklearn.linear_model.Lasso中参数“selection”的作用
我猜这个参数设定了套索解算器的优化方式,但我想知道它到底是如何工作的。我读了这些文件,但我没有完全理解
你能解释一下吗
选择=‘循环’与选择=‘随机’之间有什么不同?与随机坐标下降之间有什么不同。它一次循环一个特征(即坐标),使每个坐标的成本函数最小化
通过所有特征协调下降循环:
随机化随机选择每个特征:
在sklearn中使用它。很酷。多亏了你,我才知道坐标下降是什么!非常感谢
我有一个不平衡的tweet数据集,标记为-1,0,+1。
我想通过上采样来平衡数字。我收到以下错误:
tweet_train=tweet_train.reshape(-1, 1)
X_train_upsample, y_train_upsample = SMOTE(random_state=42).fit_sample(tweet_train, y_train)
无法将字符串转换为浮浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将字符串转换为浮式:无法将151575日日日日日方方方
例如,库中的信息可能很有用,它允许用户选择所有基于树的集成模型,这些集成模型处理具有多个输出的回归/分类器任务
我认为用户可以在图书馆中逐渐创建这些元数据,如果它还不存在的话
比如:
[model_entry for model_entry in sklearn.meta_info if model_entry.2d_y and model_entry.ensemble]
但是有更好的名字 您可以随时使用estimator标签获取此类信息:这正是我要搜索的内容。
嗨,我正在练习ML模型,在尝试预测看不见的数据时遇到了问题。
对分类数据执行onehotencoding时出错
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_x_1 = LabelEncoder() #will encode country
X[:,1] = labelencoder_x_1.fit_transform(X[:,1])
labelencoder_x_2 = LabelEncod
这里,best_model_lda是一个基于sklearn的lda模型,我们正试图为该模型找到一致性分数
coherence_model_lda = CoherenceModel(model = best_lda_model,texts=data_vectorized, dictionary=dictionary,coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\n Coherence Sco
我正在使用HistGradientBoostingRegressionor
我的代码:-
X_train, X_test, y_train, y_test = train_test_split(Train, target, test_size=0.2, random_state=16)
model = HistGradientBoostingRegressor(learning_rate = 0.1,
max_ite
标签: Scikit Learn
scipypython-3.7pearson-correlationmean-square-error
每次运行训练数据集、预测测试集上的值,然后计算相关系数和MSE值的同一段代码时,值都会发生变化,这正常吗?为什么会发生这种情况
import pandas as pd
from sklearn import tree
from scipy.stats import linregress
training = pd.read_csv('csvfile1.csv') #training data set
target = pd.DataFrame(training, columns=['ta
我是python的Nmf新手。我试图创建一个图像列表,然后获取组件。代码如下:
from skimage import color
from skimage import io
import matplotlib.pyplot as plt
f=color.rgb2gray(io.imread('f.jpg'))
e=color.rgb2gray(io.imread('e.jpg'))
images2= (e,f)
from sklearn.decomposition import NM
请帮助我解决我的问题。我不为这些问题工作
代码如下:
下面是错误:
您基本上没有安装sklearn库。。因此,首先使用下面的命令安装sklearn
pip安装sklearn
然后运行代码,它将解决您的问题。如果您的电脑上已经安装了PIP,那么只需运行一个命令PIP install sklearn,就可以轻松安装sklearn模块。你可以参考https://scikit-learn.org/stable/install.html.
否则您将需要安装pip。参考https://phoenixnap.
作为一个玩具问题,我的数据具有均匀和独立的噪声,因此我想定义一个新的噪声鲁棒损失函数。它看起来像是沿着
L=[(1-p)L(t,y)-pl(t,y)]/(1-2p)
其中x是我的数据中损坏的度量,l是我们的标准(例如日志丢失)损失。我不知道如何从scikit learn中更改SVM中的损失函数。任何指针都会有帮助吗
当我运行教程中的以下代码时,我几乎每次尝试的视频都会在结尾处出现以下错误
资料来源:
我得到以下错误:
from sklearn import preprocessing, cross_validation
ImportError: cannot import name 'cross_validation' from 'sklearn
我进行了pip安装,根据其他建议改变了交叉验证的方式,但我仍然无法解决它。我在sklearn中找不到作为库的交叉验证
您需要使用sklearn.model_s
我不理解scikit learn中的覆盖率错误是如何计算的,可在sklearn.metrics模块中找到。文件中的说明如下:
coverage_error函数计算最终预测中必须包含的标签的平均数量,以便预测所有真实标签
例如:
import numpy as np
from sklearn.metrics import coverage_error
y_true = np.array([[1, 0, 0], [0, 1, 1]])
y_score = np.array([[1, 0, 0], [
我正在scikit学习中构建决策树。搜索stackoverflow可以找到一种方法来提取与每个叶关联的规则。现在我的目标是将这些规则应用到新的观察中,看看新的观察结果会怎样
这是一个抽象的例子。假设我们得到了叶1的规则。a7,则观察属于叶#1。现在,我想做一个新的观察,并将这些规则应用到它身上,以检查它最后是什么叶子
我试图使用决策树进行分割 可以找到将决策树分类器与scikit学习结合使用的示例。该示例包括训练分类器和验证第二个数据集的结果
将经过训练的决策树应用于新数据样本时,可使用返回结果
我尝试运行时遇到以下错误:
from sklearn.neural_network import MLPClassifier
错误:
from sklearn.neural_network import MLPClassifier
Traceback (most recent call last):
File "<ipython-input-77-6113b65dfa44>", line 1, in <module>
from sklearn.neural_netwo
我尝试用RFECV进行特征选择,但每次都会给出不同的结果,交叉验证是将样本X划分为随机块还是顺序确定块
另外,为什么网格分数和scoreX,y的分数不同?为什么分数有时是负数?交叉验证是将样本X划分为随机组块还是顺序确定组块
默认情况下,CV将数据划分为确定性块。您可以通过将shuffle参数设置为True来更改此行为
但是,如果y是二进制或多类,则使用sklearn.model_selection.StratifiedKFold
这意味着它将分割数据,使每个折叠具有相同或几乎相同的类比率。为了
我试图复制本文中报告的超参数调优示例,但我希望在我的培训应用程序中使用scikit learn XGBoost而不是tensorflow
我能够在一个作业中运行多个试验,针对每个hyperparameters组合。但是,ML引擎返回的训练输出对象不包括finalMetric字段,该字段报告度量信息(请参见下图中的差异)
我从上面的链接示例中得到:
使用XGBoost运行我的培训应用程序得到了什么:
XGBoost是否有办法将培训指标返回到ML引擎
根据文档中的规定,tensorflow的此过
我有LinearSVC算法,可以预测股票的一些数据。它有90%的acc评级,但我认为这可能是因为一些y的可能性比其他的大得多。我想看看是否有一种方法可以确定,对于我定义的每个y,y的预测准确度有多高
我在文档中没有看到过类似的内容,但拥有它是有意义的。您可以使用SciKit中实现的表示,在每个属性的分类问题的预测值和实际值之间生成精度矩阵。对角线表示原始精度,可以很容易地转换为百分比精度。如果您真正想要的是信心的度量,而不是实际的概率,您可以使用方法LinearSVC.decision\u fu
标签: Scikit Learn
classificationgrid-searchhyperparameterssmote
我使用一个不平衡的数据来使用scikit learn进行分类,为了提高模型的准确性,我使用SMOTE技术创建了更多的合成数据。
我想知道用GridSearch实现超参数优化的最佳时机。
我应该只使用原始数据还是原始+合成数据 您是在谈论如何将SMOTE这样的过采样方法与sklearn的GridSearchCV结合使用吗?我做这个假设是因为你的帖子上有一个scikit学习标签
如果是这样,您可以使用管道对象将过采样的SMOTE数据传递到GridSearchCV。如果您希望通过GridSearchC
我正在使用sklearn AdaboostClassifier和DecisonTreeClassier测试UCI存储库中的鲍鱼数据集。我刚刚检查了DecisonTreeClassifier的性能,最大深度为1,我发现它总是>80%,我如何使用这样的树作为弱学习者
对于决策树,我使用max_depth=1和splitter='random',从文档中,“random”表示“random best”,因此它不会随机选取任何要分割的特征
我该如何处理这种情况?谢谢。由于数据集不平衡,您可能会达到80%
在标题中,我想知道在哪里可以检查scikit learn中RandomForestClassifier使用了哪些决策树算法。它在attributesbase\u estimator\uu=DecisionTreeClassifier中说,那么scikitlearn中DecisionTreeClassifier的后面是CART,这是我的答案吗
链接到scikit学习
任何建议都将不胜感激Scikit learn默认使用优化版的购物车()
它通过“使用产生最大信息增益的特征和阈值”来构建树。可使用R
我正在实现一个自定义转换器以在我的管道中使用,它在初始化时使用参数myClusters(现在称为K-Means Clustering,但只是一个测试类):
管道本身通过skicit optimize进行调整:
from skopt import BayesSearchCV
from sklearn.pipeline import Pipeline
from sklearn import tree
opt = BayesSearchCV(
Pipeline([
('KMe
我试图在scikit学习(sklearn.feature\u selection.SelectKBest)中使用卡方方法进行特征选择。当我试图将此应用于多标签问题时,我得到以下警告:
UserWarning:重复的分数。结果可能取决于特征顺序。可能存在重复的特征,或者您将分类分数用于回归任务。
警告(“重复分数。结果可能取决于功能排序。”
为什么会出现这种情况以及如何正确应用功能选择是这种情况?代码警告您,可能需要执行任意平分,因为某些功能的分数完全相同
也就是说,特征选择实际上并不适用于开箱即
在Ubuntu和RandomTreeClassifier上的Python 2.7中成功使用scikit学习库(0.13.1),树外加载成功,但无法加载AdaBoost,收到IMportError:无法导入名称AdaBoost。一般来说,linux和软件包安装相对较新,但有些人认为AdaBoost或依赖项没有正确编译/构建。感谢您提供的任何帮助,我们无法通过谷歌搜索或本论坛找到任何类似的帮助。AdaBoostClassifier目前仅在开发分支中提供,该分支将在未来某个时候发布0.14版本,请参阅
标签: Scikit Learn
cross-validationconfusion-matrixprecision-recallimblearn
我正在使用SMOTE(IMBRearn library)交叉验证中的管道来检查欺诈和非欺诈客户的不平衡数据集
gbm0=GradientBoostingClassifier(随机状态=10)
采样器=['SMOTE',SMOTE(随机状态=随机状态,比率=0.5,种类='borderline1')]]
分类器=['gbm',gbm0]
管道=[
['{}-{}'。格式(采样器[0],分类器[0]),
制作_管道(取样器[1],分类器[1])]
用于采样器中的采样器
]
stdsc=Standa
标签: Scikit Learn
linear-regressiongrid-searchregularizedmultitargeting
我正在努力理解以下内容:
Scikit learn为岭回归提供了一个多输出版本,只需交付一个2D数组[n_样本,n_目标],但它是如何实现的
假设每个目标的每个回归都是独立的是否正确?在这些情况下,我如何调整它,以便为每个回归使用单独的alpha正则化参数?如果我使用GridSeachCV,我必须交出一个可能的正则化参数矩阵,或者这是如何工作的
提前感谢-我已经搜索了几个小时,但找不到关于这个主题的任何内容。我将尝试一下,因为我一直在为自己的工作研究这个问题。我会把问题分解成几个部分,这样你就
我尝试将KerasClassifier(包装器)放入final\u model.h5
validator = GridSearchCV(estimator=clf, param_grid=param_grid)
grid_result = validator.fit(train_images, train_labels)
best_estimator = grid_result.best_estimator_
best_estimator.model.save("final_model.h5"
我正在尝试使用scikit-learn和对所有功能进行排序。如果排序的特征数k小于特征总数n,则该方法效果良好。但是,如果我设置了k=n,则SelectKBest的输出顺序将与原始要素数组的顺序相同。如何根据其重要性对所有功能进行排序
代码如下:
from sklearn.feature_selection import SelectKBest, f_regression
n = len(training_features.columns)
selector = SelectKBest(f_
我试图在一个非常特定的环境中应用PCA,但遇到了一种我无法解释的行为。
作为一个测试,我使用您可以在这里检索的文件数据运行以下代码:(numpy数组格式)
我的问题如下:因为我没有指定任何数量的组件,所以我应该在这里使用所有计算组件进行重构。因此,我希望我的输出项目与输入测试相同。但一个快速的情节证明情况并非如此:
plt.figure()
plt.plot(test[0]-proj[0])
plt.show()
这里的图将显示投影和输入矩阵之间的一些较大差异
有人有什么想法或解释来帮助我理解
上一页 1 2 ...
6 7 8 9 10 11 12 ...
下一页 最后一页 共 40 页