我想聚集150万种化合物。这意味着有1.5 x 150万个距离矩阵
我想我可以使用pyTables生成这样一个大的表,但是现在——有了这样一个表,我将如何对它进行集群
我想我不能只是把pyTables对象传递给scikit学习集群方法之一
是否有任何基于python的框架可以利用我的大表并使用它做一些有用的事情(lie集群)?也许是分布式的?我认为主要的问题是内存。1.5 x 1.5百万x 10B(1个元件尺寸)>20TB
您可以使用bigdata数据库,如pyTables、Hadoop和Map
标签: Scikit Learn
classificationrandom-forestensemble-learning
随机森林使用“大量的决策树在训练时输出类,这是单个树的类(分类)模式”
是否有一种方法可以代替使用作为模式的类,在原始树生成的输出上运行另一个随机林
额外问题:这是个坏主意,有什么原因吗?(我相信人们以前会想到这一点)我认为这只是一个性能选项,您的想法听起来不错,但没有更好的“随机性”,但计算速度可能较慢。您可以访问拟合的随机林实例的估计器属性中的单个决策树
您甚至可以重新采样该属性(它只是一个决策树对象的Python列表),以添加或删除树,并查看对结果林预测质量的影响。>是否有方法在结果树上运
我不知道把它放在标题里
这就是我试图做的:我使用GridSearch和管道来训练分类器。我想看看最佳估计器所使用的计数向量器的词汇表.items()
现在,在运行GridSearch之后,我正在这样做:
classifier = gs_clf.best_estimator_
vect = classifier.named_steps["vec"]
data = vect.fit_transform(x_train)
vocab = = vect.vocabulary_.i
我正试图为最近邻搜索应用程序提出一个好的设计。这有点类似于这个问题:
在我的例子中,这将是在Python中,但主要的一点是,当新数据出现时,必须更新模型/索引。我现在正在和他玩,但我不认为这是一个很好的配合
应用程序的目标是:
用户输入一个查询,然后将显示现有数据集中的n个(可能固定为5个)最近邻。对于这一步,sklearn的这种搜索结构会有所帮助,但在添加新记录时必须重新生成。此外,这是第一次每次查询发生1次ste,因此与“立即”相比,可能会有点“慢”,如2-3秒
然后,用户可以单击其中一条
因此,我在SKLearn网站上阅读了受限Boltzmann机器的示例,在该示例成功后,我想与BernoulliRBM进行更多的交流,以更好地了解RBM的工作原理。我试着做一些简单的课堂预测:
# Adapted from sample digits recognition client on Scikit-Learn site.
import numpy as np
from sklearn import linear_model, datasets
from sklearn.cross_va
我试图使用scikit中的凝聚聚类来学习在一个地方聚集点。点由存储在_XY中的坐标(X,Y)定义
通过由定义的连通矩阵,集群仅限于几个邻居
C=kneighbors\u图(\u XY,n\u近邻=20)
我希望有些点不是同一个集群的一部分,即使它们是邻居,所以我修改了连通矩阵,将0放在这些点之间
该算法运行平稳,但在最后,一些簇包含不应该在一起的点,即一些偶,我施加了_C=0
从这些子项中,我可以看到,当两点(I,j)的簇已经形成时,问题就出现了,并且k连接(I,j),即使_C[I,k]=0
所
我对我的3D图像数据集进行了PCA,并将前n个PC用作线性SVM中的特征。我为每台电脑设置了SVM权重。现在,我想将电脑权重投影到原始图像空间,以发现在分类过程中,图像的哪些区域更具辨别力。我对权重向量使用了逆变换PCA方法。然而,结果图像只有正值,而SVM权重既有正值也有负值。这让我想到我的方法是否有效。有人有什么建议吗
提前谢谢。我有一个程序可以在图像空间中进行这种投影。需要意识到的是,权重本身并不定义“歧视”权重(如中所述)。您需要输入的总和由其核系数加权
以这个玩具为例:
类A有两个向量
我想将我的scikit学习版升级到0.18.dev0,其中包含用于NeuralNetworl分类器和回归的软件包。谁能给我详细的步骤,如何在Windows上这样做。我希望这些步骤非常详细
我尝试的是conda update scikit learn,但实际情况是它并没有超出“获取包元数据…”的范围,而是被卡在了那里。谁能帮我一下吗。我在命令提示符下执行此操作。您可以使用pip从特定的git分支进行安装,如本答案中所述
为什么不先自己尝试一下,然后在遇到问题时再问一个更具体的问题呢?很抱歉带来坏消
当我使用sklearn做一些关于线性回归的事情时,如下所示:
x = df3.iloc[:,3:28].as_matrix().astype(int)
y = df3.iloc[:,0].as_matrix().astype(int)
from sklearn import linear_model
clf = linear_model.LinearRegression()
clf.fit(x,y)
print clf.coef_
print clf.score(x,y)
x = df3
我正在使用sift处理一袋视觉单词,然后我想集成tf idf,然后将其提供给svm,即scikit学习中的nusvc。我该怎么做?有什么想法吗 阅读scikit了解有关管道的文档:
链接类和NuSVC类的实例
确保您的输入数据是符合TFIDFTranformer类期望的2D数组或稀疏矩阵。谢谢。我可以在tf idf之后添加标准定标器以使数据更准确吗?
我已经建立了我的第一个scikit学习示例,我正在尝试评估我预测的准确性。我已经很好地设置了训练和测试列表,但即使我给出随机值,我也能获得~0.95的准确度
这看起来是因为我正在检查0/1标签,95%的标签是零,所以我想它是在0上猜测,得到0.95的准确度?。显然这不是我想要的
如何确定分类器是否正常工作,以及如何获得有意义的准确度值?您有一个明显的类不平衡问题。您的分类器一直在预测0,并且知道它95%的时间都是正确的。您可以在安装的分类器上调用predictX_测试来检查这一点。如果所有的值都
sklearn的svm LinearSVC使用以下模型:
线性VC:1/2 | | |[w b]| | ^2+C和XIU i
我一直在查看文档,找不到任何方法来找到这些值。特别是w向量、b和C值。LinearSVC类似乎有一个get_params方法,但没有一个返回的参数与分类参数匹配
有人有检索这些值的经验吗?使用sklearn的LinearSVC是否可能
谢谢您需要先拟合模型,然后才能将其作为估计器的属性进行访问
w=系数_
b=截距_
C=C是在拟合之前由您设置的超参数,请注意,越高,正则
我需要在scikit learn中编写一个自定义随机_选择(用于随机选择特征,即“最大_特征”和列车数据子集,即“子样本”)模块,用于sklearn.ensemble.RandomForestClassifier和GradientBoostingClassifier。有人能指出一些例子/文档/讨论等吗?想法是使用一列(不依赖于,即Y)从
在RandomForestClassifier中训练装袋数据这里似乎有两个主要选项:
您可以手动迭代学习者。它会非常慢,但你可以手动输入采样数据
或2。你可以通
我正在将带有分类字符串功能的PMML管道导出为PMML文件。当我用Java打开文件并列出InputFields时,我看到day\u of_week字段的数据类型是双重的:
InputField{name=day_of_week, fieldName=day_of_week, displayName=null, dataType=double, opType=categorical}
因此,当我评估输入时,我会得到错误:
org.jpmml.evaluator.InvalidResultExce
标签: Scikit Learn
classificationrandom-forestcross-validationauc
我在不平衡的数据集上训练随机森林,准确度不高。我希望避免交叉验证,而是使用现成的(OOB)评估。在sklearn中(或在python中,一般情况下)是否可以评估出包外(OOB)F1或AUC,而不是OOB准确性
我在这些页面上找不到这样做的方法:
或者我应该在oob_决策函数中计算平均预测(或分类多数票)的f1和AUC吗?从中,您可以看到精度计算是硬编码的,因此您无法通过设置一些参数获得另一个分数
但是,正如您所说,oob预测是可用的,因此自己进行最终计算并不困难。为什么不在训练前分割数据的另
XGBoost在cpu和gpu上都可以正常工作,但只要我添加scikit的randomizedsearchcv用于超参数调优,它就会失败
系统:Ubuntu20
环境:使用Python3.7的conda虚拟环境
xgboost安装:conda安装-c anaconda py xgboost gpu
代码:
错误:
Fitting 3 folds for each of 200 candidates, totalling 600 fits
[Parallel(n_jobs=1)]: Using b
我想在Google Colab中使用scikit学习版本0.24.1。首先,我通过以下方式卸载当前安装的版本(0.24.2):
然后,我通过以下方式安装版本0.24.1:
!pip install scikit-learn==0.24.1
然而,当我导入scitkit learn时,它是版本0.22.2.post1,我认为它是最新的版本,而不是版本0.24.1
如果你有任何解决办法,请告诉我
背景:
我通过scikit learn 0.24.1对模型进行了培训,我希望使用相同的版本加载经过培训
我有一个关于scikit的新问题要问你
分类问题,logistic回归作为估计量。
我有我的X数据集和我的功能
我想通过交叉验证使用我的算法,我有两种方法:我手动将我的数据集拆分为5个子集,最后我迭代5次,每次都留下一个不同的集进行测试。我得到了我的分数,但我现在想要的是与估计器一起使用的系数的平均值,以便在新的数据集上进行预测。我在stackoverflow的某个地方读到,可以将系数传递给scikit逻辑回归估计器
另一种方法是使用交叉评分法:
lrmodel=LogisticRegressi
我有一些模型是在版本0.15.2中创建的,并使用pickle保存的。
现在我想升级到版本0.16.1,在新版本中使用这些模型,而无需对它们进行再培训
我将需要升级的特定类是PLSRegression和RandomForestClassifier
内存中是否有升级这些对象的帮助器方法?如果没有,请提供有关哪些成员已更改以及新成员与旧成员之间的关系的信息。发现:以及:
我可以从python或ipython控制台(python 2.7和3.5)导入scikit learn,但是当我在ipython笔记本(同样是2.7或3.5)中导入sklearn时,我会收到下面的错误消息。我怎样才能解决这个问题
ImportError回溯(最近的呼叫)
最后)在()
---->1导入sklearn
ImportError:没有名为sklearn的模块
您报告的问题仍然有点不清楚,因为您没有提供关于设置Python或iPython的步骤的详细信息。这些信息以及您的操作系统(OS
我想在scikitlearn中使用K-Best和评分函数“相互信息分类”进行特征选择。但是,由于以下错误,我无法导入此函数:
ImportError: cannot import name 'mutual_info_classif'
请提供。请包括您正在使用的scikit版本。问题可能与感谢@ncfirth对您的帮助有关。我的scikitlearn版本是0.17,我将其升级到了0.18。请提供一个。请包括您正在使用的scikitlearn版本。问题可能与感谢@ncfirth对您的帮助有关。我的
标签: Scikit Learn
python-3.5decision-treecross-validationconfusion-matrix
我正在尝试使用id3算法训练决策树。
其目的是获得所选特征的索引,估计发生率,并建立总混淆矩阵
该算法应将数据集拆分为训练集和测试集,并使用4倍交叉验证
我是新来的,我读过关于sklearn的教程和关于学习过程的理论,但我还是很困惑
我试着做的是:
from sklearn.model_selection import cross_val_predict,KFold,cross_val_score,
train_test_split, learning_curve
from sklearn.t
我正在尝试使用sklearn LDA分析一个稀疏数据集,但不仅是那个,我还尝试了一个个人实现。数据集有14列和一些不同数量的列,我选择这些列来运行不同的实验,保留那些差异最大的列
X = dfplants.values
print(X.shape)
(14,15)
u,s,v = np.linalg.svd(X)
print(len(s))
y = dfplants_sup['tecnique'].values
lda = LDA(n_components=2, solver='svd', s
我正在使用sklearn precision和recall获得这些分数。我说值错误时出错。谁能告诉我哪里做错了
我的y_测试如下
443 positive
3615 positive
2030 negative
2993 positive
2870 positive
2907 negative
2215 positive
['positive' 'positive' 'positive' ..., 'positive' 'positive' 'pos
我有一个问题,我一直在寻找答案,但我找不到答案
如果我有一个使用三个或更多类标记的数据集,其中每个类代表33%的数据。当我分割数据时,培训/验证/测试集是否在类之间保持相同的平衡
如果没有,有没有办法保持平衡
提前谢谢。找到了
X\u-train,X\u-test,y\u-train,y\u-test=train\u-test\u-split(X,y,test\u-size=0.2,random\u-state=42,stratify=y)这有什么可能的重复?它将列/测试集中的数据分层,并保持类
请指导我通过这些方法,因为我一直在遵循python中其他较长的方法来执行PCA什么工作正常?什么工作不正常?简单地要求我们为您提供指导并不能告诉我们您的编程问题是什么。如何在我共享的文件中输入信息…这是一个跨不同站点的变量…只是如何使其可读,以便首先在此代码中进行进一步分析
from sklearn.decomposition import PCA as sklearnPCA
sklearn_pca = sklearnPCA(n_components=2)
Y_sklearn = sklearn
为什么上面缺少9%:Neutral?你可以发布一个y值的摘要(比如标签和每个标签的样本数)?'13%':'sazing','15%':'Bad','57%':'Good','6%':'sorry':通常是9%。不仅是这批的结果。
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(stop_words = "english", ngram_range=(1, 2), m
我正在努力找出sklearn的svm中用于ovr类型决策函数的决策函数。
有人能帮我吗。非常感谢 你看过吗?那篇文章讨论了一些决策函数。@nbro这确实很有帮助,谢谢!你看过吗?那篇文章讨论了一些决策函数。@nbro这确实很有帮助,谢谢!
使用model.predict_proba(X)我得到了一个包含大量数字的大数组
我正在寻找一种方法来可视化所有类别的分类概率(在我的案例13中)。我使用了一个随机分类器
有什么建议吗?热图是可视化2D矩阵的好方法。当然,如果X中的记录数量很大,很难一次就将所有内容可视化。否则,您可能必须对记录进行采样。这里我展示了前10张唱片的视觉效果
看看这个例子:
从sklearn.dataset导入make_分类
从sklearn.employ导入随机林分类器
从sklearn.linear_模型导入逻
我有一个产品,每年1月1日发布。今年它也在同一天发布(称为版本10)
随着时间的推移,人们将开始购买该软件,随着时间的推移,软件的采用也将发生变化
我有一个关于去年收养人数的数据(称之为版本9)。如何通过使用版本9的历史数字来预测版本10的采用数量(按天计算)。您好,欢迎使用Stack Overflow。请拿着这本书读一读。这里的格式不适合讨论方法,而是用于解决特定的编码问题。我认为你应该更准确地说明你的问题,或者在其他网站上询问,比如maybe
我有二元分类,其中一个类的大小几乎是另一个类的0.1
我正在使用sklearn创建一个模型并对其进行评估。我正在使用这两个功能:
print(precision_recall_fscore_support(y_real,y_pred))
out:
(array([0.99549296, 0.90222222]), # precision of the first class and the second class
array([0.98770263, 0.96208531]), # re
我正在尝试使用sklearn的gridsearch和xgboost创建的模型。为此,我创建了一个基于ndcg评估的自定义记分器。我成功地使用了Snippet 1,但是它太混乱了,我更愿意使用好的旧sklearn来简化代码。我尝试实现GridSearch,结果完全不正确:对于相同的X和y集,我得到了相同的结果NDCG@k=0.8(代码段1)与0.5(代码段2)。很明显我在这里没有做什么
以下代码返回的结果非常不同:
第1段:
kf = StratifiedKFold(y, n_folds=5, s
胡,伙计们
我对python/anaconda/jupyter/numPy、panda等都是新手。。。。所以,如果这是一个非常愚蠢的问题,请原谅。
我正在尝试使用anaconda/jupyter获取MNIST数据库。但每次我在最后收到一个HTTP错误500。这真的是一个服务器问题(如500所示)还是我做错了什么
jupyter中的输入:
from sklearn.datasets import fetch_mldata
mnist = fetch_mldata('MNIST original')
我使用gensim在自己的语料库上训练了一个doc2vec和相应的word2vec。我想用t-sne和单词来可视化单词2vec。如中所示,图中的每个点也有“单词”
我在这里看到了一个类似的问题:
下面是我的代码:
进口gensim
将gensim.models导入为g
from sklearn.manifold import TSNE
import re
import matplotlib.pyplot as plt
modelPath="/Users/tarun/Desktop/PE/doc
K-均值法不能处理各向异性点。根据scikit learn,DBSCAN和高斯混合模型似乎可以处理这一问题。我尝试过使用这两种方法,但它们对我的工作不起作用
DBSCAN
我使用了以下代码:
db = DBSCAN(eps=0.1,min_samples=5 ).fit(X_train,Y_train)
labels_train=db.labels_
# Number of clusters in labels, ignoring noise if present.
n_clusters_ =
当我使用以下函数时,我会得到属性错误
从category_编码器导入序号编码器
def标签编码(输入数据,列):
名称=列+“\u编码”
编码器=普通编码器(返回_df=True,句柄_unknown='ignore')
input_data[name]=编码器.fit_变换(input_data[col].values)。值-1
编码器=dict(编码器.类别映射[0]['mapping'])
返回输入数据、编码器、名称
您是否可以检查运行dir(编码器)时是否显示类别映射如果列表中未显示该映
所以我理解套索回归,我不明白为什么它需要两个输入值来预测另一个值,而它只是一个二维回归
文件中说
clf.fit([[0,0], [1, 1], [2, 2]], [0, 1, 2])
我不明白。为什么是[0,0]或[1,1]而不仅仅是[0]或[1]
[[0,0], [1, 1], [2, 2]]
意味着您有3个样本/观测值,每个样本/观测值具有2个特征/变量(二维)
事实上,您可以拥有这3个样本,其中只有1个特征/变量,并且仍然能够拟合模型。
使用1个功能的示例。
from sklearn
我对Python编程非常陌生,对SKLearn和ML甚至更新。
所以请原谅我对这些问题的无知
我已经开始尝试SKLearn回归模型和代码,但在理解这个实验代码的结果时遇到了一个基本问题
给出下面的代码,我试图找出LinearRegression model predict()函数的结果是什么,与存储在sales_数据数组中的假定商品每日销售数字相关
import numpy as np
from sklearn.model_selection import train_test_split
fr
我正在使用纹理分类器作为模型。我对我得到的一些结果有点困惑,主要是为什么参数gamma和C的选择对我的结果有如此大的影响。下面是对我的案例的简短描述:
我总共有195张图片,分为8类,如下所示:;木材-56,大理石-23,水泥-16,混凝土-7,瓷砖-32,地毯-18,砖-25,织物-18
我将数据按80-20的比例随机分成训练集和测试集
我使用SVC作为模型:model=SVC(C=C,random_state=42,gamma=gamma)
我用训练数据来拟合我的模型。接下来,我为我的测试数
-0.567
-4.235
上面哪个负均方误差值计算得更准确?值越高越好。因此,在您的情况下,-0.567更好。A根据sklearn评分函数,保持以下惯例较高的返回值优于较低的返回值。但是当你看均方误差或者甚至是均方绝对误差时,数值越低越好。所以他们只是翻转值的符号,以确保它符合约定。例如,-0.567导致均方误差仅为0.567,而-4.235的均方误差远高于前者
希望这有帮助
在我看来,标签编码器已经被弃用了,但如果我们的分类不包含零,我们就不得不使用它
import numpy as np
from xgboost import XGBClassifier
model = XGBClassifier(
use_label_encoder=False,
label_lower_bound=0, label_upper_bound=1
# setting the bounds doesn't seem to help
)
x = np.arr
我正在处理一个非常大的数据集(150万行),并考虑使用SVR。
因为有太多的数据,我想切换到线性支持向量机和使用nystroem
从均匀采样数据生成核的方法
然而,我更愿意通过kernelk-Means构建内核,但是我没有找到一个官方的
尚未实施
这个链接提供了一个非官方的方法,但由于它是序列化的,所以会产生一个非常大的模型。
也许有人知道该从何处查找该数据,或者如何从任意数据集中按代码实现该数据?您正在处理时间序列数据吗?不,不幸的是,我正在处理住房数据。我不知道您是否可以将tslearn算
在论文“”中,作者谈到了不同类型的弱学习者:轴对齐超平面、一般定向超平面和二次型
是我遗漏了什么,还是Scikit Learn中的实现在每次拆分时都执行了与轴对齐等效的操作?您是对的,我们只执行轴对齐拆分。事实上,这是最常见的分割策略,在大多数情况下,在不增加计算复杂度的情况下,可以获得足够好的结果
我正在使用scikit学习执行二进制分类,但是标签并不是均匀分布在整个数据集中。对于我有兴趣预测少数类的情况,我对metrics.average\u precision\u score提供的平均精度度量有些担心。当我运行实验并打印分类报告时,我看到总体精度表现良好,但这显然是因为模型在预测大多数类别方面做得很好,比如:
precision recall f1-score support
label of interest 0.24
sklearn.decomposition.DictionaryLearning.fit具有参数X,该参数是训练向量形状(n_个样本,n_个特征)和未解释的参数y
同一类的其他函数也有参数y,它们是“目标值”,是一个形状[n_样本]数组
我不知道在创建字典时“目标值”的概念从何而来
这里有一个指向文档的链接:由于技术原因,它被忽略,就在那里。由于技术原因,它被忽略,就在那里。有没有关于这些技术原因的解释?有没有关于这些技术原因的解释?
这是我的第一次随机森林实践,不幸的是,它的性能比单个决策树差。我在这方面已经工作了一段时间,但没有找出问题出在哪里。下面是一些运行记录。我很抱歉发布完整的代码
Sklearn决策树分类器0.714285714286
Sklearn随机森林分类器0.714285714286
我自制的随机森林分类器0.628571428571
Sklearn决策树分类器0.642857142857
Sklearn随机森林分类器0.814285714286
我自制的随机森林分类器0.571428571429
Skle
我正在使用
linear\u model.sgdclassizer(loss='log',class='weight='balanced')
对于10类分类(类非常不平衡)
看起来,类_重量仅在训练时使用(在损耗函数中)。它们不用于得分。
因此,我使用
GridSearchCV(测试模型、我的超参数、评分class='f1\U宏')
由于“f1_宏”,它计算“每个标签的度量,并找到它们的未加权平均值。这不考虑标签不平衡。”
我想用‘负失球’作为得分。因此,我会:
GridSearchCV(测试模
嗨,我有5994个类,我的原始特征尺寸是300,我有1092008个样本,当我把n_components=200时,它给我的尺寸是33?你有什么想法吗
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
lda_model = LDA(n_components=lda_dim)
lda_model.fit(x_train,labels)
x_train = lda_model.transform(
我尝试在Julia 1.0.5中使用train_test_split,代码如下:
using ScikitLearn
using ScikitLearn.CrossValidation: train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=2019)
我得到了这个错误:
INTEL MKL ERROR: /home/denis/.julia/
我使用PCA来可视化训练过程中网络高维潜在空间的演化。为此,我使用了sklearn.decomposition中的PCA函数,并每隔10个时期对潜在空间进行可视化
问题在于,在演化过程中,PCA轴的方向从一帧翻转到另一帧。虽然这不是特别重要,但它破坏了我的动态潜在空间进展。我想知道是否有办法阻止标志翻转
下面是我的动画中带有符号翻转的两个连续帧
尝试设置sklearn.decomposition.PCA的random\u状态参数
希望有帮助。我将随机状态设置为0,但问题仍然存在。不过还是要谢谢
上一页 1 2 ...
10 11 12 13 14 15 16 ...
下一页 最后一页 共 40 页