joblib中出现此类问题的原因是什么?
'多处理支持的并行循环不能嵌套在线程下面,设置n_jobs=1'
我应该怎么做来避免这样的问题
实际上,我需要实现XMLRPC服务器,它在后台线程中运行大量计算,并通过UI客户端的轮询报告当前进度。它使用基于joblib的scikit learn
附言:
我只是简单地将线程的名称改为“MainThread”,以避免此类警告,而且一切看起来都很正常(按预期并行运行,不会出现问题)。这种解决方法将来可能会出现什么问题?这似乎是由于JobLib库中的问题。在写
我正在使用DBSCAN使用Scikit Learn(Python 2.7)对一些数据进行集群:
然而,我发现没有内置函数(除了“fit_predict”)可以将新数据点Y分配给原始数据X中确定的簇。K-means方法有一个“predict”函数,但我希望能够对DBSCAN进行同样的操作。大概是这样的:
dbscan.predict(X, Y)
clusterer = hdbscan.HDBSCAN(min_cluster_size=15, prediction_data=True).fit(d
我试图在步骤上进行网格搜索,学习DNN回归的速率和批量大小。我试着用一个简单的例子,这里显示的波士顿数据集来实现这一点,但是,我无法让它工作。它不会抛出任何错误,它只是不断地运行。即使我设置了一个单点网格,它也会这样做。
你看到下面的错误了吗?我错过了什么明显的东西吗?
我对sklearn和skflow都是新手(我知道,skflow已经合并到Tensorflow Learn中,但我认为示例应该是相同的),但我只是结合了我找到的示例
from sklearn import datasets, cr
如果我在完成之前中断grid_search.fit(),我会失去它目前为止所做的一切吗?
我对我的网格搜索有点着迷,并提供了一个非常大的搜索空间。我可以看到我已经满意的分数,但我的标准输出没有显示导致这些分数的参数
我已经搜索了文档:
几年前有一次讨论,在这里为Parralel search添加了一项功能:
但没有明确的证据。我的搜索已经进行了约48小时,所以我不想失去已经发现的东西,但我也不想继续
谢谢 欢迎来到SO
据我所知,没有任何中间变量从grid_search函数返回,只有结果网格及其
我对SKlearn、机器学习及其相关知识还很陌生。我已经找了一天了,但仍然找不出答案
model = LogisticRegression(C=1)
model.fit(X, y)
print(model.predict_proba(X_test))
// output
[[ 1.01555532e-08 2.61926230e-01 7.37740949e-01 3.32810963e-04]]
我很困惑输出是否正确。当我使用相同的数据集尝试SVM时,我得到了[[0.21071
“最大预测”的责任是什么?当我尝试不同的值(从1到50)时,结果仍然不变 来自:
最大预测:int,可选(默认值:100)
牛顿逼近法中的最大迭代次数
在预测过程中,后面的部分会发生变化。较小的值将减少计算量
以更糟糕的结果为代价的时间
由于在您的情况下,结果不会发生变化,因此我可以得出结论,即使使用max_iter_predict=1在预测过程中对后验值进行近似的牛顿方法也得到了充分的估计。
我这样做:
from sklearn.linear_model import SGDClassifier
sgclass = SGDClassifier(random_state=10)
sgclass.fit(X_train,y_train)
pred = sgclass.predict(X_test)
from sklearn.metrics import classification_report,accuracy_score
print(classification_report(y_t
我正在开发一个模型,在这个模型中,它可以预测员工是保住工作还是离开公司
其特点如下
满意程度
最后一次评估
项目数量
平均每月小时数
花在公司的时间
工伤事故
升职5年
系
薪水
左(布尔)
在特征分析过程中,我提出了两种方法,在这两种方法中,我得到了不同的特征结果。如图所示
当我绘制一张热图时可以看出满意度水平与左侧呈负相关
另一方面,如果我只使用熊猫进行分析,我得到的结果如下
从上图中可以看出,满意度水平在分析中非常重要,因为满意度水平较高的员工保留了工作
在公司花费时间的情况下,热图
当我尝试此代码时:
import sklearn_crfsuite
from sklearn.model_selection import RandomizedSearchCV
f1_scorer = make_scorer(metrics.flat_f1_score,
average='weighted', labels=labels)
params_space = {
'c1': scipy.stats.expon(scale=0.5),
'c2
我想为文本写一行。但是有一个
添加“外部”功能的管道中的额外步骤。这些
要素存储在外部数据库中,并通过文档id进行访问
(输入中的行号)
自定义管道阶段位于tfidf步骤之后。意味着输入到
阶段将是一个稀疏矩阵。有没有办法让我通过索引
还有输入矩阵?或者可能是一种通用的方法,在
管道阶段
请注意,管道的输入由GridSearchCV选择
我看到了,但没有看到如何将其应用到我的情况,因为我无法计算从输入到阶段的特征
我正试图使用树外分类器处理稀疏数据,如所示,但是我确实得到了一个运行时类型错误请求密集数据。这是在scikit learn 0.17.1上,下面是我从文档中引用的内容:
参数:
X:形状的数组状或稀疏矩阵=[n_样本,n_特征]
代码非常简单:
import pandas as pd
from scipy.sparse import coo_matrix, csr_matrix, hstack
from sklearn.ensemble import ExtraTreesClassifier
我正在使用两个版本的scikits learn,用于不同的目的:
scikits学习0.17用于生产
scikits学习0.18,特别是its,用于教育目的
请注意,在撰写本文时:
scikits learn 0.18仍在开发中
scikits learn 0.17没有神经网络库
在0.18变得稳定之前,我希望在生产中使用0.18表示神经网络,0.17表示其他任何东西,在同一代码中。有没有一种方法可以同时安装两个这样的版本,以便它们都可以从同一代码中调用?虽然这不是我想要的确切答案,但它
我正在尝试开发一个MPLS分类器神经网络。当我在一些数据上测试我的模型时,我发现结果根本不是我所期望的,所以我在它所训练的数据上测试了模型。尽管如此,这些预测还是一点也不准确。下面是我的代码
>>> mlp = MLPClassifier(solver='lbfgs', hidden_layer_sizes = (100,1000,100),max_iter=30000)
>>> mlp.fit(i, t)
MLPClassifier(activation='
我有2个xlsx文件,我想用它作为sklearn分类器中的数据集来实现不同的机器学习算法。我是新手,请帮助。您可以使用将Excel文件读入DataFrame的:
import pandas as pd
df1 = pd.read_excel(r'/path/to/file1.xlsx')
df2 = pd.read_excel(r'/path/to/file2.xlsx')
我想在CNN上使用AdaBoostClassifier。我创建了一个名为create\u model的函数,它定义并编译了我的模型。函数返回编译后的CNN。然后我使用KerasClassifier:
model = KerasClassifier(build_fn=create_model, epochs=2, batch_size=128, verbose=0, sample_weight=None)
bdt_discrete = AdaBoostClassifier( model, n_es
考虑来自scikitlearn网站的以下代码:
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore')
X = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(X)
这将允许我将分类信息表示为二进制输入。代码的输出:
enc.get_feature_names()
是
显示变换空间中的新特征。然而,为什么它
在使用Python的scikit SVM线性支持向量分类时,我在尝试进行预测时遇到了一个错误:
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from nltk.stem import PorterStemmer
from nltk import word_tokenize
import string
# Function to pass the list to the Tf-idf vec
我在运行测试后出现此错误。这绝不是令人沮丧的
ImportError Traceback (most recent call last)
<ipython-input-3-3cd21e54f349> in <module>()
81 from tensorflow.keras.models import Sequential
82 from sklearn import preprocessi
DBSCAN之后,我得到了24个集群,在将集群标签分配给271个地理坐标后,我正在努力使用对开本代码颜色,网络\u集群包含从-1到22的24个标签,我需要将-1设置为灰色噪声,其余自动设置,标签包含在数据帧列Healthcenters\u network['network\u cluster']
%%time
# use metric=precomputed to fit model to the sparse network-based distance matrix
db = DBSCAN(
我正试图将文本分类。我已经开发了这样做的代码,但是kfold样本大小在Spyder和Pycharm上有所不同,即使代码完全相同
代码如下:
def baseline_model():
model = Sequential()
embedding_size = 100
model.add(Embedding(input_dim=num_words,
output_dim=embedding_size,
我用以下代码创建了主题建模的可视化
pyLDAvis.sklearn.prepare(lda, tf, tf_vectorizer)
从中,我可以得到每个主题的每个文档的概率。是否有可能知道每个主题中包含哪些文档?谢谢
有人可以分享一段代码片段,演示如何使用scikit使用SVM进行文本挖掘。我看过一个关于数值数据的SVM示例,但不太确定如何处理文本。我看着
但是找不到支持向量机。在文本挖掘问题中,文本由数值表示。每个特征代表一个单词,值是二进制数。这就给出了一个包含大量零和少量1的矩阵,这意味着文本中存在相应的单词。可以根据单词的频率或其他标准赋予单词一定的权重。然后得到一些实数,而不是0和1
将数据集转换为数值后,可以使用以下示例:
我试图用sklearn预测股票价格。我对预测一无所知。我尝试了sklearn的例子,用高斯hmm进行股票预测。但是预测给出了叠加在价格上的状态序列,它还从给定的输入接近价格中获取点。我的问题是如何生成下一个10个价格?您将始终使用最后一个状态来预测下一个状态,因此让我们通过将结束日期更改为23号来添加10天的输入:
date2 = datetime.date(2012, 1, 23)
您可以仔细检查代码的其余部分,以确保我没有实际使用未来数据进行预测。这些行的其余部分可以添加到文件的底部。首先
根据和,ElasticNetCV接受多重输出回归。但是,当我尝试它时,它失败了。代码:
from sklearn import linear_model
import numpy as np
import numpy.random as rnd
nsubj = 10
nfeat_train = 5
nfeat_predict = 20
x = rnd.random((nsubj, nfeat_train))
y = rnd.random((nsubj, nfeat_predict))
lm =
我可以对sklearn的predict_proba方法给出的结果设置更高的精度吗?
谢谢由predict\u proba返回的概率是float:
prediction_probs = classifier.predict_proba(a_test)
type(prediction_probs[1][1])
返回:
numpy.float64
0.40000000000000002
及
返回:
numpy.float64
0.40000000000000002
您可以在predict
我的数据有很多分类特征。我用Dict_矢量器对它们进行编码
For example df['color']=['green','blue','white']
df['size']=['small','big','medium'] .
我使用随机森林算法。当我检查特征重要性的值时,我会得到每个类别的不同值。
绿色=2.45*10^-2
蓝色=6.2*10^-3,依此类推
难道所有编码的类别值不应该具有相同的特征重要性值吗。就像所有类别的颜色都具有相同的重要性,所有大小值都具有相同的重要性?
我有一个包含要素及其标签的数据集
看起来是这样的:
X1, X2, X3, X4, X5 .. Xn L1, L2, L3
Y1, Y2, Y3, Y4, Y5 .. Yn L5, L2
..
我想在此数据集上训练Kneighbors分类器。似乎sklearn不接受多重标签。我一直在尝试:
mlb = MultiLabelBinarizer()
Y = mlb.fit_transform(Y)
# parameters: n_neighbors=[5,15], weights = 'uni
最近,我发现Sklearn NMF库不推荐其pg解算器,现在使用其cd解算器。
使用cd解算器,我认为我无法应用稀疏约束。或者L1速率隐含地表示稀疏性?有没有一种方法可以应用稀疏约束
因为我想在NMF中缩小解决方案空间,所以我想指定稀疏性约束以提高性能并减小解决方案空间大小。除了指定稀疏约束,还有其他方法吗
我正在处理一个二进制分类问题,希望执行嵌套交叉验证来评估分类错误。我之所以使用嵌套CV是因为样本量很小(N_0=20,N_1=10),其中N_0,N_1分别是0和1类中的实例数
我的代码非常简单:
>> pipe_logistic = Pipeline([('scl', StandardScaler()),('clf', LogisticRegression(penalty='l1'))])
>> parameters = {'clf__C': logspace(-4,1
我试图使用GridSearchCV()为SVR()估计器找到C&gamma的最佳值,但我得到了这个错误
TypeError:“KFold”对象不可编辑
这就是代码
from sklearn.grid_search import GridSearchCV
from sklearn.model_selection import KFold
C_range = np.logspace(-2, 10, 13)
gamma_range = np.logspace(-9, 3, 13)
param_grid
我将使用scikit学习库实现SVM分类
我的功能值为0/1,我已将这些值保存在功能的txt文件和标签的单独txt文件中
现在我的问题是,如何使用scikit learn加载培训和测试阶段的外部数据集?在TXT/CSV文件中保存矢量化数据,尤其是压缩(稀疏)数据不是最好的方法,因为您在回读时可能会遇到问题-您将丢失数据类型、压缩/“稀疏性”等。。您甚至可能遇到无法在内存中读取TXT/CSV文件的情况
您可以看到将稀疏矩阵转换为法线(numpy)的示例,其中一个以MemoryError结尾。如果您
确保我做对了这一点:
如果我们使用独立的,即log_loss(y_true,y_pred),它会生成一个正分数——分数越小,性能越好
然而,如果我们使用“cross_val_score”中的评分方案,则分数为负——分数越大,表现越好
这是因为评分方案与其他评分方案是一致的。因为通常情况下,越高越好,我们否定了通常的对数损失以符合趋势。这样做完全是为了这个目的。这种理解正确吗
[背景:metric.log_损失得分为正,而“neg_los_损失”得分为负,两者均参考同一文档页。]sklearn.m
我在scikit学习中使用SVM,需要详细了解我的模型在训练时的表现。
但我无法在SVM中获得详细信息,我一直得到以下输出:*
begin training ....
[LibSVM]
这是我写的代码:
print("begin training ....")
svm = NuSVR(kernel="rbf",C=20, nu=0.9,verbose=True)
svm.fit(trX,trY)
print(".... training ended")
那么,为什么我得到的是[LibSV
无法从sklearn.naive\u bayes和sklearn.pipeline分别导入multinomialNB和make\u pipeline,附加了屏幕截图。我正在使用python3。上次我从“”卸载并安装了anaconda
我也从不同的来源安装和卸载
我也尝试过单独安装软件包。sklearn、scipy或其他软件包已安装并升级,但这段代码一次又一次地出现相同的错误
我在互联网和stackoverflow上尝试了所有可能的解决方案
#importing necessary packag
假设我决定使用一个集成方法——如果它起作用,我们将使用iris数据集。在可用的集成技术中,我们将重点介绍并行方法,并从这些方法中使用sklearn进行引导聚合
Sklearn通过使用BaggingClassifier实现引导聚合,文档告诉我们BaggingClassifier是“适合基本分类器的集成元估计器…”在这些基本分类器中,让我们选择RandomForestClassifier,它本身是“适合许多决策树分类器的元估计器”
我们被告知,引导聚合基本上有四种风格:打包、粘贴、随机子空间和随机补
我正在使用CountVectorizer从大量文档(约1500万个文档)中提取文本特征。我还研究了HashingVectorizer作为替代方案,但我认为CountVectorizer是我所需要的,因为它提供了有关文本功能和其他内容的更多信息
这里的问题有点常见:我在安装countvectorier型号时没有足够的内存
def getTexts():
# an iterator that will yield each document from the database
vector
在具有6列(a B C D E F)的数据帧中,来自列E或F的一列是前4列的线性组合,具有不同的系数,而另一列是相同输入的多项式函数。
找出哪列是线性函数,哪列是多项式函数
从dataframe提供30个样本(总共512行)
对(总共512行)执行线性回归
列A B C D作为输入,列E作为目标值。
输出-
截距[-2.67164069e-12]
系数[[2.3.-1.-4.]
列A B C D作为输入,列F作为目标值。
输出-
截距[0.32815962]
系数[[1.01293825-1.
我想计算一个自变量的缺失值,比如变量X1,其他自变量与X1弱相关。然而,因变量与X1有很强的关系
我希望使用sklearn迭代插补器的缺失值插补估计器,如KNN回归器或树外回归器(类似于R中的missforest)
除了自变量之外,我还可以使用因变量来插补X1的值吗?这会不会在我的模型中引入太多的差异?如果不建议这样做,那么应该如何处理X1,删除X1不是一个选项,我担心如果我仅用其他IV估算X1缺失,估算值将不会适度准确
谢谢我对您提到的软件包一无所知。但在忽略因变量关系的情况下输入变量通常是
我正在使用Kaggle数据集,该数据集使用商品的描述和其他属性预测商品的价格。是比赛的环节。作为实验的一部分,我目前只使用物品的描述来预测其价格。描述是自由文本,我使用sklearn的Tfidf矢量器,将bi gram和max功能设置为60000作为lightGBM模型的输入
培训后,我想知道预测价格最有影响力的代币。我认为lightGBM的功能的重要性方法可以给我这个。这将返回一个60000 dim numpy数组,我可以使用该数组的索引从Tfidf的矢量器的vocab字典中检索令牌
代码如下
我试图用随机森林回归来预测汽车的价格。我从cars.com获取数据,清理数据,保留一些特征(年份、里程、外观颜色等),而分类特征似乎与算法不匹配,因此我为分类特征设置了虚拟变量(因为只有数字特征与树匹配),我的分数很低
最终数据如下所示:
Year Model Price Mileage Engine CityFuelEconomy HighwayFuelEconomy ExteriorColor
2013 2 6900 37100 3.0
实际上,我想了解scikit学习高斯示例中使用的内核,但我对这些内核的行为以及何时使用这些内核一无所知,而且我也没有获得任何可以逐个使用这些内核并理解的基本模板代码示例。部分代码如下所示:
X, y = load_mauna_loa_atmospheric_co2()
带有GPML手册中给出的参数的内核
k1 = 66.0**2 * RBF(length_scale=67.0) # long term smooth rising trend
k2 = 2.4**2 * RBF(length_
我需要帮助重塑我的输入以匹配我的输出
我想创建一个模型,对“所有信息”信息进行矢量化和分类,以便将标签“Fall”分为0和1。
但是,我不断得到[ValueError:Found输入变量的样本数不一致:[2552,1]]错误。
“形状”看起来不错,但我不知道如何修复它
## Linear Regression
import pandas as pd
import numpy as np
from tqdm import tqdm
#instance->fit->predict
f
在文档中,verbose=True将输出经过的时间,但我没有这样做:
from sklearn.ensemble import VotingClassifier
voting_c_all = VotingClassifier(
estimators=[
('random_forest', gs_forest2),
('grid_search', gs),
],
voting='soft',
verbose=True,
n_
我刚刚读到了关于贝叶斯优化,我想试试
我安装了scikit optimize并检查了API,我感到困惑:
我读到贝叶斯优化从一些初始化样本开始
我看不出哪里可以换这个号码?(bayessarchcv)
n_points将更改并行采样的参数设置数量,n_iter是迭代次数(如果我没有错,迭代不能并行运行,算法会在每次迭代后改进参数)
我听说我们可以使用不同的采集功能。
我看不出在哪里可以更改bayessarchcv中的采集功能
这是你要找的东西吗
BayesSearchCV(..., op
我正在尝试创建一个结合以下内容的管道:
用于各种功能的管道,无论类型如何(按功能清除不正确的数据)
分类特征管道(分类输入器)
数字特征管道(数字输入器)
在一个
这是我要做的一段代码
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
alltypes = Pipeline([
('column_name_normalizer',ColumnNameNormalizer
我正在与n_jobs>1并行运行gridSearchCV,但在joblib中随机出现以下崩溃:
TypeError:无法创建一致的方法解析
基本JoblibException、Exception的订单(MRO)
以下是完整的堆栈跟踪:
Traceback (most recent call last):
File "example_sklearn.py", line 92, in <module>
main()
File "example_sklearn.
我有以下代码在SkLearn中运行10倍交叉验证:
cv = model_selection.KFold(n_splits=10, shuffle=True, random_state=0)
scores = model_selection.cross_val_score(MyEstimator(), x_data, y_data, cv=cv, scoring='mean_squared_error') * -1
出于调试目的,当我试图使MyEstimator工作时,我只想运行此交叉验证的一
我是Sci kit learn的新用户,我正在研究一个分类问题,其中我有两个主要类,类_1:良性程序和类_2:恶意软件(恶意程序)。第二类(恶意软件)由不同的子类组成:蠕虫、病毒、特洛伊木马等
在我的数据集中,我有一些良性程序、蠕虫、病毒等的样本
因此,由于我对两大类(良性与恶意软件)的分类非常准确,我不想一开始就将我的问题直接转化为多类问题(良性与特洛伊木马、病毒与蠕虫……)。我想要的是,通过sci工具包构建一个组合分类器,第一次将我的数据集分类为主类(恶意软件,良性),然后如果样本被分类为恶
有人能给我解释一下PCA(sklearn)的变量成分吗。sklearn()的官方URL确实让我感到困惑
所以我有一个原始数据集,它有1000个特性,叫做df
我做到了:
my_pca = PCA(n_components = 2)
my_pca.fit_transform (df)
my_pca.components_.shape # (2, 1000)
我能否将组件的每个元素解释为原始特征对每个PCA值的影响
感谢当您计算PCA时,您基本上计算(相关或协方差)矩阵的特征值和特征向量
所以实际
我想在sklearn中构建一个矢量器,它可以放大到更高的n值。这里n是被视为单个vocab元素的不同单词的数量
我的想法是,对于n=1和n=2,我的自定义向量器与sklearn向量器保持相同,但对于n>=3,我想用“我很好”、“哈利会玩”和“哈利x玩”替换“我x好”
示例:让我们考虑建立一个向量大小为n=4的向量化器。现在,以一句话为例,“哈里将在明天演奏”
然后,“哈利将在明天演奏”可以作为:-
所有1.2长度的单音词,“哈利x玩”,“威尔x汤姆罗”和“哈利x汤姆罗”
由于该词汇表中的元素顺
上一页 1 2 ...
13 14 15 16 17 18 19 ...
下一页 最后一页 共 40 页