我需要在大量的训练中训练回归模型
示例,可能包含任意功能。什么
我应该考虑学习算法,为什么?
问题的快速摘要:
大约500万个培训实例
以每年200-400万的速度添加培训示例
培训示例目前包含10个功能
大约40万个填充的功能(在更大的总功能空间中)
随时间增加的附加功能
每天(至少)重新培训或调整模型,以纳入新的示例
优化标准:最小平方百分比误差
输出:单个实数
我有一些在类似大小的分类问题上训练对数线性模型的经验(使用支持向量机、平均和投票感知器等)。添加任意特征的能力很重要,但在这种
我正在学习FLANN,这是一个近似近邻搜索的图书馆
对于LSH方法,它们表示一个对象(搜索空间中的点),如下所示
一个无符号整数数组。我不知道他们为什么这样做,也不知道
将点简单地表示为双数组(表示点
在多维向量空间中)。可能是因为LSH用于二进制文件
特征?有人可以分享更多关于在中可能使用unsigned int的信息吗
这个案子?如果每个功能只需要0和1,为什么要使用unsigned int
谢谢请注意,在撰写本文时,我将参考最新的FLANN版本,即FLANN-1.8.3
对于LSH方法,它
我正在使用Weka的LibSVM包装器训练一个模型,其中包括一个对训练数据应用规范化的选项。
当将此模型应用于新实例(测试数据)时,Weka是否会使用来自训练数据的相同平均值自动进行规范化,或者我是否必须明确地这样做
Instances train_data = ...
Instances test_data = ...
Standardize filter = new Standardize();
filter.setInputFormat(train_data);
Inst
假设我有一个只有一个连续变量的数据集,我尝试使用决策树算法建立一个模型,从数据集中对+ve和-ve标签进行分类。我运行10倍交叉验证
如何计算决策树分类器的AUC?算法会检查分类器的不同阈值,并确定AUC吗
如果我有两个以上的连续变量呢
谢谢 离题,但嘿:
AUC仅适用于二进制分类。预测值的数量并不重要
决策树本身没有“阈值”,但通常在分类问题中,叶子包含两类的概率分布,树的预测也是如此。因此,您可以设想,只有当概率>=p,而不仅仅是>=0.5时,才选择正类。然后你可以画一条AUC曲线
因此,将
假设我有以下带有两个属性的示例ARFF文件:
(1) 情绪:积极[1]或消极[-1]
(2) 推特:文本
@relation sentiment_analysis
@attribute sentiment {1, -1}
@attribute tweet string
@data
-1,'is upset that he can\'t update his Facebook by texting it... and might cry as a result School today al
在进行回归分析时,我试图完全理解分类数据和顺序数据之间的差异。目前,有一点是明确的:
分类功能和数据示例:
颜色:红、白、黑
为什么分类:red
嗨,我已经在weka工具中对虹膜数据集的多层感知器进行了培训。结果,它给了我以下模型
=== Run information ===
Scheme:weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a -G -R
Relation: iris
Instances: 150
Attributes: 5
当我训练网时,咖啡馆撞车了
和
在这种情况下,我只使用了GPU 0。以下是错误跟踪:
build/tools/caffe train -solver models/mv16f/solver.prototxt -gpu 0
I0113 14:21:05.861361 85242 solver.cpp:289] Learning Rate Policy: step
I0113 14:21:05.862876 85242 solver.cpp:341] Iteration 0, Testing ne
我有由向量组成的时间序列数据
v=(x_1,…, x_n)
二元分类变量和四种结果的概率
p_1, p_2, p_3, p_4.
给定一个新的分类变量向量,我想预测概率
p_1,…,p_4
概率与实际情况非常不平衡
p_1>.99 and p_2, p_3, p_4 < .01.
给定一个新向量
v_5= (0,0,1,0,1,1,0,0)
我想预测一下
p_1, p_2, p_3, p_4.
我还应注意,新向量可能与其中一个输入向量相同,即
v_5=(0,0,1,
例如(我可以毫无问题地使用Theano完成此操作):
std\u var=T.repeat(T.exp(log\u var)[None,:],Mean.shape[0],axis=0)
wrt-TF-Mean具有形状(?,num),但log_-var具有形状(num,)
我不知道如何在TensorFlow中执行相同的操作…您可以在计算期间使用shape提取占位符的形状。然后简单地tile张量。例如:
num = 3
p1 = tf.placeholder(tf.float32, (None, n
我对sgdclassizer的fit()和partial_-fit()方法感到困惑。这两种方法的文档都说,“用随机梯度下降拟合线性模型”
关于随机梯度下降,我所知道的是,它需要一个(或全部的一部分)训练示例在一次迭代中更新模型的参数。梯度下降法在每次迭代中使用整个数据集。我想用逻辑回归训练一个模型。我想实现正常梯度下降和随机梯度下降,并比较它们所需的时间。如何使用sgdclassizer?fit()方法是否与正常梯度下降一样有效 我认为partial_-fit方法对于更新已经训练过的模型很有用,
我有一个庞大的数据库,其中包含1)关于伦理和道德哲学的期刊文章摘要,2)每个摘要发表的日期,以及3)每个摘要自首次发表以来每月下载的次数。我想用这些数据来训练一种算法,根据新摘要的文本预测每月下载新摘要的次数
我经常编写代码,主要是用python编写的,但我对机器学习还不熟悉,我很难弄清楚如何处理这个项目。从我的初步研究来看,我相信这是一个最好通过监督学习方法来解决的问题。有许多监督学习方法,例如,scikit学习包()中包含的方法。我不知道如何评估哪种方法最适合我的具体项目
解决这个问题的最佳
我正在努力学习深度学习
我很困惑这些问题:过拟合,梯度消失和局部极小值
到目前为止,我了解了RBM,RBM因为过度装配而进行预培训。但有些人说,由于梯度消失,需要进行预训练,还有一些人说是因为局部极小值
所以。。问题是,哪一个是真的?如果所有人的说法都是正确的,你能告诉我这些概念之间的关系吗
我还是很困惑。到目前为止,我对梯度消失的理解是,早期的层由于达到梯度零点而不能很好地训练。所以你的意思是,早期训练不好的层与在局部最小值打击的层具有相同的概念?如果是这样,所有层都经过良好训练的是全局最优
我有两个数据集,如下所示:
DATASET 1
Training (Class 0: 8982, Class 1: 380)
Testing (Class 0: 574, Class 1: 12)
DATASET 2
Training (Class 0: 8982, Class 1: 380)
Testing (Class 0: 574, Class 1: 8)
我试图在Tensorflow中建立一个深度前馈神经网络。我在90年代获得了准确度,在80年代获得了AUC分数。当然,数据集是严重不
我发现了使用OpenNLP实现情绪分析任务的描述。就我而言,我使用的是最新的OPenNLP版本,即1.8.0版。在下面的示例中,他们使用最大熵模型。我使用的是相同的input.txt(tweets.txt)
公共类开始提示{
公共静态DoccatModel model=null;
publicstaticstring[]analyzedTexts={“我讨厌星期一!”/*,“停电,这是一场噩梦”/*,“我爱它”*/};
公共静态void main(字符串[]args)引发IOException
我需要将Keras模型转换为CoreML模型格式,但我找不到CoreML文档-上的所有链接都不起作用,pythonhosted.org也不起作用。您可以使用web缓存搜索引擎,如获取网站的最新工作版本
以下是谷歌存档的pythonhosted网站链接:
这里是pypi缓存站点:
我一直在托管代码的副本:我想这里有一些有趣的参数:
您好,我正在构建一个文本处理分类器,我在其中创建了一个单词包,我的问题是-如果首先输入一个单词,它应该检查单词包中是否存在该单词
我的第二个问题是如何将一袋字保存到文件中。假设:
假设您对编码还不熟悉
根据您使用的语言,但在C#……中,您可能希望文件阅读器读取“单词包”中的每个单词,如果它们与您输入的单词相等,则进行比较
比如说
int counter = 0;
string line;
string inputWord;
// Read the file and display it
我有两个文档A和B。为了便于说明,让我们简单一点:每个文档都有一页。页面包含文本和数字形式的信息
我的目的是把文档A中的所有数字都标记在文档B中,但是考虑数字的上下文也是非常重要的。
例如:
“A”包含以下句子:“我2017年的工资为50000欧元”
“B”包含以下句子:“我2016年的工资为50000欧元”和“我2017年的工资为50000欧元”
这里计算机应该在A中标记“50000”,因为B中有第二句话。如果只有B的第一句话,则不应该标记数字
我的问题是:这是卷积神经网络(CNN)或支持
我试图使用Vowpal Wabbit来预测给定现有统计数据集的概率。我的txt文件如下所示:
0.22 | Features1
0.28 | Features2
现在,给出这个例子,我想预测特性3的标签(概率)。我尝试使用逻辑回归:
vw -d ds.vw.txt -f model.p --loss_function=logistic --link=logistic -p probs.txt
但是得到错误:
You are using label 0.00110011 not -1 or 1
在嵌入Keras之后,我想将词性特征添加到我的词向量中。我想加入他们作为一个热点和concat他们后嵌入。但是一个单词的词性是动态的,所以我不能使用另一个嵌入层来进行词性的一次热查找并结合两个嵌入层。这里有一个简单的方法,我假设输入是一个单词及其词性标签
word = Input(...)
pos = Input(...)
emb = Embedding( ... ) (word)
layer = Concatenate()([emb, pos])
outputs = .... # your p
我打算应用一个适合我的模型的自定义损失函数。
标签是形状(5,)的二进制数组,1在数组中的位置很重要。例如[1,0,0,0,0]是y\u truey_predas[0,0,1,0,0]的损耗将高于y_predas[0,0,0,1]的损耗
天真的功能如下:
from keras import backend as K
def tf_loss_function(y_true, y_pred):
y_pred = K.clip(y_pred, _Epsilon, 1.0-_Epsilon)
如何计算对象检测算法的假阳性率,在这种算法中,每个图像可以有多个对象
在我的数据中,给定的图像可能有许多对象。如果一个预测框的真值框的IOU高于某个阈值,我将其视为真值框,否则将其视为假值框。例如:
我有2个预测边界框和2个地面真相边界框:
我计算了每对预测和基本真相边界框的IoU:
IoU=0.00,0.60,0.10,0.05
阈值=0.50
在这种情况下,我是否有TP示例?你能解释一下吗?总结,具体:是的,你有一个TP;您还有一个FP和一个FN
摘要,详细:您的预测模型正确识别了一个GT(
因此,对于我要分类的每个“事物”,请说:
{房子、公寓、平房、电加热、煤气加热,}
将其制成特征向量:
{1,0,0,1,0,…}这意味着用电加热的房子
对于我的训练数据,我会有所有这些数据——但对于我想要分类的实际事物,我可能只有它是什么样的房子,以及一些其他的东西——而不是所有的数据。
{1,0,0,,,,,…}
那么,我将如何表示这一点
我想找出一件新物品被煤气加热的可能性
我将使用一个SVM线性分类器——我没有任何核心来显示,因为目前这纯粹是理论上的。任何帮助都将不胜感激:)假设您有一个
我正在学习Coursera的机器学习课程,我刚刚接受了一次审问
在这张图片上,我们可以看到,为了制作xor分类器,我们构建了其他较小的分类器,这些分类器使用线性可分离门进行训练
因此,每个分类器都定义了一个作业(例如AND、OR等),并且必须为该任务训练网络
但在一个更大的神经网络中,不可能为每个神经元(或分类器)定义一个任务
所以我的问题是:这是后向传播算法的任务吗(除了它用于更新权重的事实之外)?如果有人想知道同样的事情,是的。
backprop算法使每个神经元(或分类器)都“更小的线性可
我正在尝试使用GTT将文本转换为语音
import subprocess
from gtts import gTTS
mytext = 'Hello Rasa Bot User, I am a Bot'
language ='en'
myobj = gTTS(text = mytext, lang=language)
myobj.save("welcome.mp3")
subprocess.call(['mpg321',"welcome.mp3",'--
我想知道是否有时间序列分类的健身房环境。我知道这可能有点过分,但主要是为了研究目的。给你:。
分类任务可以是收盘价是低于还是高于开盘价
我指的是node2vec的以下实现:
有没有一种方法可以对node2vec进行“智能初始化”,也就是说,用一个不是随机而是以某种方式预先计算的嵌入来启动算法?例如,当我从NetworkX使用spring_布局时,我通过pos=my_initialization传递初始化,计算速度要快得多。显然,node2vec没有这样的争论,但我想知道通过底层的word2vec是否有一些解决方法。交叉发布在
既然kNN在RAM级别处理训练和预测,并且不需要明确的训练过程,那么在拟合kNN模型时会发生什么?我认为这一步与培训模型有关。多谢各位
如果我跳过装配步骤,我将得到以下错误
NotFittedError: This KNeighborsClassifier instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator.
示例代码:
from sklearn.neighb
我有一个模型:
class MultiAutoencoder:
def decoder_category_brunch(encoder_dense_2):
decoded = RepeatVector(max_len_str, name = 'bottleneck-2')(encoder_dense_2)
decoder_LSTM_1 = LSTM(25, activation='tanh', return_sequences=True)(decoded)
decoder
我想使用朴素贝叶斯分类器来预测设备(如网卡)的工作负载。我有一系列的观察结果,它们代表了请求的到达时间。数据系列表示为0,1,1,0,0,1。。。其中1表示比盈亏平衡时间长的到达间时间,0表示比盈亏平衡时间短的到达间时间。我想预测下一次到达间隔时间为短或长(短于盈亏平衡时间,或更长)。因此,我有两个班,即短班和长班。我已经研究过朴素贝叶斯分类器的理论,但是在Matlab或C++中对它的实现有一定的困惑。我不知道应该用多少特征/数据开始学习过程,以及如何计算预测类的最大可能性。我们将非常感谢在这方
线性回归中“Lambda”-正则化常数可使用的值范围是否有任何限制。[机器学习问题]
当Lambda值为100时,我对数据进行了很好的拟合。这是否在“实际”可接受的限度内
我认为从理论上讲,Lambda的值是很好的,但对于实际应用呢
[解决家庭作业问题需要小的澄清。]我认为lambda的实用价值没有限制。你选择了最适合你的问题并坚持下去。例如,若你们有太多的特性和太少的数据,那个么模型将倾向于过度拟合,你们必须用更大的lambda来对抗它(更好的办法是获得更多的数据或删除一些特性)。另一方面,如
我是机器学习的初学者。到目前为止,我已经看到了一些算法,它们在很大程度上衡量了一条记录(多个字段)与数据集中其他记录(例如k-means)的差异性
我试图将一些ml算法应用于网络入侵检测,但我认为这些算法可能不合适,因为它们将记录视为单个实体,而不是记录上下文中的记录(即,记录后面或后面有特定记录)。例如,当在正常流量的记录中存在与同步数据包对应的记录时,该记录可能是正常的,但如果该记录存在于许多其他同步记录中,则我们可能正在处理同步洪水攻击。这只是一个例子。。。我希望我能说清楚
有没有具有这种
我正在使用caffe(CNN)库提供的预训练imagenet模型('bvlc\u reference\u caffenet.caffemodel')。我可以使用此模型为任何图像输出1000维的对象分数向量。
但是,我不知道实际的对象类别是什么。是否有人找到了列出相应对象类别的文件?您应该查找文件'synset\u words.txt'它有1000行,每行提供不同类别的描述
有关如何获取此文件(以及可能需要的其他文件)的详细信息,请阅读
如果希望所有标签都可以在Matlab中使用,可以将txt文
我正在为ANN分类器的输出选择一种设计。我是否应该选择一个输出神经元并使用训练数据中的“-1”+1”输出值对其进行训练,然后当NN将输出一个数字时,它将接近+1或-1,因此我将决定哪一类更可能,或者我应该使用两个神经元,将它们训练为“1”和“0”,并在评估时比较值?如何编码目标值取决于输出层中使用的激活函数的类型。激活在0和1之间变化,因此应在该范围内指定目标值。而双曲正切激活在-1和1之间变化。您应该根据正在使用的激活功能的范围选择值
如果你有一个简单的二元分类器,你可以有一个单一的输出神经元
在阅读了这个主题后,我不完全理解:神经网络中的“卷积”是否可以与简单的下采样或“锐化”功能相比?
你能把这个术语分解成一个简单易懂的形象/类比吗
编辑:在第一个答案后重新表述:合并可以理解为权重矩阵的下采样吗?卷积神经网络是一系列模型,在图像识别方面经经验证明非常有效。从这个角度来看,CNN与下采样完全不同
但是在CNN设计中使用的框架中,有一些东西可以与下采样技术相媲美。要完全理解这一点,你必须了解CNN通常是如何运作的。它是由层次化的层数构建的,在每一层上都有一组可训练的内核,其输出的维度与
我正在尝试使用MLPClassizer在scikit learn 0.18dev中编写一个多层感知器。我使用过解算器lbgfs,但它给了我一个警告:
收敛警告:随机优化器:已达到最大迭代次数,但优化尚未收敛。
%(),警告)
我怎样才能解决这个问题 设置隐藏层大小和最大值参数怎么样
mlp = MLPClassifier(solver='lbfgs', hidden_layer_sizes=[100], max_iter=2000, activation='logistic')
增加最大间隔?
对不起,我刚刚开始机器学习,我绝对不是这方面的专家。因此,这个问题很可能听起来很无知,我恐怕无法避免。而且,我尽了最大的努力,也找不到类似的问题或答案来回答我的问题
我了解到,如果模型不是来自正态分布的数据集,它就无法学习。此外,我用来确定数据集是正态分布的唯一方法是为每个参数描述的图形方法。这可能是不明智的,如果是这样的话,我总是会有变化,所以如果是这样的话,请纠正我
为了回答我的问题,如果我看到某些参数的正态分布
但对于其他一些人来说,这是否意味着数据集存在缺陷?或者这是否意味着我不应该在模
新手要深入学习。
使用gogoel tensorflow()中的MNIST_SOFTMAX.py教程,我添加了两个新层,只是为了看看会发生什么
x = tf.placeholder(tf.float32, [None, 784])
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
y = tf.matmul(x, W) + b
将上面的代码更改为
x = tf.placeholder(tf.float32,
这是我第一次使用tensorboard,因为我的图形有一个奇怪的bug
这就是我打开“台阶”窗口时得到的结果。
然而,如果我打开“亲戚”,这就是我得到的。(类似于打开“墙”窗口时)。
除此之外,为了测试模型的性能,我每隔几步就应用交叉验证。经过一段时间后,这种交叉验证的准确性从约10%(随机猜测)下降到0%。我不确定我在哪里犯了错误,因为我不是tensorflow的专家,但我怀疑我的问题在于图形构建。代码如下所示:
def initialize_parameters():
globa
OutOfRangeError(回溯见上文):FIFOQUUE“\u 0\u批处理/fifo\u队列”已关闭且元素不足(请求560,当前大小为0)
[[Node:batch=QueueDequeueManyV2[component_types=[DT_UINT8,DT_INT32],timeout_ms=-1,_device=“/job:localhost/replica:0/task:0/cpu:0”](batch/fifo_queue,batch/n)]您没有访问您的文件。分享代码可能会有帮
我想用Keras模型比较两幅性质相似的图像。所以,我想建造这样的东西
同时,我想在两个分支中共享卷积权重,所以我写道
input1 = Input((resample_size[0], resample_size[1], image_channels))
input2 = Input((resample_size[0], resample_size[1], image_channels))
# VGG-like layer sequence
conv_laye
编辑:我收集了几个简单的例子
我刚开始玩neataptic。我想让神经网络学习如何使用数字进行计数:1,2,3,4,5,6,7,8,9
我将输入标准化为0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9
然后我编写了一个非常简单的培训程序,教网络如何添加1+2(0.1+0.3)
问题在于此日志记录了:
[ 0.3717501873608793 ]
[ 0.3695919770977549 ]
[ 0.37142744367869446 ]
它基本上为每个输入记录0.3。请解
当我阅读和搜索有关预训练网络的微调的内容时,它是通过以下两个步骤完成的(简而言之):
冻结隐藏层并解冻完全连接的层并进行训练
解冻两层,然后再次训练
我的问题是:
仅执行第一步是否足够
如果我只执行第一步,它是否与作为特征提取器的网络方法相同
(网络作为特征抽取器的方法是,使用预先训练好的网络提取特征,并使用传统的机器学习分类算法对其进行分类)
如果您需要更多信息来澄清问题,请让我知道。您的问题有一些问题
首先,您清楚地暗示了只有两层的网络,这与当今实际使用微调的方式相差甚远
第二,你在第一个问
如何使用不同格式的数据进行培训和测试
目前我正在处理一个分类问题,培训和测试的数据格式不同。因此,它无法正确分类。但是我的用例是这样的,我只能以那种方式使用。下面是我的格式
我现在有以下培训结构:
--------------------------------------------------------------
| Attribute_Names | Attribute_Values | Category |
-------------------------
因此,我尝试使用Keras创建一个狗与猫图像分类模型。我的部分目标是创建一个使用Tensorflow.js部署模型的网站。我已经使用Flask作为服务器成功地部署了该模型
主要问题是Tensorflow.js模型的性能比普通keras中的模型差得多。当使用普通keras时,我的模型在测试数据上实现了大约90%的准确性。然而,当在tensorflow.js中使用时,该模型没有得到一个正确的测试图像。如果您能为我解决这个问题提供帮助或建议,我将不胜感激
模板/index.html
<!DOCT
我正在更改模型、优化器等。我希望能够比较结果。那么,我应该在什么时候关闭SummaryWriter?这取决于您到底想做什么,但最好在每次编写内容后使用“close”,例如添加标量、添加文本。。。。还可以考虑使用“刷新”< /p> 这取决于你想做什么,但是最好是每次写东西后使用“关闭”,例如Addix标量,AddiType…也可以考虑使用“冲洗”嗨@奥曼马福克,我想知道你能否给我一些参考资料。我没有找到一个关于张力板的详细指南。这个(教程)[如果你使用火炬的话是很好的,还有这个(一个)[如果您使用
我试图将10000个文本样本分为20类。其中4个类每个只有1个样本,我尝试了SMOTE来解决这个不平衡问题,但是我无法为只有一个记录的类生成新样本,尽管我可以为具有多个样本的类生成样本。有什么建议吗?关于SMOTE的一个很好的解释者(以及你关于为什么它可能不适用于样本不足的课程的问题的潜在答案)可以在中找到
我认为这个问题不能通过现成的数据扩充策略轻易解决。一种可能是简单地复制示例,但这不会向模型中添加新信息
以下是一些您也可以尝试的其他策略:
本文介绍了一种基于嵌入的增强技术(类似于SMOTE
建议将参数存储在conf/base/parameters.yml中。让我们假设它看起来像这样:
step_size: 1
model_params:
learning_rate: 0.01
test_data_ratio: 0.2
num_train_steps: 10000
def some_pipeline_step(num_train_steps):
"""
Takes the parameter `num_train_steps` as argu
我试图通过一个烧瓶用户界面传递一条推文,并能够预测推文的类型,若它是一个捐赠,灾难等
以下是Jupyter笔记本的工作代码:
loaded_model = joblib.load('NB_spam_model.pkl')
result = loaded_model.score(X_test, y_test)
predict = loaded_model.predict([new_tweet])
print(result)
print(predict)
结果
0.8409090909090909
我最近对SHAP很陌生。我很好奇“功能重要性”对于自动编码器模型意味着什么
假设我有一个训练有素的AE模型。如果我像这样运行代码
e = shap.KernelExplainer(autoencoder.predict, X_train.values)
shap_values = e.shap_values(X_train.values)
shap.summary_plot(shap_values, X_train)
所以我想知道结果意味着什么?因为它是一个自动编码的神经网络。“特征重要性”是
上一页 1 2 ...
4 5 6 7 8 9 10 ...
下一页 最后一页 共 273 页