Machine Learning_IT技术博客_编程技术问答

Machine learning 从图像中提取主要/最常用的颜色

标签： Machine Learning Image Processing Computer Vision hierarchical-clusteringquantization

我想提取图像中最常用的颜色，或者至少是原色你能推荐我如何开始这项工作吗？或者给我指出一个类似的代码？我一直在寻找它，但没有成功我同意这些评论-编程解决方案肯定需要更多信息。但是到那时，假设你将获得图像中每个像素的RGB值，你应该考虑色调可以代表每个像素的“色调”。然后，您可以使用a来识别图像中使用最多的色调。好吧，我假设您可以访问每个像素的RGB颜色。根据您的需要，有两种方法可以这样做首先，您可以简单地创建一些像素的R、G和B，如下所示伪代码 int Red = 0; int Gr

Machine learning 线性代数在机器学习中的应用

标签： Machine Learning linear-algebra

我正在学习线性代数（最近开始学习），很想知道它在机器学习中的应用，我在哪里能读到这些谢谢奇异值分解（SVD）是机器学习中广泛使用的一种经典方法我发现这篇文章相当简单，解释了一个基于SVD的推荐系统，请参阅 Strang的《线性代数》一书中有一节介绍了SVD在网页排名（HITS算法）中的应用参见。线性代数为大多数机器学习算法提供了计算引擎例如，可能是ML最显著和最频繁的应用是推荐引擎除了数据检索，这些算法的真正关键通常是 “重建”作为这些引擎输入的荒谬的稀疏数据。提供给Amazon.c

Machine learning U矩阵与自组织映射

标签： Machine Learning theory

我正在努力理解SOM。我对人们何时发布代表性的图片感到困惑使用SOM将数据映射到地图空间，得到的数据图像。据说使用了U矩阵。但是我们有一个有限的神经元网格，那么如何得到一个“连续”的图像呢？例如，从40x40网格开始，有1600个神经元。现在计算U矩阵，但是现在如何绘制这些数字以获得可视化效果？链接： U矩阵代表统一的距离，在每个单元格中包含相邻单元格之间的欧几里德距离（在输入空间中）。该矩阵中的小值表示SOM节点在输入空间中靠得很近，而大值表示SOM节点相距很远，即使它们在输出空间中靠

Machine learning 大状态空间中多参与者策略的强化学习

标签： Machine Learning reinforcement-learning

我有一个实时域，需要将一个动作分配给N个参与者，涉及将O个对象中的一个移动到L个位置中的一个。在每一个时间步，我都会得到一个奖励R，表示所有演员的总体成功我有10个参与者、50个独特的对象和1000个位置，因此对于每个参与者，我必须从500000个可能的动作中进行选择。此外，我可以考虑50个环境因素，比如每个物体离墙有多近，或者离演员有多近。这导致每个参与者有25000000个潜在动作几乎所有的强化学习算法似乎都不适合这个领域首先，它们几乎都涉及评估给定状态下每个动作的预期效用。我的状态空

Machine learning 基于KNN算法的监督项加权方法

标签： Machine Learning Nlp knndocument-classification

是否可以将监督项加权模型与KNN分类器一起使用？。我想知道，只要测试文档没有标记，并且监督项权重模型需要标记文档来计算权重，那么如何表示测试文档的向量。有谁能帮忙吗？有。您可以使用基于类信息的度量根据列车组（即idf）计算每个术语的基于集合的值。这可能包括基于类的信息，例如每个术语的max.chi^2值对于测试文档，您结合了度量：例如，将TF乘以IDF（基于列车组）和max.chi^2（也基于列车）关于，您不能尝试为您的文档分配临时标签吗？您也可以尝试将此问题发布到CrossValidat

Machine learning 机器学习/数据挖掘中的速度太慢或内存不足问题

标签： Machine Learning Parallel Processing analyticsdata-mininglarge-data

编辑：尝试重新表述自己：像R、Weka这样的工具功能丰富，但速度慢，并且可以处理的数据量有限。Mahout、Vowpal Wabbit（VW）及其扩展AllReduce等工具是针对1K节点集群的，它们的功能有限。例如，大众只能通过最小化一些损失函数来“学习” 我在任何流行软件中都没有见过使用并行编程（良好的ol'pthreads、MPI等）来加速。我认为这对于集群可能是一种过度杀伤力的问题是有用的，但在其他处理器内核空闲时等待程序完成实在是太糟糕了。[例如，在AWS可以获得26个核心的机器和8

Machine learning 具有固定协方差的高斯核密度估计（使用python）

标签： Machine Learning Python Kernel

我可以使用scipy库执行高斯核密度估计，只需运行 from scipy import stats kernel = stats.gaussian_kde(data) 但我想将协方差修正为某个预定义的值，并用它执行KDE。有没有一种简单的方法可以借助python来实现这一点，而无需明确编写优化过程（如果没有提供此类功能的现有库，我会这样做，但我希望避免这样做）。我的评论：通常，对于密度估计，所涉及的高斯函数用作“窗口”函数，该窗口的“协方差”（在一维情况下有效地为带宽参数）仅用于控制窗口的响

Machine learning 贝叶斯学习中的缺失值

标签： Machine Learning Artificial Intelligence bayesianbayesian-networks

Machine learning 朴素贝叶斯分类器的性能出乎意料

标签： Machine Learning

我刚刚开始使用朴素贝叶斯进行文本分类。我已经从附加的伪代码快照中对其进行了编码我有两门课，即正数和负数。我总共有2000个样本（IMDB电影评论），其中1800个（900个阳性，900个阴性）用于训练分类器，而200个（100个阴性，100个阳性）用于测试系统对正类文档进行标记，但对负类文档进行正确分类失败。所有属于否定类的文档都被错误分类为肯定类，因此准确率为50% 如果我从每个类中单独编写文档，比如第一次测试所有属于阴性类的文档，然后从阳性测试样本中编写文档，那么它会给我100%的准确度

Machine learning 如何在Stanford NLP中设置LogisticClassifier构造函数的偏置参数？

标签： Machine Learning Stanford Nlp logistic-regression

我正在使用斯坦福NLP的逻辑分类器。构建的新实例时，需要在构造函数中设置布尔参数“biasted”。默认值为“false”。这是什么意思？我应该如何设置它 LogisticClassifier<Integer, Integer> classifier = new LogisticClassifier<Integer, Integer>( false ) LogisticClassifier=新的LogisticClassifier（false）不幸的是，代码没有很好的

Machine learning 支持德语的Lemmatizer（用于商业和研究目的）

标签： Machine Learning Nlp linguistics

我正在搜索一个柠檬化软件，该软件：支持德语拥有许可证，允许其用于商业和研究目的。LGPL许可证会很好最好用Java实现。用其他编程语言实现也可以有人知道这样的柠檬酒吗问候, 更新：嗨，Daniel，首先，感谢您为LanguageTool提供的出色工作我们希望将德语文本索引到elasticsearch（ES）中，并使用以下任一方法对文本进行预分析： ES内置德国茎干分析器（请参阅）或下面的插件。后者使用您的形态学文件，这就是为什么我认为您可能有一些评估数据，以便了解在使用基于您

Machine learning 如何用支持向量机处理条件特征？

标签： Machine Learning svmfeature-selection

“我的数据集”包含的功能（如果存在）可以与其他功能关联。举个例子： Feature A: 0/1 Feature B: doesn't exist if A = 0, else: 1/-1 Feature C: doesn't exist if A = 0, else: 1/-1 这些特征并非不存在，如果“特征A”设置为0，它们就毫无意义，因此我不能真正使用数据插补。在我的数据集中集成这些功能的最佳方法是什么？这些信息很有价值，如果可能的话，我不想放弃它。如果您使用的是线性模型（如线性支持向量

Machine learning 使用功能哈希发布azure机器学习服务

标签： Machine Learning azure-machine-learning-studio

我在azure机器学习工作室创建了一个实验，这个实验是使用多类神经网络算法的多类分类问题，我还添加了“特征哈希”模块，将英语文本流转换为一组以整数表示的特征。我已经成功地运行了这个实验，但当我将它发布为web服务端点时，我收到了一条消息“将输入和输出列的总数减少到1000以下，然后再次尝试发布” 经过一些研究，我了解到功能散列将文本转换为数千个功能，但问题是如何将其发布为web服务？我不想删除“功能散列”模块。听起来您正试图将所有数千列作为输出输出。你真正需要的只是得分概率或得分标签。要解决这个

Machine learning 使用NLP创建用户助手

标签： Machine Learning Nlp Artificial Intelligence linguistics

我在Coursera上学习一门名为“自然语言处理”的课程，虽然该课程内容丰富，但我想知道所提供的内容是否符合我的要求。基本上，我现在想作为一个项目实现Cortana或Siri的文本版本，也就是说，用户可以用自然语言为计算机输入命令，这些命令将被处理并翻译成适当的操作系统命令。我的问题是在处理语音后，上述应用程序的步骤顺序通常是什么？他们是标记文本然后解析它，还是有其他方法？它属于哪个NLP应用程序？有人能给我举一些同样的好资源吗？我唯一的疑问是，我现在所遵循的，是否对我的目标有任何重要作用

Machine learning 分离输入数据的机器学习模型

标签： Machine Learning

将这些引用视为示例： 1）卡恩，R.S。；英戈尔德，C。；Prelog，V.分子手性规范。安吉。化学。1966年国际版，5385-415。 2）克里斯蒂·G·H。；多核芳香化合物的分子构型。J.化学。Soc.，Trans。1922, 121, 614-620. 3）立体化学中的分子不对称，1933，803。 4） Oki，M.萎缩性肌无力的最新进展。立体化学主题1983，14，1-81。 5）宫田。；安田，A。；Takaya，H。；托里米，K。；伊藤，T。；苏奇，T。；Noyori，R.

Machine learning 为什么word2vec词汇长度与单词向量长度不同

标签： Machine Learning text-classificationgensimword2vec

我从中阅读了Kaggle的word2vec示例我不明白为什么模型的词汇长度与单词向量长度不同一个词向量上的每个单元格不是都代表了与词汇表中其他词的关系吗，所以每个词都与其他词有关系吗？如果不是，那么单词向量处的每个单元格代表什么非常感谢您的帮助。Word2Vec捕获一个单词的分布式表示，这本质上意味着，多个神经元（细胞）捕获一个概念（概念可以是单词的意思/情感/词性等），并且单个神经元（细胞）也贡献多个概念这些概念是自动学习的，不是预先定义的，因此您可以将它们视为潜在/隐藏的神经元（

Machine learning 大型不平衡数据的机器学习模型建议

标签： Machine Learning Neural Network classificationsvmlogistic-regression

我有分类问题的数据集。我一共上了50节课 Class1: 10,000 examples Class2: 10 examples Class3: 5 examples Class4: 35 examples . . . and so on. 我尝试使用SVM（线性核和高斯核）训练分类器。我对测试数据的准确率分别为65%和72%。现在我正在考虑建立一个神经网络。对于大型不平衡数据的机器学习模型和算法，您有什么建议吗？这对我非常有帮助根据我的经验，处理不平衡班级的最成功的方法是

Machine learning 早期停止：神经网络

标签： Machine Learning Neural Network

我正在使用SemEval2010任务8数据集进行关系分类。该数据集已分为8'000个样本用于培训，2'717个样本用于测试。为了尽可能公平，我在最后只使用我的模型来计算它的性能（F1分数）为了调整我的卷积神经网络，我保留了6'400个样本用于训练，1'600个样本用于验证。我训练模型，在每个历元（~10'计算）之后，我计算预测的F1分数我读了这篇文章，当最后三场比赛的成绩都在提高时，我就停止了训练（类似于文章中的上升）。在本文中，他们返回了与迄今为止所见的最佳性能相对应的模型我的问题是：为

Machine learning 如何为不同的客户预测不同的标签

标签： Machine Learning

假设我是一家图片托管公司，我想在所有客户的图片中进行人脸识别。我的每个客户都已经有了一组带标签的图片，我使用一种有监督的算法来标记新的图片问题是：我应该为每个客户使用不同的型号来标记他们的图片吗一方面，如果我为所有客户使用单一模型，我担心我可能会用客户B的标签标记客户a的图片。另一方面，如果我为每个客户使用一个模型，我将有数千个模型需要管理（部署、更新、监视…）.您可能希望在所有标签之间建立或学习层次结构。假设如下所示（树中的每个节点都是一个标签）：标签之间存在父子关系。例如，C1是B1的

Machine learning ValueError：检查模型目标时出错：预期密集_4具有形状（无，4），但获得具有形状（13252，1）的数组

标签： Machine Learning Tensorflow Keras keras-layer

嗨，有人知道为什么会发生这个错误吗？这里是错误 ValueError: Error when checking model target: expected dense_4 to have shape (None, 4) but got array with shape (13252, 1) 代码如下： from keras.models import Sequential from keras.layers import * model = Sequential() model.ad

Machine learning 相关变量的套索或岭

标签： Machine Learning regressionlasso-regression

我试图理解一句话：“在存在相关变量的情况下，岭回归可能是首选。” 假设我们有变量a1，a2，b1，c2，两个a是相关的。如果我们使用套索，它可以消除一个“s”。套索和脊都会收缩。因此，在这些条件下，套索可能会更好。但引用说山脊更好。这是一个错误的引语还是我遗漏了什么？（可能思考得太简单了）一般来说，没有首选的方法。套索可能会将某些系数驱动到0，而Ridge不会，但会缩小它们的值此外，Ridge的计算速度可能更快，因为最小化L2范数比L1范数（套索）更容易如果可能的话，为什么不实施这两种方

Machine learning CNTK:ValueError在函数中找到未绑定占位符

标签： Machine Learning Neural Network cntk

我正在处理CNTK，出现以下错误： ValueError：在函数中找到2个未绑定占位符“占位符（'keep'，[#，*]，[939]），占位符（'keep'，[#，*]，[939]）。在执行正向计算之前，必须将函数的所有占位符绑定（到变量） P1和P2被定义为C层。输入（939）在我的案例中，我能够找出问题所在。我必须将模型输出而不是模型本身作为参数传递给培训师构造函数 model=cntk.layers.Sequential（[l1，l2]）模型输出=模型（预测器）错误：培训师=c

Machine learning GPU在参数服务器上进行数据并行训练是否有效？

标签： Machine Learning Tensorflow google-cloud-mlgoogle-cloud-ml-engine

在上，我猜GPU实例对于参数服务器不一定有效，因为参数服务器只保留值，不运行任何计算，例如矩阵乘法因此，我认为下面的示例配置（参数服务器使用CPU，其他服务器使用GPU）具有良好的性价比： trainingInput: scaleTier: CUSTOM masterType: standard_gpu workerType: standard_gpu parameterServerType: standard_cpu workerCount: 3 parameterS

Machine learning Caffe：应该计算什么反向函数？

标签： Machine Learning Computer Vision caffe

我试图使用Python层为Caffe定义自定义损失函数，但我无法澄清什么是必需的输出。让层的函数定义为L＝SUFFXI，YI/BATCHYL大小，其中L是最小化函数，即Top[ 0 ]，X是网络输出底[0 ]，Y是地面真标签，即底[1 ]和席，Yi是一批中的第i个样本。欧几里德LossLayer的广为人知的例子表明，在这种情况下，后向层必须返回bottom[0]。diff[i]=dLx，y/dxi。我找到的另一个参考资料也显示了同样的情况：但在其他示例中，我看到它应该乘以top[0]。 1

Machine learning 如何在Movidius上测试定制的tensorflow模型？

标签： Machine Learning Artificial Intelligence

我开始在我的机器上运行movidius。它与这里描述的初始模型配合得很好但是，当我尝试使用上面链接中的给定命令创建我自己的自定义训练模型的图形文件时： mvNCCompile hehehe/model.ckpt.meta -in image_tensor -on detection_classes -s12 我得到这个错误：所以我试着打印输入节点的细节得到了这个那么，我在这里犯了什么错误？如何获取占位符的绝对值这是我在张力板上的图形结构他们仍在开发定制的模型，因为他们告诉我要提

Machine learning 错误：Kaggle笔记本中的设备上没有剩余空间

标签： Machine Learning Scikit Learn Jupyter Notebook kaggle

我试图使用scikit learn的cross_val_分数交叉验证我的模型。我尝试通过设置n_jobs=-1来使用多核，但结果是 OSError:[Errno 28]设备上没有剩余空间下面给出的代码导致错误： cross_val_score(mod1, train_feats1, target, cv=5, scoring=make_scorer(accuracy_score), n_jobs=-1) 鉴于： cross_val_score(mod1, train_feats1, ta

Machine learning Caffe-其他N次迭代的平均精度

标签： Machine Learning Neural Network Deep Learning caffepycaffe

我正在用Caffe训练神经网络。在solver.prototxt文件中，我可以设置average\u loss来打印过去N次迭代的平均损失。是否也可以使用其他值执行此操作例如，我编写了一个自定义PythonLayer输出精度，我还想显示过去N次迭代的平均精度谢谢编辑：这是日志。DEBUG行显示每个图像的计算精度，每3个图像（average\u loss:3和display:3）的精度随损失一起显示。我们看到只显示最后一个，我想要的是3）的平均值 Caffe仅对净损失（所有损失层的加权和）的

Machine learning Keras-mobilenet实现

标签： Machine Learning Neural Network Keras Deep Learning conv-neural-network

我想将mobilenet与深度乘子（或分辨率乘子）的不同值一起使用。这两行代码给出了以下错误。知道这里出了什么问题吗 from keras.applications.mobilenet import MobileNet basic_model = MobileNet(alpha=0.25, depth_multiplier=0.25, weights=None) 错误：回溯（最近一次呼叫最后一次）：文件“C:/Users/Pedro/Desktop/Work/Smile/files/CVP

Machine learning 输出标签的一种热编码

标签： Machine Learning classificationone-hot-encoding

虽然我理解需要对输入数据中的特性进行热编码，但对输出标签进行热编码实际上有什么帮助？张量流MNIST教程鼓励对输出标签进行热编码。然而，CS231n（斯坦福大学）中的第一个作业并不建议采用热编码。选择/不选择一个热编码输出标签背后的基本原理是什么编辑：我不确定投票结果被否决的原因，但为了详细说明，我遗漏了softmax函数和交叉熵损失函数，这通常用于多项式分类。这和交叉熵损失函数有关吗？话虽如此，即使输出标签不是一个热编码，也可以计算损耗。在输出不是基数的情况下使用一个热向量。假设您将输出编

Machine learning 加载Pyrotch模型，测试精度下降

标签： Machine Learning Pytorch

我有一个PyTorch模型，它的测试准确率约为95%-97%。我使用torch.save（my_model.state_dict（），PATH）保存它，但每当我尝试使用my_model.load_state_dict（torch.load（PATH））重新加载它时，我都会尝试使用test_fn（my_model）在相同的数据上测试它，测试精度会下降到0.06%左右。我正在尝试遵循建议的序列化语义（）无论我是否使用我的_model.eval（），都会发生这种情况（尽管通过default，我不会将

Machine learning 支持向量回归是如何工作的？

标签： Machine Learning regression

我试图理解SVR的模型要做到这一点，我看了SVM，这对我来说非常清楚。但是关于SVR没有太多的解释。第一个问题是为什么称之为支持向量回归，或者我们如何使用向量预测数值？此外，我不了解一些参数，例如epsilon和gamma。它们如何影响预测结果？支持向量机从您的特征中学习所谓的决策函数，这样，来自正类的特征产生正实数，而来自负类的特征产生负数（至少在大多数情况下，取决于您的数据）对于两个要素，您可以在二维平面中对此进行可视化。该函数为平面中的每个点指定一个实值，该值可以表示为颜色。将值显

Machine learning 如何在weka中找到后端生成的代码？

标签： Machine Learning classificationweka

我使用weka进行分类。如果我使用朴素贝叶斯对数据集进行分类，我如何在weka中看到朴素贝叶斯算法的后端代码有没有办法？？？Weka是开源的，所以您可以在中看到他们的代码。朴素的贝叶斯部分是

Machine learning 如何用八度音阶梯度下降法求解logistic回归？

标签： Machine Learning Octave logistic-regressiongradient-descent

我正在学习Andrews Ng的coursera的机器学习课程。我写了一个八度逻辑回归的代码。但是，它不起作用。有人能帮我吗我已从以下链接获取数据集：这是我的密码： pkg load io; [An, Tn, Ra, limits] = xlsread("~/ML/ML Practice/dataset/train_and_test2.csv", "Sheet2", "A2:H1000"); # As per CSV file we are reading columns from 1

Machine learning 线性回归问题总是分类为有监督机器学习问题吗

标签： Machine Learning linear-regression

线性回归问题总是分类为有监督机器学习问题，或者在任何特定条件下，它可以被视为无监督机器学习在某些情况下，它可以被视为无监督机器学习以自回归模型为例，其输入为时间t-1的值，预测值为时间t的值。这里有一个无监督的学习问题，因为输入和输出是一样的，就像你有一个没有Y的X，因此Y是X的下一个值然而，这种思维方式有很大的局限性，我会谨慎使用“无监督学习”这个词来表示简单的线性回归事实上，一些非监督学习问题可以通过监督学习的思维方式来学习。因此，线性回归始终是一种有监督的学习算法，但它可以用于实现无

Machine learning 文档重复性算法

标签： Machine Learning Nlp natural-language-processing

我收集了两个不同时期的文件。有迹象表明，在第1阶段编写的文件比在第2阶段编写的文件更简洁。他们都在同一个问题上我唯一能想到的是使用LZW算法，并计算压缩/原始文件的比率，以计算文档的某种简洁性我希望结果是：文件1-重复性指数或百分比=25%或类似指标。之后，我将使用重复性指数创建不同时期文档的数据框架，并进行统计测试以查看统计显著性你的编码问题到底是什么？嗨，沙漠怪人，谢谢你的回答。这不仅仅是一个编码问题，而是一个算法问题。我可以应用什么样的算法或方法来获得我需要的结果？谢谢！你的编码问

Machine learning 使用轮廓分数

标签： Machine Learning Scikit Learn Computer Vision cluster-analysis

我有一个数据集，每个数据点有9个类。对于属于dataset的每个图像，我将其传递给ResNet50，然后通过切掉最后一个来提取2048特征向量。我已将一个数据点的每行ResNet50特征向量以与csv文件相同的顺序保存在txt文件中我想计算数据集中每个类的Silouhette分数。我不知道如何继续我的设置。我没有太多的代码，但这里有一个开始：将熊猫作为pd导入从sklearn.metrics导入成对距离从sklearn导入集群、数据集、预处理、度量从sklearn.cluster导入K

Machine learning 我可以在GPU上运行包含seaborn代码的jupyter笔记本吗？

标签： Machine Learning Cuda Jupyter Notebook gpu

我的系统中有CUDA兼容的GPU（Nvidia GeForce 1060）。在分析一个更大的数据集时，我经常需要使用seaborn库的pair plot函数，这会消耗很多时间。有没有办法在GPU上运行我的整个笔记本电脑。我的意思是，除了seaborn，我想在GPU上运行我所有的代码，这可能吗我在youtube上观看了一些建议使用numba python编译器和jit注释的视频，我想知道是否有一个通用设置可以应用于anaconda框架，以便无论我在anaconda上运行什么，都应该使用GPU 我

Machine learning Librosa有助于读取音频文件，但在我的例子中，当我输入文件名时，它会显示未找到的运行时错误路径

标签： Machine Learning

我正在做一个项目，但我的问题是我的librosa库告诉我没有找到该文件，但它存在 # Load using Librosa y, sr = librosa.load(normal_file, duration=5) #default sampling rate is 22 HZ dur=librosa.get_duration(y) print ("duration:", dur) print(y.shape, sr) 错误： FileNotFoundError Traceba

Machine learning 试图理解回归的随机森林

标签： Machine Learning regressionrandom-forestdecision-tree

我试图理解回归的随机森林。我已经读了很多关于它的书，但我仍然觉得很难理解。我真正理解的是：随机森林将多个决策树的答案平均起来。每个决策树都是使用不同的样本和不同的特征子集构建的。然而，有些事情我还是不太明白如果我是正确的，一棵树是使用节点分割算法构建的。确实有不同的算法可用于分割节点吗？例如，我读过关于信息增益和标准差减少的文章在决策树的每个节点上，是否只考虑一个特征？从我所读到的内容中，我了解到决策树通过最小化误差平方和以分段线性方式拟合数据。这是正确的吗？因此每个装配件实际上是

Machine learning 我有一个数据集，我想使用NLP进行短语提取，但我无法这样做？

标签： Machine Learning Nlp Artificial Intelligence nltkword2vec

如何使用数据集从句子中提取短语，该数据集具有一些句子集和以 Sentence1:I want to play cricket Label1: play cricket Sentence2: Need to wash my clothes Label2: wash clothes 我已经尝试过将组块与nltk结合使用，但我无法将训练数据与组块一起使用您描述的提醒释义与其他类型的具有明确软件支持的短语并不完全对应例如，gensim短语模块使用纯粹的统计方法来发现相邻单词配对，这些配对相对于

Machine learning 多元回归模型的条件

标签： Machine Learning Statistics regressiondata-modelingnormal-distribution

有人能解释一下，当进行多元回归建模时，因变量和所有其他自变量都必须服从正态分布吗？或者只有足够的因变量（y）遵循正态分布。回归误差应该具有正态分布，通常变量本身不具有正态分布。考虑拟合直线上的数据：回归中使用的变量不遵循正态分布，但直线将适合数据。谢谢JAMESPHILLISPS为您提供支持。

Machine learning GENIMS FastText实施中的监督培训和测试

标签： Machine Learning Text classificationgensimfasttext

我目前正在使用Gensim的无监督培训方法培训一个Gensim FastText模型，其中包含来自某个领域的文档在对单词表示法进行训练之后，我想训练一组句子+标签行，并最终测试模型，并返回精度和召回值，就像通过训练+测试在facebooks fastText实现中一样。GenSims实施是否支持监督培训和测试？我找不到所需的方法非常感谢您的帮助。Gensim的FastText实现迄今为止选择不支持与Facebook原始FastText相同的受监督的模式，已知的标签可以用来驱动词向量的训练——

Machine learning 对于波士顿房价数据集，我应该使用哪个随机森林分类器或回归器

标签： Machine Learning Scikit Learn

在特定问题中，如果我的预测列的值在5-50之间。所以我应该使用RandomForestRegregator还是RandomForestClassifier 这个问题与波士顿房价有关。预测列-->（自住房屋的MEDV中值，单位为1000美元）另外，我在某个地方读到，如果预测值已知，我们应该使用分类器，否则使用回归器。您的预测列具有连续值，因此这是回归问题可以使用线性回归模型您的问题的快速答案是随机森林回归器您可以参考文档房价是连续值，因此无法使用分类器进行预测。中的示例可以很容易地为您

Machine learning 为什么不累积查询损失，然后使用Pytorch和更高版本在MAML中进行衍生？

标签： Machine Learning Pytorch

在执行MAML（模型不可知元学习）时，有两种方法可以执行内部循环： def inner_loop1(): n_inner_iter = 5 inner_opt = torch.optim.SGD(net.parameters(), lr=1e-1) qry_losses = [] qry_accs = [] meta_opt.zero_grad() for i in range(task_num): with higher.in

Machine learning CRF和全连接CRF之间的区别？

标签： Machine Learning Image Processing semantic-segmentationdeeplab

有人能给我解释一下条件随机场和完全连接的条件随机场在语义分割方面的区别吗？到目前为止，我只了解到，在CRF中，您尝试使用两种信息来改进分段掩码：像素强度：对于到类之间的边，最好的猜测是像素强度。这样我们就可以对物体的边缘进行加权像素接近度：如果像素靠得很近，它们很可能属于同一类。如果不这样做，我们将在另一个类的实例中解释对象内部的边，例如backround 我的假设正确吗？对于CRF或完全连接的CRF，或者两者都是如此谢谢你说得有点对，但我会尽量让它更精确，并解释它们的区别首先，条件

Machine learning PyTorch中的每历元精度

标签： Machine Learning Nlp Pytorch

我已经使用Pytork制作了一个聊天机器人，并希望在每一个历元上显示准确度。我不太明白怎么做。我可以显示损失，但不知道如何显示我的准确性这是我的密码：- from nltk_utils import tokenize, stem, bag_of_words import json import numpy as np import torch import torch.nn as nn from torch.utils.data import Dataset, DataLoader from

Machine learning 未标记数据的文本分类

标签： Machine Learning supervised-learningsemisupervised-learning

我想根据给定的参数将数据分为两类。我的数据是来自两个不同来源的出版物，我想将其分为“匹配”或“不匹配”；比较数据集1和数据集2时。数据集是未标记的文本数据，包含五个属性（id、标题、作者、地点、年份），因此如果我应用无监督算法，它将不会生成我的目标类。另一方面，监督算法需要标记不可用且耗时的数据在python中实现这一点的最佳和最简单的方法是什么最佳、最简单且可行的方法如下：使用clustering算法，如K-Means，将数据点分为两个簇现在，手动检查其中一个集群的一些样本，并对其进

Machine learning 预测成功是二元的模型

标签： Machine Learning

当我学习ML时的初学者问题-大多数模型似乎是为了预测最终值而设计的，但是我有多个模型，结果是二元的（成功/失败）除了将预测四舍五入到整数之外，还有更好的方法来开发模型吗？有许多ML模型，最好的模型取决于问题和数据 ML中有三个主要的不同问题：监督学习（使用标记数据训练算法）无监督学习（算法用于未标记的数据）强化学习（不需要标记输入/输出、探索/探索）你说的是监督学习，我们有回归算法或分类问题，两者都有相同的概念，即利用已知数据集（称为训练数据集）进行预测当我们有一个输出为二进制

Machine learning 理解LSTM预测的输出

标签： Machine Learning Nlp Pytorch lstmtext-processing

这是一个15级分类模型，输出尺寸=15。我试着输入一个频率向量，像这样的“嗨，我的名字是”=>[1,43,2,56] 当我调用predictions=model（x_train[0]）时，我得到一个大小为torch.size（[100，15]）的数组，而不是像这样只有15个类的1D数组：torch.size（[15]）。发生了什么事？为什么这是输出？我怎样才能修好它？提前谢谢你，更多信息如下模型如下所示： import torch.nn as nn class RNN(nn.Modul

Machine learning “可变重要性”；“MLR3过滤器”；不在“中工作”；mlr3proba“；使用“预处理”对数据进行预处理后；“MLR3管道”；

标签： Machine Learning mlr3data-preprocessing

使用mlr3proba和mlr3pipelines和mlr3filtersR包运行下面的代码，在预增强的数据集上实现rpart算法，并执行“变量重要性”，显示错误： task <- tsk("iris") learner <- lrn("classif.rpart") learner <- po("encode") %>>% po("scale") %>>% po(&qu