Python 数据科学模型和培训-理解

Python 数据科学模型和培训-理解,python,machine-learning,artificial-intelligence,jupyter-notebook,data-science,Python,Machine Learning,Artificial Intelligence,Jupyter Notebook,Data Science,来自编写代码、测试、部署和运行的编程背景。。我试图在数据科学中围绕“训练模型”或“训练模型”的概念,并部署该训练模型 我并不真正关心部署环境、自动化等。。我正在努力了解部署单位。。训练有素的模特。训练有素的模型在文件系统上看起来像什么,它包含什么 我理解训练模型的概念,并将一组数据拆分为训练集和测试集,但假设我有一个笔记本(python/jupyter),我加载一些数据,在训练/测试数据之间拆分,并运行一个算法来“训练”我的模型。我的可交付成果是什么?当我在训练一个模型时,我会认为内存中存储了一

来自编写代码、测试、部署和运行的编程背景。。我试图在数据科学中围绕“训练模型”或“训练模型”的概念,并部署该训练模型

我并不真正关心部署环境、自动化等。。我正在努力了解部署单位。。训练有素的模特。训练有素的模型在文件系统上看起来像什么,它包含什么

我理解训练模型的概念,并将一组数据拆分为训练集和测试集,但假设我有一个笔记本(python/jupyter),我加载一些数据,在训练/测试数据之间拆分,并运行一个算法来“训练”我的模型。我的可交付成果是什么?当我在训练一个模型时,我会认为内存中存储了一定数量的数据。。那么,这是如何成为训练有素的模型的一部分的呢?它显然不能包含用于培训的所有数据;例如,如果我正在培训一个聊天机器人代理(基于检索),那么在我添加/输入用户问题或“意图”的示例之后,作为培训的一部分,实际发生了什么事情?对于一个经过培训的模型,我可以部署什么?这个经过训练的模型是否包含来自训练或术语数组的某种数据总和,它能得到多大(可部署大小)

虽然问题似乎相对简单,“什么是训练有素的模型”,但我如何用简单的术语向devops技术人员解释它?这是一个“对数据科学感兴趣的IT人员试图在与数据科学人员的讨论中理解经过培训的模型的有形单元”


谢谢

这取决于型号。例如,线性回归,训练将为您提供斜率和截距的系数(通常)。这些是“模型参数”。在部署时,传统上,这些系数被输入到不同的算法中(字面上是y=mx+b),然后当被询问“当我有x时,y应该是什么”时,它会以适当的值进行响应

Kmeans聚类另一方面,“参数”是向量,预测算法计算从给定向量到算法的距离,然后返回最近的聚类-注意,这些聚类通常经过后处理,因此预测算法会说“鞋子”而不是“[1,2,3,5]”,这再一次说明了这些东西在野外是如何变化的

深度学习返回一个图的边权重列表,各种参数系统(如在最大似然估计中),返回描述特定分布的系数,例如均匀分布是桶数,高斯/正态分布是均值和方差,其他更复杂的分布有更多,例如歪斜概率和条件概率。

经过训练的模型(pickled)或任何您想要使用的模型,至少包含经过训练的特征。例如,以一个简单的基于距离的模型为例,您根据(x1、x2、x3、x4)特征非常重要这一事实设计模型,并且如果任何点与模型接触,则应返回计算的距离,根据该距离您可以得出见解或结论。
类似地,对于聊天机器人,您可以根据需要的任何功能进行训练。一旦文本与模型接触,就会根据模型提取特征,并得出见解/结论。希望对你有帮助!!我试着解释费曼方法。

经过训练的模型将包含其参数值。如果只调整了几个参数,则只有这些参数将包含新的调整值。未更改的参数将存储默认值。

它包含模型的参数。那可以是任何东西。例如一个决策树,或者一个神经网络的权重,等等,我在很多文章和博客中都听说过“它包含参数”,这对于线性回归是有意义的,但是以聊天机器人为例,我正在加载所有这些意图,我是否在构建某种参数文件?所有这些文本如何将其转换为参数?什么是可部署的?另外,如果我正在创建一个聊天机器人,在那里输入一堆预期的问题,并提供回答,那么培训一个模型的目的是什么?您不能从与输入的意图密切匹配的数据库条目中选择响应吗?我只是想更好地理解……你需要缩小范围。如果你想要具体的细节,没有一个答案。也就是说,如果你使用的是简单的回归模型,那么这可能是一个简单的系数序列。@byte crunch:训练模型的想法是你不确定答案是什么,但模型(通常基于统计)计算最可能的答案应该是什么。