Algorithm 机器学习算法是否复制它从中学习的数据?

Algorithm 机器学习算法是否复制它从中学习的数据?,algorithm,machine-learning,neural-network,artificial-intelligence,deep-learning,Algorithm,Machine Learning,Neural Network,Artificial Intelligence,Deep Learning,我不是一名程序员,而是一名法律专业的学生,但我目前正在为一个涉及人工智能和版权法的项目进行研究。我目前正在研究,如果机器学习算法使用受保护的作品,那么机器学习算法的学习过程是否可能侵犯版权。然而,这取决于算法是否复制工作或执行其他操作 有人能告诉我机器学习算法是否通常复制他们正在分析的数据(图片/文本/视频等)(即使只是简单地复制),或者是否能够通过不需要复制的其他方法从数据中获得所需的信息(类似于一个人看着停车标志并将其识别为停车标志,而不必复制图像) 为我的知识不足道歉,如果我的任何解释与任

我不是一名程序员,而是一名法律专业的学生,但我目前正在为一个涉及人工智能和版权法的项目进行研究。我目前正在研究,如果机器学习算法使用受保护的作品,那么机器学习算法的学习过程是否可能侵犯版权。然而,这取决于算法是否复制工作或执行其他操作

有人能告诉我机器学习算法是否通常复制他们正在分析的数据(图片/文本/视频等)(即使只是简单地复制),或者是否能够通过不需要复制的其他方法从数据中获得所需的信息(类似于一个人看着停车标志并将其识别为停车标志,而不必复制图像)

为我的知识不足道歉,如果我的任何解释与任何已确立的机器学习知识相悖,我也很抱歉。正如我所说,我只是一个卑微的法律学生


提前感谢!

这取决于“复制”一词的含义。如果你运行任何程序,它都会将数据从硬盘复制到RAM中进行处理。我想这不是你的意思

假设你在一台特定的机器上有受版权保护的数据,你在数据上运行你的机器学习算法,那么算法就没有理由把数据从机器上复制出来

另一方面,如果您使用云ML服务(AWS/IBM Bluemix/Azure),则需要先将数据上载到云,然后才能运行ML算法。这意味着您正在复制数据

希望这能让你看到更多的光明


低级的ML学生通常不会。典型的ML算法对其输入所做的第一件事不是复制或存储它,而是基于它来计算一些东西,然后忘记原始的。这是对神经网络、回归算法和统计方法所做的公平描述。主流算法中没有“恒等记忆”我想任何这样做的东西都会被当作数据库或全文索引引擎之类的东西来销售


但是,如果不先将数据复制到机器上,如何将数据呈现给运行在机器上的算法?

一些机器学习算法实际上保留了训练集的一个副本,例如k-近邻。请参阅。并非所有算法都这样做;事实上,这通常被视为一个缺点,因为训练集可能会被删除通用电气

此外,计算机也是围绕着大量不同大小和速度的数据存储而构建的。它们通常在处理数据时将正在处理的数据复制到小型快速存储中,因为大型存储的读写时间要长得多。其中一个可能的例子是whic的法律纠纷h我知之甚少-请参阅例如和其他有关浏览器缓存版权的信息。如果计算机添加了两个数字,它肯定会将其存储在其内部内存中。很可能它会将其中至少一个数字存储在所谓的内部寄存器中-非常小非常快的内存,用于存储要处理的数字


如果是计算机(或任何其他电子设备)用于处理机密数据,通常从那时起将其视为机密数据,最坏的情况是假设它可能保留了用于处理的任何数据的某些副本,即使从中检索该数据实际上需要大量专业知识和专业设备。

有些机器会复制数据集,如KNN。不幸的是,这种算法在实践中并不常用,因为它们无法对大型数据集进行缩放

大多数ML算法使用数据集来识别模式,这就是为什么模式识别是机器学习的另一个名称。模式几乎总是比原始数据集小得多(在内存和变量等方面)

机器学习算法是否复制它从中学习的数据

有许多不同的机器学习算法。如果你说的是(k-NN),那么答案就是

然而,k-NN很少使用。大多数(所有?)其他模型都不是那么简单。通常,机器学习开发人员希望模型对训练数据进行压缩(大量、有损),原因有几个:(1)训练数据量大(很多GB),(2)如果对训练数据进行压缩,泛化可能更好(3)如果不压缩数据,推断新示例可能需要很长时间。(所谓“压缩”,我的意思是提取任务的相关信息,删除不相关的数据。不是通常意义上的压缩。)

对于其他模型比K-NN,答案更复杂。<强>它取决于在你认为的“拷贝”上。例如,从人工神经网络(特别是子类型,短:CNNs)可以部分地恢复训练数据。这些模型为许多(所有)计算机视觉任务提供了最先进的技术。

我找不到证明你可以(部分)的文件恢复/提取CNN的培训数据,重点关注可能存在的隐私/版权问题,但我70%确定我已经阅读了关于这个问题的摘要。我想我也听过一次演讲,一位研究人员说,在构建儿童色情探测器时,这是一个问题。然而,我不认为这是有记录或发表过任何东西关于这个

以下两篇论文表明,从CNN恢复训练数据是可能的:


谢谢你的回复,Chris。关于算法如何获取数据,在给定一组定义的数据的情况下,这可以从版权所有者处获得许可,不会带来太多棘手的法律问题。我更感兴趣的是