Machine learning 图像识别样本量，对于完全等同于图片的对象是否需要更大的样本量？_Machine Learning

Machine learning 图像识别样本量，对于完全等同于图片的对象是否需要更大的样本量？

machine-learning

Machine learning 图像识别样本量，对于完全等同于图片的对象是否需要更大的样本量？,machine-learning,Machine Learning,我现在有一个每个字母的列表，字母表中的大写字母。字体是恒定的，即我的输入将始终是相同的字体鉴于字体是恒定的，我真的需要多个字母吗？或者我可以用每个字母训练一个程序吗？如果我需要每个字母有多个图像，我可以通过机器学习算法运行同一个图像并假装它是第二个图像吗？（请注意，由于字体相同，因此第二个图像将完全相同） “打印屏幕”然后一次捕获一个特定的字母需要大量的工作，所以我基本上想知道是否可以将所有的图像复制粘贴50次，使我的52个样本变为2600个样本我正在使用scikit learn on py

我现在有一个每个字母的列表，字母表中的大写字母。字体是恒定的，即我的输入将始终是相同的字体

鉴于字体是恒定的，我真的需要多个字母吗？或者我可以用每个字母训练一个程序吗？如果我需要每个字母有多个图像，我可以通过机器学习算法运行同一个图像并假装它是第二个图像吗？（请注意，由于字体相同，因此第二个图像将完全相同）

“打印屏幕”然后一次捕获一个特定的字母需要大量的工作，所以我基本上想知道是否可以将所有的图像复制粘贴50次，使我的52个样本变为2600个样本

我正在使用scikit learn on python，并将测试各种有监督的学习算法来识别字母。

不仅要区分不同的字母，还要处理诸如小旋转、平移或变形等问题

一个有用的神经网络（OCR的通用模型）需要针对包含这些变换的标记数据进行训练。您可以从每个字母一个图像开始，以编程方式以增量旋转和翻译它，以生成许多标记的训练示例

因此，对于“原始”示例，您当然可以使用所需字体渲染单个字母并将其保存到文件中，而不是使用文字屏幕捕获。

我不明白为什么需要处理旋转、其他变换等，因为输入的字体和大小始终相同，因此不会出现这些变形。关于不使用文字屏幕截图，这些信件是作为截图提供给我的，所以我别无选择。所以问题仍然是…我能用52个相同的例子乘以50次吗？这取决于你的应用。经典/原创OCR应用程序正在识别手写的美国邮政邮政编码。在那里，封套可能不在相机下方，完全笔直（旋转），可能偏到一边（平移），或者书写可能不流畅（其他变形）。如果这听起来像你，那么你需要这些训练示例。如果没有，那么也许你没有。