Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/opencv/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Opencv CNN人脸表情识别数据的准备_Opencv_Machine Learning_Computer Vision_Deep Learning_Face Recognition - Fatal编程技术网

Opencv CNN人脸表情识别数据的准备

Opencv CNN人脸表情识别数据的准备,opencv,machine-learning,computer-vision,deep-learning,face-recognition,Opencv,Machine Learning,Computer Vision,Deep Learning,Face Recognition,我对面部表情识别领域还很陌生,目前我正在通过深度学习(特别是CNN)对此进行研究。关于准备和/或预处理我的数据,我有一些问题 我对正面面部表情的视频进行了分段(例如,一个人根据自己的注释表达快乐情绪的2-3秒视频) 注意:我的参与者展示的表情强度很低(不是夸张的表情/微表情) 《深度学习lib库》(TensorFlow),我应该如何准备我的数据来训练美国有线电视新闻网(我有点倾向于使用一个深度学习图书馆,?) 问题1:我读过一些基于深度学习的面部表情识别(FER)论文,建议将该表情的峰值(很可能

我对面部表情识别领域还很陌生,目前我正在通过深度学习(特别是CNN)对此进行研究。关于准备和/或预处理我的数据,我有一些问题

我对正面面部表情的视频进行了分段(例如,一个人根据自己的注释表达快乐情绪的2-3秒视频)

注意:我的参与者展示的表情强度很低(不是夸张的表情/微表情)

《深度学习lib库》(TensorFlow),我应该如何准备我的数据来训练美国有线电视新闻网(我有点倾向于使用一个深度学习图书馆,?) 问题1:我读过一些基于深度学习的面部表情识别(FER)论文,建议将该表情的峰值(很可能是一张图像)作为训练数据的一部分。我怎么知道一个表达式的峰值?我的基础是什么?如果我只拍一张照片,我的参与者所展示的微妙表达的一些重要框架难道不会丢失吗

问题2:或者在OpenCV中执行分段视频,以便检测(例如Viola Jones),裁剪并保存每帧的人脸,并将这些图像作为我的训练数据的一部分及其相应的标签,这也是正确的吗?我猜有些面部框架是多余的。然而,由于我们知道数据中的参与者表现出低强度的表情(微表情),因此面部的某些动作也可能很重要


我非常感谢任何能回答的人,非常感谢

答案1:通常我们总是依靠人类的感觉来决定哪种表情是表情的顶峰(我认为你可以区分微笑和大笑的区别)


答案2:如果你想得到一个好的结果,我建议你不要像@unique monkey已经指出的那样对待数据如此粗鲁

,这通常是一项有监督的学习任务。如果您希望提取一个独立的“峰值”点,我建议您扫描输入图像,并在每个序列中找到参考点与受试者静息状态偏差最大的一个


如果你没有得到休息状态,那么视频剪辑是如何裁剪的?例如,受试者是否被要求做出并保持表情?剪辑覆盖了整个表达式的哪一部分(之前、之后、之后)?获取视频剪辑的一个或两个端点;绘制参考点从每一端的运动曲线图,寻找差异最大的帧,然后转向另一端。

回答1:没错,通过人类感知很容易识别表达式,但是,如果说某个特定表达式是(例如),这不是有失偏颇吗根据我的判断,快乐吗?如果对其他人来说不是呢?我如何知道他/她是否表达了恐惧、愤怒等?回答2:事实上,我对此持中立态度,你能证明为什么我的参与者表现出低强度的表达?面部的小动作难道不重要吗?@Renz你可以自己判断,问题的关键是机器学习模型是否可以与你有相同的判断……对不起,我仍然不相信手动选择某个特定的表情峰值,因为它可能会对我的理解产生偏见。我想如果你有一些论文能做到这一点,我会很有帮助,所以我可以自信地对此进行辩论。谢谢,这就是我忘了说的。我的数据包含自发的面部表情。起初,一个主题在整个课程中进行某项活动时被录制下来。课后,他/她被要求对整个活动进行注释,其中,如果他/她认为视频中某段时间内的某个特定表情例如是快乐的,他/她会将该段时间注释为快乐。这就是过程。视频的裁剪取决于受试者的注释,因此我认为如果由我来确定峰值,这可能是一种主观判断。感谢这意味着你在视频中确实有一个休息状态,然后,受试者自己对处于非特定情绪状态的评估。在这种情况下,我的第一段就适用了。谈到你的后一点,是的,用视频剪辑来表达整个情绪是很有用的。然而,我对该领域的理解是,这对于你的应用来说是过分的:一个具有代表性的“峰值”帧就足够了。谢谢你,我很开明:)我还忘了提到,在2-3秒的视频剪辑中,有一些小动作发生,而不仅仅是某个特定表情的静止视频。这就是为什么我坚持不只是采取一个代表性的“峰”帧的原因。因此,作为澄清,可以使用视频片段的整个片段来表达整个情感,对吗?是的,可以。请注意,此时间序列为您的分类问题添加了一个维度。也许您可以通过使用参考点随时间变化的向量替换视频来降低复杂性。也许你已经这么做了。