Video streaming 用现代软件击败图灵测试的可行性？_Video Streaming_Speech Recognition_Videochat_Chatbot

Video streaming 用现代软件击败图灵测试的可行性？

video-streaming speech-recognition

Video streaming 用现代软件击败图灵测试的可行性？,video-streaming,speech-recognition,videochat,chatbot,Video Streaming,Speech Recognition,Videochat,Chatbot,我从学术角度提出这个问题，我想大声提出一个非常重要的问题，并让社区尝试回答它。我们能否构建一个系统，生成一个场景，在一个匿名的视频聊天室中播放，该聊天室可以读取键入的文本，并用聊天机器人进行响应网络直播视频通常模糊且分辨率低。在远处聚会的场景中，人们看不清许多细节。可以使用现代软件工具渲染场景，这些工具在不移动时看起来非常真实。让他们真实地移动是一个很大的模拟软件可以使用每秒1帧的24个系统集群以每秒24帧的速度渲染面。然后，视频将有一个1秒的延迟，从该点作出决定，以产生面部表情。这些面部表

我从学术角度提出这个问题，我想大声提出一个非常重要的问题，并让社区尝试回答它。我们能否构建一个系统，生成一个场景，在一个匿名的视频聊天室中播放，该聊天室可以读取键入的文本，并用聊天机器人进行响应

网络直播视频通常模糊且分辨率低。在远处聚会的场景中，人们看不清许多细节。可以使用现代软件工具渲染场景，这些工具在不移动时看起来非常真实。让他们真实地移动是一个很大的模拟软件

可以使用每秒1帧的24个系统集群以每秒24帧的速度渲染面。然后，视频将有一个1秒的延迟，从该点作出决定，以产生面部表情。这些面部表情及其生成是一个关键问题。皮肤真实感需求是图形社区解决的问题

一些研究人员对面部表情进行了分类。它们也可以被渲染，这已在现代计算机图形学文献中得到证明。如果我们能知道哪一种方法适合特定的情况，我们就可以这样做

聊天机器人已经使用了几十年。现在有相当“智能”的聊天程序，可以阅读所问内容并以合理的方式回答。他们总是用文本来做这件事，但是文本阅读器软件可以用人类的声音说话，语音识别软件每年都在进步

我的建议是，连接软件开发的所有这些不同部分并创建一些真正令人惊奇的图灵测试工具应该是非常基本的

这个程序可以进入一个虚拟空间，像其他参与者一样在网络摄像头上显示真实的环境。它可以观察他们的面部表情，它可以听他们的讲话，它可以阅读他们的文字。然后，它可以创建一个响应，然后键入或将其回复给小组。选择应对方式是一个困难的问题，甚至大多数人都没有掌握。我们可以通过大量的工作来接近它

图灵测试是关于证明一个交流者是一个人，但“证明”的意义仅在于它足以愚弄人类法官。如果人类法官只是每个人，他们就不可能采用严格的正式程序。猜一猜或者爱上一个把戏就足够了

你认为我们能做到吗

这个计划有缺陷吗？以这种方式欺骗普通观众是否有道德含义？通过生成个人智能助理，我们能赚数百万美元吗？

我们不能通过传统的基于文本的图灵测试。在顶部添加视频是不相关的。

最大的问题不是渲染外观（视觉或声音），而是渲染智能和情感

你建议的是实时史莱克的前端。但是后端呢？

我不同意你的问题，但我觉得有必要指出，你严重误解了图灵测试的意义。这与看起来像人或听起来像人无关

事实上，大多数提议的测试都涉及一个延时电传终端，因此除了测试中的实际通信之外，信息传输尽可能少

我不想打破你的幻想，但是现在这一代的聊天机器人，甚至实验室里最先进的人工智能，都远远不能打败图灵测试。很快就会发现那里没有真人。

这方面的研究已经在进行中。数字化身的使用取得了一些成功。其中一些要点：

现代个人电脑可以实时呈现令人信服的人脸，没有问题。只要放入一张中等gfx卡和一个好的模型，你就完成了。（例如，见）
当前的语音生成软件可以生成流畅的文本，并且能够正确发音。这仍然有点单调，因为演讲者没有感情。（见附件）
有研究使机器“感觉”。我之所以说“感觉”，是因为它基本上只是一个小程序，包含几个变量（“愤怒”、“恐惧”、“饥饿”、“无聊”、“悲伤”…），以及一组影响这些变量的复杂规则。（见附件）

现在的主要问题是我们不知道什么是情绪。它们只是漂浮在大脑某些部分的分子量吗？如果是的话，哪些分子和在大脑的哪个部分？今天的神经科学家试图通过观察MRT图像来预测精神状态。为了理解这意味着什么，这里有一个类比：他们试图通过肉眼观察月球发出的光在地球上的分布来猜测人类在干什么

所以我们不明白什么是情绪。下一个障碍是，没有上下文，情绪毫无意义。只需将变量

said

的值设置为1.0，就可以轻松编写感觉“悲伤”的程序。但如果没有理由的话，那会觉得很奇怪。因此，程序必须能够跟踪对话，建立对话的心理形象（人们正在谈论什么，他们现在感觉如何），然后根据各自小组的当前规则调整自己的心理状态

你知道当你第一次加入一个新的团体时的感觉，并且试着掌握正在发生的事情以及你应该如何表现。这对人类来说是一项艰巨的任务，对一个程序来说更是如此

这里有一篇文章（仅限于Geman，但很不错。）

虽然这篇文章很有趣，可能会成为一篇很棒的博客文章，但在这里并不合适。此外，您对聊天机器人的性能过于乐观。图灵测试可以通过电报完成，你的想法与真实问题无关。我会的