周鸿祎谈GPT-4o:给AI装上眼睛耳朵嘴巴

新浪科技讯 5月14日上午消息,昨日,OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o引发广泛关注。今日,360集团创始人、董事长周鸿祎发表视频分享了自己对于GPT-4o技术原理的理解和潜在的社会影响。

在谈及GPT-4o的技术原理时,周鸿祎指出,据OpenAI发布会上简短的技术原理介绍,区别于传统将把语音先翻译成文字处理后再翻译成语音的做法,这次的技术是直接把语音进行了处理,形成了一个整合的大模型引擎,实现对语音输入的直接理解——包括把语音中饱含的情绪、感情、语调、口音这些细节都进行了理解,同时是直接输出语音。

“这就带来了一个全新的体验,就是时延大概只有300毫秒左右,达到了人类和人类谈话的响应速度,这样不仅能听得懂你话里的情绪,在输出回答的时候也可以伴随着高兴、悲伤、失望、兴奋或者是更复杂的感情。”周鸿祎表示。

周鸿祎还指出,除了语音处理层面带来的惊艳之外,有一个容易被忽视的地方是,实际上GPT-4o的还可以直接打开手机摄像头,直接通过手机摄像头赋予它更强大的眼睛的能力。这个可能还比不上Sora,但是它比GPT-4.5的版本可以输入图片输入表格的能力又提升了一步。“所以总结来讲就是,GPT-4.0相当于给人工智能赋予了对知识理解的能力,相当于有了一个大脑,然后GPT-4.5相当于给了一些初级的看见的能力,而GPT-4o实际上是给它增加了真正能看懂这个世界的眼睛,和能听明白人说话的耳朵,而且嘴巴还能够自由自在地表达自己情绪和情感的能力。”。

在周鸿祎看来,有些人会对此次发布OpeanAI没有推出GPT-5.0觉得比较失望,但是通向通用人工智能不仅是要在超级的推理能力、知识能力、逻辑能力上要赶超人类,更重要的能力还包括跟人交互的能力。所以,当AI能通过无论是手机摄像头还是无处不在的物联网摄像头更看明白这个世界,而且能以跟人一样的响应速度进行交互的时候,这件事就变得非常可怕了,“也就是它就让人工智能真正的更像人了”。(文猛)

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。