GPT-4o：全新交互时代的来临

14 5 月 2024

GPT-4o：全新交互时代的来临

OpenAI发布全新多模态大模型GPT-4o，实现跨模态理解和交互

近日，全球人工智能领域领军企业OpenAI正式发布了全新一代多模态大模型产品——GPT-4o。这款产品的最大亮点在于将各种模态如视觉、音频和文本等集成为一个模型，实现了更为精细的多模态整合，且延迟仅有300毫秒左右，能准确感知情绪、语气、表情，从而实现更为自然的交互。这一突破性成果有望为人们未来的信息获取方式带来重大变革。

相较于上一代产品GPT-4，GPT-4o在多个方面实现了显著提升。首先，它将所有模态集成在一个模型中，使得多模态整合更为精细；其次，GPT-4o能在短短300毫秒内响应音频输入，平均响应时间为320毫秒，与人类的对话响应时间相近；最后，GPT-4o具备较强的情感理解能力，能够在交流过程中实时感知对方的变化并做出相应回应。

此次GPT-4o的发布标志着OpenAI在多模态领域的竞争优势得到巩固，同时也意味着原生多模态时代的来临。在未来，人们获取信息的方式可能会发生重大变革，GPT-4o或许将成为打开超级入口的关键一步。然而，OpenAI在产品极致体验方面是否会追求极致仍需观察。

据OpenAI副总裁、NextEvo负责人徐鹏透露，GPT-4o已在超自然交互模式上取得巨大进步。此外，OpenAI还计划在未来几周内向Plus用户推出语音模式，并在API中逐步引入对新音频和视频功能的GPT-4o支持。

专家分析认为，OpenAI通过实现跨模态理解和交互，为人们带来了更为便捷、高效的信息获取方式。随着技术的发展，GPT-4o有望成为新一代交互模式的代表，引领人们进入全新的智能生活时代。

8点精要

8点精要

GPT-4o：全新交互时代的来临

八点精要

发表回复取消回复

8点精要

8点精要

GPT-4o：全新交互时代的来临

GPT-4o：全新交互时代的来临

八点精要

发表回复 取消回复

发表回复取消回复