在发布会刚开始,OpenAI 就发布了一款名为 chatGPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。
OpenAI 首席技术官 Muri Murati 表示,chatGPT-4o 提供了“GPT-4 级别”的智能,但改进了 chatGPT-4 在文本、视觉以及音频方面的能力。
“chatGPT-4o 通过语音、文本和视觉进行推理,”Murati 在 OpenAI 办公室的主题演讲中说道。为了让其更加智能,OpenAI 团队在语音模式背后添加了新技术,人们可以用麦克风与 ChatGPT 交谈。
OpenAI 之前的领先模型 chatGPT-4 接受了图像和文本组合的训练,可以分析图像和文本以完成从图像中提取文本甚至描述这些图像内容等任务。
chatGPT-4o 不仅可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。此外,chatGPT-4o 具有先进的音频理解能力,并且可以控制其声音(听起来像机器人、声音兴奋、舒缓等)。
虽然这背后的更多技术细节没有公布出来,但 OpenAI 表示,现在 chatGPT-4o 在 50 种语言中的速度更快,也许使用的技术与他们在 chatGPT-4 上加速日语的技术相同。借助 chatGPT-4o/ChatGPT 桌面应用程序,用户可以有个编程伙伴一起交谈,并看到您所看到的内容。
本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。