当前位置: 首页 > 资讯 > 科技 > OpenAI向付费订阅者解锁GPT-4o语音功能:打造流畅自然的即时对话体验
  • 0
  • 0
  • 分享

OpenAI向付费订阅者解锁GPT-4o语音功能:打造流畅自然的即时对话体验

OpenAI 2024-07-31 10:21:28 爱吃爆米花

7月31日消息,OpenAI于此前宣布,将从即日起初步向部分ChatGPT Plus用户推出GPT-4的语音模式(Alpha版),并计划在今年秋季将此功能拓展至所有ChatGPT Plus订阅者,标志着AI交互迈向更加自然与便捷的新阶段。

今年 5 月,OpenAI 首席技术官米拉·穆拉蒂(Mira Murati)在演讲中提到:

在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。

OpenAI 公司原计划今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式,但官方在 6 月宣布推迟,表示需要更多时间打磨该模型,提高该模型检测和拒绝某些内容的能力。

根据此前曝光的信息,GPT-3.5 模型的平均语音反馈延迟为 2.8 秒,而 GPT-4 模型的延迟为 5.4 秒,因此在语音交流方面不太优秀,而即将推出的 GPT-4o 可以极大地缩短延迟时间,近乎无缝对话。

GPT-4o 语音模式具有快速反应、声音堪比真人等特征,OpenAI 更称 GPT-4o 语音模式可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。

OpenAI 发言人林赛·麦卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的声音,包括个人和公众人物的声音,并且会阻止与预设声音不同的输出。”

来源:it之家
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/71626.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热门游戏
换一换
热门软件
换一换