近日消息,OpenAI在不久的将来,特别预计在5月13日这一天,将公开其最新的多模态人工智能模型成果。
这款创新模型已经悄然向特定客户群体展示了其卓越能力,不仅能够实现流畅的语音交互对话,还融入了先进的物体识别技术,预示着AI技术的一次重要飞跃。
报道称,相比于 OpenAI 现有的独立图像识别和文本转语音模型,该新型模型能够更快、更准确地处理图像和音频信息。例如,它可以帮助客服人员“更好地理解来电者的语气语调,判断他们是否在使用讽刺语气”。理论上,该模型还能辅助学生学习数学知识,或翻译现实世界中的标志文字。
不过,消息人士也指出,虽然该模型在某些问题解答方面能够超越 GPT-4 Turbo,但仍有可能出现自信地给出错误答案的情况。
开发者 Ananay Arora 发布了一张包含通话相关代码的截图,暗示 OpenAI 可能正在为 ChatGPT 加入打电话的功能。Arora 还发现了一些证据表明 OpenAI 正在配置用于实时音视频通信的服务器。
文明上网,理性发言,共同做网络文明传播者