近日消息,最新动态表明,尽管当前 Siri 对图像内容的解读能力尚存在不稳定性,但苹果并未止步于 AI 技术的深度研发。
近期一项内部研究成果披露,苹果 AI 团队正致力于一项重大突破,即通过一款名为 ReALM 的创新设备端模型对 Siri 进行智能化层面的大幅跃升。
该团队声称,在一系列严谨实验评估中,ReALM 模型展现出了超越业界标杆 OpenAI GPT-4.0 的卓越性能表现。
ReALM 的特别之处在于,它可以同时理解用户屏幕上的内容和正在进行的操作。论文将信息分为以下三种类型:
屏幕实体:指的是当前显示在用户屏幕上的内容。
对话实体:指的是与对话相关的内容。例如,用户说“打电话给妈妈”,那么妈妈的联系人信息就是对话实体。
背景实体:指的是与用户当下操作或屏幕显示内容可能并不直接相关的实体,比如正在播放的音乐或即将响起的闹铃。
如果能够完美运行,ReALM 将使 Siri 变得更加智能和实用。他们将 ReALM 与 OpenAI 的 GPT-3.5 和 GPT-4.0 进行了性能对比:
“我们同时测试了 OpenAI 提供的 GPT-3.5 和 GPT-4.0 模型,并为它们提供了上下文信息,让它们预测一系列可能的实体。GPT-3.5 只接受文本输入,因此我们只提供了文字提示。而 GPT-4 能够理解图像信息,因此我们为它提供了屏幕截图,这显著提升了它的屏幕实体识别性能。”
文明上网,理性发言,共同做网络文明传播者