微软Azure AI平台于本月29日揭晓了一套全面升级的安全特性,其核心目标在于助力开发者检测并遏制在其所构建的AI应用中潜藏的“AI幻象”风险、潜在提示性攻击以及其他安全薄弱环节。
这一系列功能革新由微软安全部门的首席主管Sarah Bird女士在发布会上亲自阐释,她强调,这些新工具设计简洁且实用,用户无需专门聘请专业的安全团队(如红队)来进行复杂的安全测试,即可有效提升AI服务的稳健性和安全性。
这些由LLM提供支持的工具可以检测潜在的漏洞,监控“可能是合理但不受支持”的幻觉,并实时阻止Azure AI客户使用任何托管在该平台上的模型时出现的恶意提示。Bird表示:“我们知道,客户并非都对提示注入攻击或恶意内容有深入的专业知识,因此评估系统会生成所需的提示来模拟这些类型的攻击。客户随后可以得到评分并查看结果。”
这些安全功能分为三个主要部分:提示屏蔽、基于AI检测和安全评估,现在已在Azure AI上提供预览。另外两个功能用于指导模型输出安全内容和跟踪提示以标记潜在的问题用户,即将推出。
无论用户是输入提示还是模型正在处理第三方数据,监控系统都将对其进行评估,以查看是否触发任何被禁止的词语或隐藏提示,然后再决定是否将其发送给模型进行回答。之后,系统将查看模型的响应,并检查模型是否在文档或提示中产生了不在其中的信息。
Bird承认,人们担心微软和其他公司可能在决定什么对于AI模型是合适或不合适,因此她的团队添加了一种方式,让Azure客户切换模型所见和阻止的仇恨言论或暴力的过滤。
未来,Azure用户还可以获得尝试触发不安全输出的用户报告。Bird表示,这使系统管理员能够确定哪些用户是他们自己的红队成员,哪些可能是具有更恶意意图的人。
Bird表示,这些安全功能立即“附加”到GPT-4和其他流行模型,如Llama2。但是,由于Azure的模型库包含许多AI模型,因此使用较小、使用较少的开源系统的用户可能需要手动将安全功能指向这些模型。
微软一直在利用AI增强其软件的安全性,特别是随着越来越多的客户对使用Azure访问AI模型感兴趣。该公司还努力扩展其提供的强大AI模型数量,最近与法国AI公司Mistral达成独家协议,以在Azure上提供Mistral Large模型。
文明上网,理性发言,共同做网络文明传播者