当前位置：首页 > 资讯 > 科技 > 谷歌DataGemma革新AI精准度：依托可信数据源，显著降低模型幻象风险

谷歌DataGemma革新AI精准度：依托可信数据源，显著降低模型幻象风险

谷歌（Google） 2024-09-15 09:00:06 爱吃爆米花

近日消息，谷歌依托其庞大的数据共享平台Data Commons，近期揭晓了开源模型Gemma的最新迭代——DataGemma，该模型深度融合现实世界统计资料，为数据洞察领域带来革新力量。

语言模型当前面临的一大难题就是幻觉（Hallucinations），尤其是大语言模型（LLMs）在处理数值或统计数据时，这一问题变得尤为棘手，因此精确性至关重要。

谷歌的 Data Commons 是一个存储库，汇集了来自联合国和疾病控制与预防中心等可信组织收集的超过 2400 亿个数据点。

通过利用这一庞大的统计数据集，基于 Gemini 的 DataGemma 能够显著提升模型准确性，确保其输出基于真实可信的现实世界信息。

DataGemma 方法的核心在于两种关键技术：检索交错生成（RIG）和检索增强生成（RAG）。这两种方法通过在生成过程中将模型基于现实世界数据，从而减少幻觉现象。

简要介绍两项技术如下：

RIG：

通过主动查询可信来源，再生成回答的方式运作。在接收到提示词之后，DataGemma 会识别查询中的统计数据点，并从数据共享平台获取准确信息。

例如，若被问及“全球可再生能源的使用量是否有所增加？”，该模型会在回答中穿插实时统计数据，确保事实准确性。

RAG：

在生成回答之前，会从数据共享平台检索相关信息，进一步提升了回答的质量。借助其长上下文窗口（由 Gemini 1.5 Pro 实现），DataGemma 确保了回答的全面性，引入了表格和脚注以提供更深层次的上下文，从而减少了虚构内容的出现。

谷歌对 RIG 和 RAG 的研究尚处于初期阶段，但初步成果令人鼓舞。通过将现实世界数据嵌入回复中，DataGemma 模型在处理数值事实和统计查询方面展现出显著提升。研究团队已发表论文详述其方法，强调这些技术如何帮助 LLMs 判断何时依赖外部数据与内部参数。

扩展阅读

谷歌安卓16引入“Even Dimmer”功能，亮度调节更进一步

谷歌（Google）昨天

来源：it之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/87571.html

文章标签

谷歌DataGemma Google谷歌

文明上网，理性发言，共同做网络文明传播者

提交