近日消息,微软在其官方网站上宣布了一项重要的开源贡献——GraphRAG(Graph Retrieval-Augmented Generation)。这是一项前沿的技术,它通过构建和利用实体知识图谱,显著增强了大型预训练模型在搜索、问答、摘要生成以及逻辑推理等方面的能力。
传统的 RAG 系统在处理外部数据源时,过度依赖局部文本片段的检索,无法捕捉到整个数据集的全貌。而 GraphRAG 则通过构建实体知识图谱,帮助大模型更好地捕捉文本中的复杂联系和交互,从而实现了全局检索能力。
GraphRAG 的核心包括两个步骤:构建实体知识图谱和生成社区摘要。通过社区摘要,GraphRAG 能够从整个数据集中提取相关信息,生成更全面和准确的答案。此外,GraphRAG 对 tokens 的需求很低,也就是说可以帮助开发者节省大量成本。
微软在一个100万 tokens、超复杂结构的数据集上,对 GraphRAG 进行了综合测试,结果显示 GraphRAG 在全面性和多样性测试上,超越了 Naive RAG 等方法,且在播客转录和新闻文章数据集上都显示出了超高的水准,是目前最佳的 RAG 方法之一。
文明上网,理性发言,共同做网络文明传播者