当前位置：首页 > 资讯 > 科技 > Kimi推出视觉思考模型k1：拍照试题即可展示答题思路

Kimi推出视觉思考模型k1：拍照试题即可展示答题思路

Kimi大模型 2024-12-16 10:03:59 爱吃爆米花

12月16日消息，月之暗面旗下的智能助手Kimi今日正式发布了一款名为k1的视觉思考模型。这款模型采用了先进的强化学习技术，具备强大的端到端图像理解和思维链技术能力。

月之暗面官方表示，在数学、物理、化学等基础科学学科的基准能力测试中，初代 k1 模型的表现超过了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

从月之暗面官方获悉，Kimi 新模型发布即上线。k1 视觉思考模型已陆续上线最新版「Kimi 智能助手」的 Android 和 iPhone 手机 App 以及网页版 kimi.com。在最新版手机 App 或网页版 Kimi+ 页面找到「Kimi 视觉思考版」，即可拍照或传图体验。

「Kimi 视觉思考版」会完整呈现推理思维链 CoT，让用户不只看到答题结果，也能完整看到模型思索答案的全过程。

从模型训练的角度看，k1 视觉思考模型的训练分为两个阶段，先通过预训练得到基础模型，再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力，在 OCRBench 上得到 903 分的（state-of-the-art）结果，在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9。

月之暗面表示，k1 的强化学习后训练在数据质量和学习效率方面做了进一步优化，在强化学习的规模化（scaling）上取得了新的突破。

此外，科学的模型能力基准测试方案是大模型行业面临的重要挑战之一。由于市面上缺乏针对基础科学学科的图形测试集，Kimi 模型研发团队自主构建了一个标准化的测试集 Science Vista，涵盖不同难度的数理化图片题目，且从分布上与实际用户需求较为匹配。该测试集将开放给全行业，用户可申请在许可范围内使用。

在内部测试中，月之暗面也发现了一些 k1 视觉思考模型存在的局限性，例如在分布外（out-of-distribution）的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面，有很大提升空间。在一些场景和泛化能力上，k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。

扩展阅读