当前位置：首页 > 资讯 > 科技 > 北京大学等高校携手创新：医疗专家模型训练新策略，8B模型性能比肩GPT-4级别

北京大学等高校携手创新：医疗专家模型训练新策略，8B模型性能比肩GPT-4级别

北京大学 2024-07-02 11:17:05 爱吃爆米花

近日，北京大学与香港科技大学的研究团队携手取得了一项突破性进展，成功研发出一种创新的训练策略，使得仅有80亿参数量的医疗专家模型跃升至可媲美GPT-4水平的性能高度。

首先，他们发现在持续预训练过程中，模型在目标领域的性能会先下降再上升，这就像是过山车一样刺激。为了解决这个问题，他们提出了三种策略。第一种是在适当大小的数据子集上进行多轮预训练，这样比单轮大数据集预训练能更快恢复性能。第二种是选取最高质量的子语料进行多轮预训练。最后，通过混合数据来接近预训练数据分布，这样可以让模型更稳定。

这些策略在医疗领域的持续预训练和指令精调中都取得了显著的效果，提升了效果的同时，还削减了计算量。而且，他们开源的Llama-3-Physician-8B模型已经在HuggingFace上可以找到。

这个研究的意义可不止于此。他们还发现，通过这些策略，OpenLLaMa模型只需要在高质量50亿数据上训练4个轮次，就能在医疗任务上显著超越所有基线。这不仅提升了性能，还大大减少了计算资源的消耗。

更厉害的是，他们的Llama-3-Physician-8B-insturct模型在医疗问答任务上的表现，不仅优于其他同尺寸的开源模型，甚至超过了闭源的GPT-3.5模型，接近GPT-4的水平。这简直就是医疗领域的一次革命。

这项研究不仅为我们提供了一种新的训练方法，还让我们看到了大语言模型在医疗领域的巨大潜力。通过持续预训练和指令微调，我们可以让模型在特定领域达到更高的性能，同时降低计算成本。这对于医疗行业来说，无疑是一个巨大的福音。

这项研究也提醒我们，大语言模型的训练不是一蹴而就的，而是需要不断地优化和调整。通过引入「稳定性差距」的概念，我们可以更好地理解和解决模型训练中的问题，让模型在特定领域发挥出更大的作用。这不仅是技术上的突破，更是对医疗行业的一次深刻洞察。

扩展阅读

北京大学深圳研究生院全新操场正式启用，新操场引入多项国际领先技术

北京大学 15天前

来源：站长之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/61627.html

文章标签

北京大学

文明上网，理性发言，共同做网络文明传播者

提交