当前位置: 首页 > 资讯 > 科技 > AI发展警钟敲响:高质量语言数据濒临耗尽,训练进程或遭重大阻碍
  • 0
  • 0
  • 分享

AI发展警钟敲响:高质量语言数据濒临耗尽,训练进程或遭重大阻碍

人工智能 2024-08-01 11:25:50 爱吃爆米花

8月1日消息,据媒体报道,互联网上的高质量数据资源正逐渐减少,AI行业因此遭遇“数据墙”。这对于依赖大数据训练的AI大模型企业而言,意味着需紧急探索全新的数据来源或构建可持续的数据替代方案,以维持技术创新与模型发展的活力。

据权威研究公司Epoch AI的前瞻性分析,至2028年,互联网上的所有高质量文本数据或将被悉数采撷,而机器学习所依赖的高质量语言数据集,其枯竭的时间点甚至可能提前至2026年。

这一“数据墙”的预言,无疑在AI行业内投下了一片阴影,成为制约其快速发展的重大瓶颈。

然而,面对这一看似绝望的局面,部分科学家却持有更为乐观和宽广的视角。他们认为,断言“人工智能模型正步入数据枯竭的绝境”过于悲观且片面。在语言模型的细分领域内,仍有一片未被充分探索的数据蓝海,蕴藏着丰富的差异化信息,等待着被挖掘利用,以驱动更加精准、定制化的模型构建。

为了跨越“数据墙”的障碍,AI界正积极探索多种创新路径。其中,合成数据作为一种潜力巨大的解决方案,正逐渐进入人们的视野。这类数据由机器智能生成,理论上具备无限供应的能力,为解决训练数据稀缺问题提供了全新的思路。

然而,合成数据的应用亦非毫无风险,其潜在的“模型崩溃”危机不容忽视——即当机器学习模型在由AI生成的可能存在偏差的数据集上训练时,可能会导致模型对现实的误解与扭曲。

因此,在利用合成数据等创新手段的同时,AI领域还需保持审慎态度,加强数据质量的监控与评估,确保数据的多样性与真实性,从而有效避免“模型崩溃”的风险,推动AI技术健康、稳健地发展。

来源:快科技
免责声明:本内容来自互联网,不代表本网站的观点和立场,如有侵犯你的权益请来信告知;如果你觉得好,欢迎分享给你的朋友,本文网址 https://wangzhidaquan.com/zixun/72059.html
文章标签
评论

文明上网,理性发言,共同做网络文明传播者

验证码
提交
热榜
热门游戏
换一换
热门软件
换一换