当前位置：首页 > 资讯 > 科技 > Meta部署新一代网络爬虫，全力为AI模型采集海量数据

Meta部署新一代网络爬虫，全力为AI模型采集海量数据

Meta 2024-08-24 09:05:02 爱吃爆米花

近日，Meta公司悄然部署了一款新型网络爬虫，该爬虫默默地穿梭于互联网的各个角落，大规模地搜集数据，旨在为公司的 AI 模型提供更为丰富与多样的学习材料。

这一举动不仅彰显了 Meta 在加强AI实力上的决心，也反映了行业对于大数据驱动型人工智能发展的持续重视与投入。

Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示，Meta 确实在 7 月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 llm 之一，虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据，但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。

今年早些时候，Meta 的联合创始人、首席执行官马克·扎克伯格 (Mark Zuckerberg) 在一次财报电话会议上曾吹嘘说，公司的社交平台已经积累了一套用于人工智能训练的数据集，甚至“超过了 Common Crawl”。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了，因为该公司继续致力于更新 Llama 和扩展 Meta AI，通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示，全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot，但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。

扩展阅读

Meta 8天前

来源：it之家

免责声明：本内容来自互联网，不代表本网站的观点和立场，如有侵犯你的权益请来信告知；如果你觉得好，欢迎分享给你的朋友，本文网址 https://wangzhidaquan.com/zixun/79388.html

文章标签