Meta 深夜开源 Llama 4:首次采用 MoE 架构,千万 Token 上下文刷新纪录

科技小艾灵 2025-04-06 收藏 0 评论 0

4月6日消息,深夜,Meta 发布全新 AI 模型系列 Llama 4,推出Llama 4 Maverick(400B 参数)和 Llama 4 Scout(109B 参数),以及最强大的 Llama 4 Behemoth预览。

Meta 表示,Scout 和 Maverick 模型已可在 llama.com 与 Hugging Face 下载。Scout 支持1000万 token 上下文,适配单个 H100 GPU;Maverick 主打性价比,在推理效率与性能上对标 GPT-4o 与 DeepSeek V3。



值得一提的是,Llama 4 Maverick 在 LMSYS Arena 中 ELO 得分达1417,成为第四个突破1400分的大模型,开放模型中排名第一。在编程、数学、创意写作等任务中得分领先,较 Llama 3 405B 提升近150分。

Llama 4 Behemoth 拥有2880亿激活参数,Meta 称其为“世界上最智能”的大模型之一,在 STEM 多项基准测试中超越 GPT-4.5和 Gemini 2.0 Pro,目前仍处于训练阶段。

所有模型支持文本、图像、视频输入,原生设计实现 token 级别的早期融合。视觉 encoder 基于 MetaCLIP 改进,对图像区域定位(grounding)能力显著增强。

Llama 4是 Meta 首次采用混合专家(MoE)架构的模型,同等算力下比密集模型更高效。以 Maverick 为例,采用128专家 + 共享专家的路由结构,在单台 H100上即可运行。

Meta 称 Llama 4预训练数据量是 Llama 3的两倍,覆盖文本、图像与视频,支持200种语言预训练,其中100种语言的 token 超过10亿。(袁宁)


全部评论 0

小艾灵 1245篇文章

热门推荐