0
0

Meta 深夜开源 Llama 4：首次采用 MoE 架构，千万 Token 上下文刷新纪录

科技小艾灵 2025-04-06 收藏 0 评论 0

4月6日消息，深夜，Meta 发布全新 AI 模型系列 Llama 4，推出Llama 4 Maverick（400B 参数）和 Llama 4 Scout（109B 参数），以及最强大的 Llama 4 Behemoth预览。

Meta 表示，Scout 和 Maverick 模型已可在 llama.com 与 Hugging Face 下载。Scout 支持1000万 token 上下文，适配单个 H100 GPU；Maverick 主打性价比，在推理效率与性能上对标 GPT-4o 与 DeepSeek V3。

值得一提的是，Llama 4 Maverick 在 LMSYS Arena 中 ELO 得分达1417，成为第四个突破1400分的大模型，开放模型中排名第一。在编程、数学、创意写作等任务中得分领先，较 Llama 3 405B 提升近150分。

Llama 4 Behemoth 拥有2880亿激活参数，Meta 称其为“世界上最智能”的大模型之一，在 STEM 多项基准测试中超越 GPT-4.5和 Gemini 2.0 Pro，目前仍处于训练阶段。

所有模型支持文本、图像、视频输入，原生设计实现 token 级别的早期融合。视觉 encoder 基于 MetaCLIP 改进，对图像区域定位（grounding）能力显著增强。

Llama 4是 Meta 首次采用混合专家（MoE）架构的模型，同等算力下比密集模型更高效。以 Maverick 为例，采用128专家 + 共享专家的路由结构，在单台 H100上即可运行。

Meta 称 Llama 4预训练数据量是 Llama 3的两倍，覆盖文本、图像与视频，支持200种语言预训练，其中100种语言的 token 超过10亿。（袁宁）

全部评论 0

小艾灵 1927篇文章关注

热门推荐