微软BitNet b1.58 2B4T模型推出 20亿参数仅占0.4GB内存

【太平洋科技快讯】近日，微软研究院宣布推出一款大型语言模型(LLM)——BitNet b1.58 2B4T，这款模型采用1.58 位低精度架构，内存仅占0.4GB。

BitNet b1.58 2B4T 拥有 20 亿参数，其核心创新在于采用了原生 1-bit 训练方式，而非传统的训练后量化。这种创新架构使得模型在保持高性能的同时，大幅降低了计算资源的需求。在性能方面，BitNet b1.58 2B4T 直追同规模的全精度模型，而在内存占用上，其非嵌入内存占用仅为 0.4GB，远低于同类竞品 Gemma-3 1B 的 1.4GB 和 MiniCPM 2B 的 4.8GB。

据悉，BitNet b1.58 2B4T 模型摒弃了传统的 16 位数值，转而采用定制的 BitLinear 层，将权重限制为 -1、0 和 1 三种状态，形成三值系统。这种设计使得每个权重仅需约 1.58 位信息存储，极大地节省了内存空间。其次，层间激活值以 8 位整数量化，形成了独特的 W1.58A8 配置。此外，微软团队还调整了 Transformer 架构，引入了平方 ReLU 激活函数、标准旋转位置嵌入(RoPE)以及 subln 归一化等技术，确保了低位训练的稳定性。

微软团队的技术报告显示，BitNet b1.58 2B4T 在 GSM8K(数学)、PIQA(物理常识)等基准测试中表现优异，整体性能媲美主流的 1B-2B 参数全精度模型。该模型在能耗和 CPU 解码延迟上具有显著优势，每 token 能耗仅为 0.028 焦耳，解码延迟低至 29 毫秒。

尽管已取得显著成果，微软团队并未止步。他们计划进一步优化 BitNet b1.58 2B4T，包括增强对 GPU 和 NPU 的支持，将上下文窗口延长至 4096 token，探索多语言模型的开发，以及研究更大规模模型的硬件协同设计方案。

目前，BitNet b1.58 2B4T 已以 MIT 许可证在 Hugging Face 平台发布，供社区测试与应用。然而，需要注意的是，其高效性依赖于微软提供的专用 C 框架(bitnet.cpp)，标准工具(如 Hugging Face transformers 库)无法完全展现其速度与能耗优势。