
欢迎来到 gpt-oss 系列,这是 OpenAI 的开源权重模型,旨在提供强大的推理能力、代理任务和多样的开发人员用例。
我们发布了这两种开放模型:
gpt-oss-120b
— 适用于生产环境、通用目的、高推理需求的场景,适合单个 H100 GPU(117B 参数,其中 5.1B 激活参数)gpt-oss-20b
— 适用于低延迟、本地或特殊用途的场景(21B 参数,其中 3.6B 激活参数)
这两个模型都是在我们的 和谐响应格式 上训练的,并且仅应使用和谐格式,否则将无法正常工作。
NOTE
此模型卡片专门介绍较小的 gpt-oss-20b
模型。请参阅 gpt-oss-120b
以了解更大的模型。
亮点
- 宽松的 Apache 2.0 许可证: 自由构建,无版权限制或专利风险—非常适合实验、定制和商业部署。
- 可配置的推理努力: 根据您的具体用例和延迟需求轻松调整推理努力(低、中、高)。
- 完整的思维链: 完全访问模型的推理过程,便于调试并增加对输出的信任。它不打算展示给最终用户。
- 可微调: 通过参数微调完全自定义模型以适应您的特定用例。
- 代理功能: 使用模型的原生功能进行函数调用、网页浏览、Python 代码执行 和结构化输出。
- 原生 MXFP4 量化: 模型在 MoE 层上使用原生 MXFP4 精度进行训练,使得
gpt-oss-120b
可以在单个 H100 GPU 上运行,而gpt-oss-20b
模型可以在 16GB 内存内运行。
1 2 3 4 5 6 7 8 |
total duration: 1m15.257827717s load duration: 150.533496ms prompt eval count: 99 token(s) prompt eval duration: 939.353661ms prompt eval rate: 105.39 tokens/s eval count: 2462 token(s) eval duration: 1m14.166601178s eval rate: 33.20 tokens/s |
🔥对比Apple M2 Max的速度
1 2 3 4 5 6 7 8 |
total duration: 1m3.907069709s load duration: 45.306334ms prompt eval count: 99 token(s) prompt eval duration: 506.203542ms prompt eval rate: 195.57 tokens/s eval count: 2319 token(s) eval duration: 1m3.355179542s eval rate: 36.60 tokens/s |
MI50刷vbios后装Radeon-ID驱动,在windows10系统上,用lm-studio装载vulkan推理引擎,速度更快呢,达到了45.8 tokens/s 🚀🚀
1 2 3 4 5 6 7 8 9 |
"stats": { "stopReason": "eosFound", "tokensPerSecond": 45.83032218320854, "numGpuLayers": -1, "timeToFirstTokenSec": 1.028, "promptTokensCount": 99, "predictedTokensCount": 2004, "totalTokensCount": 2102 } |
原创文章,转载请注明: 转载自贝壳博客
本文链接地址: MI50 用ollama跑gpt-oss:20b速度测试