欢迎来到 gpt-oss 系列，这是 OpenAI 的开源权重模型，旨在提供强大的推理能力、代理任务和多样的开发人员用例。

我们发布了这两种开放模型：

gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景，适合单个 H100 GPU（117B 参数，其中 5.1B 激活参数）
gpt-oss-20b — 适用于低延迟、本地或特殊用途的场景（21B 参数，其中 3.6B 激活参数）

这两个模型都是在我们的和谐响应格式上训练的，并且仅应使用和谐格式，否则将无法正常工作。

NOTE

此模型卡片专门介绍较小的 gpt-oss-20b 模型。请参阅 gpt-oss-120b 以了解更大的模型。

亮点

宽松的 Apache 2.0 许可证： 自由构建，无版权限制或专利风险—非常适合实验、定制和商业部署。
可配置的推理努力： 根据您的具体用例和延迟需求轻松调整推理努力（低、中、高）。
完整的思维链： 完全访问模型的推理过程，便于调试并增加对输出的信任。它不打算展示给最终用户。
可微调： 通过参数微调完全自定义模型以适应您的特定用例。
代理功能： 使用模型的原生功能进行函数调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化： 模型在 MoE 层上使用原生 MXFP4 精度进行训练，使得 gpt-oss-120b 可以在单个 H100 GPU 上运行，而 gpt-oss-20b 模型可以在 16GB 内存内运行。

total duration:       1m15.257827717s
load duration:        150.533496ms
prompt eval count:    99 token(s)
prompt eval duration: 939.353661ms
prompt eval rate:     105.39 tokens/s
eval count:           2462 token(s)
eval duration:        1m14.166601178s
eval rate:            33.20 tokens/s

total duration: 1m15.257827717s

load duration: 150.533496ms

prompt eval count: 99 token(s)

prompt eval duration: 939.353661ms

prompt eval rate: 105.39 tokens/s

eval count: 2462 token(s)

eval duration: 1m14.166601178s

eval rate: 33.20 tokens/s

🔥对比Apple M2 Max的速度

total duration:       1m3.907069709s
load duration:        45.306334ms
prompt eval count:    99 token(s)
prompt eval duration: 506.203542ms
prompt eval rate:     195.57 tokens/s
eval count:           2319 token(s)
eval duration:        1m3.355179542s
eval rate:            36.60 tokens/s

total duration: 1m3.907069709s

load duration: 45.306334ms

prompt eval count: 99 token(s)

prompt eval duration: 506.203542ms

prompt eval rate: 195.57 tokens/s

eval count: 2319 token(s)

eval duration: 1m3.355179542s

eval rate: 36.60 tokens/s

MI50刷vbios后装Radeon-ID驱动，在windows10系统上，用lm-studio装载vulkan推理引擎，速度更快呢，达到了45.8 tokens/s 🚀🚀

"stats": {
    "stopReason": "eosFound",
    "tokensPerSecond": 45.83032218320854,
    "numGpuLayers": -1,
    "timeToFirstTokenSec": 1.028,
    "promptTokensCount": 99,
    "predictedTokensCount": 2004,
    "totalTokensCount": 2102
  }

"stats": {

"stopReason": "eosFound",

"tokensPerSecond": 45.83032218320854,

"numGpuLayers": -1,

"timeToFirstTokenSec": 1.028,

"promptTokensCount": 99,

"predictedTokensCount": 2004,

"totalTokensCount": 2102

}

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: MI50 用ollama跑gpt-oss:20b速度测试

7月底QWen3-Coder的小模型终于发布啦，这次带来的是30b-a3b的MoE模型。

在代理编程、代理浏览器使用和其他基础编程任务方面，性能优于其他开源模型。
具备长上下文能力，原生支持256K个标记，使用Yarn可扩展至1M个标记，优化用于仓库级理解。
支持代理编程，适用于大多数平台，如Qwen Code、CLINE，采用专门设计的函数调用格式。

Qwen3-Coder-30B-A3B-Instruct 有以下特性

Type: Causal Language Models
Training Stage: Pretraining & Post-training
Number of Parameters: 30.5B in total and 3.3B activated
Number of Layers: 48
Number of Attention Heads (GQA): 32 for Q and 4 for KV
Number of Experts: 128
Number of Activated Experts: 8
Context Length: 262,144 natively.

本次测试仍然是MI50-32G，ollama_0.10.1, ROCm_6.3.4

生成速度达到35 t/s

total duration:       1m28.533944405s
load duration:        94.260817ms
prompt eval count:    20 token(s)
prompt eval duration: 827.002399ms
prompt eval rate:     24.18 tokens/s
eval count:           3084 token(s)
eval duration:        1m27.611224022s
eval rate:            35.20 tokens/s

total duration: 1m28.533944405s

load duration: 94.260817ms

prompt eval count: 20 token(s)

prompt eval duration: 827.002399ms

prompt eval rate: 24.18 tokens/s

eval count: 3084 token(s)

eval duration: 1m27.611224022s

eval rate: 35.20 tokens/s

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: MI50 用ollama跑qwen3-coder-30b-a3b的速度测试