MI50 用ollama跑gpt-oss:20b速度测试

欢迎来到 gpt-oss 系列,这是 OpenAI 的开源权重模型,旨在提供强大的推理能力、代理任务和多样的开发人员用例。

我们发布了这两种开放模型:

  • gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景,适合单个 H100 GPU(117B 参数,其中 5.1B 激活参数)
  • gpt-oss-20b — 适用于低延迟、本地或特殊用途的场景(21B 参数,其中 3.6B 激活参数)

这两个模型都是在我们的 和谐响应格式 上训练的,并且仅应使用和谐格式,否则将无法正常工作。

NOTE

此模型卡片专门介绍较小的 gpt-oss-20b 模型。请参阅 gpt-oss-120b 以了解更大的模型。

亮点

  • 宽松的 Apache 2.0 许可证: 自由构建,无版权限制或专利风险—非常适合实验、定制和商业部署。
  • 可配置的推理努力: 根据您的具体用例和延迟需求轻松调整推理努力(低、中、高)。
  • 完整的思维链: 完全访问模型的推理过程,便于调试并增加对输出的信任。它不打算展示给最终用户。
  • 可微调: 通过参数微调完全自定义模型以适应您的特定用例。
  • 代理功能: 使用模型的原生功能进行函数调用、网页浏览Python 代码执行 和结构化输出。
  • 原生 MXFP4 量化: 模型在 MoE 层上使用原生 MXFP4 精度进行训练,使得 gpt-oss-120b 可以在单个 H100 GPU 上运行,而 gpt-oss-20b 模型可以在 16GB 内存内运行。

🔥对比Apple M2 Max的速度

MI50刷vbios后装Radeon-ID驱动,在windows10系统上,用lm-studio装载vulkan推理引擎,速度更快呢,达到了45.8 tokens/s 🚀🚀

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: MI50 用ollama跑gpt-oss:20b速度测试

MI50 用ollama跑qwen3-coder-30b-a3b的速度测试

7月底QWen3-Coder的小模型终于发布啦,这次带来的是30b-a3b的MoE模型。

  • 在代理编程、代理浏览器使用和其他基础编程任务方面,性能优于其他开源模型。
  • 具备长上下文能力,原生支持256K个标记,使用Yarn可扩展至1M个标记,优化用于仓库级理解。
  • 支持代理编程,适用于大多数平台,如Qwen Code、CLINE,采用专门设计的函数调用格式。

Qwen3-Coder-30B-A3B-Instruct 有以下特性

  • Type: Causal Language Models
  • Training Stage: Pretraining & Post-training
  • Number of Parameters: 30.5B in total and 3.3B activated
  • Number of Layers: 48
  • Number of Attention Heads (GQA): 32 for Q and 4 for KV
  • Number of Experts: 128
  • Number of Activated Experts: 8
  • Context Length: 262,144 natively.

本次测试仍然是MI50-32G,ollama_0.10.1, ROCm_6.3.4

生成速度达到35 t/s

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: MI50 用ollama跑qwen3-coder-30b-a3b的速度测试