MI50 用ollama跑gpt-oss:20b速度测试

欢迎来到 gpt-oss 系列,这是 OpenAI 的开源权重模型,旨在提供强大的推理能力、代理任务和多样的开发人员用例。

我们发布了这两种开放模型:

  • gpt-oss-120b — 适用于生产环境、通用目的、高推理需求的场景,适合单个 H100 GPU(117B 参数,其中 5.1B 激活参数)
  • gpt-oss-20b — 适用于低延迟、本地或特殊用途的场景(21B 参数,其中 3.6B 激活参数)

这两个模型都是在我们的 和谐响应格式 上训练的,并且仅应使用和谐格式,否则将无法正常工作。

NOTE

此模型卡片专门介绍较小的 gpt-oss-20b 模型。请参阅 gpt-oss-120b 以了解更大的模型。

亮点

  • 宽松的 Apache 2.0 许可证: 自由构建,无版权限制或专利风险—非常适合实验、定制和商业部署。
  • 可配置的推理努力: 根据您的具体用例和延迟需求轻松调整推理努力(低、中、高)。
  • 完整的思维链: 完全访问模型的推理过程,便于调试并增加对输出的信任。它不打算展示给最终用户。
  • 可微调: 通过参数微调完全自定义模型以适应您的特定用例。
  • 代理功能: 使用模型的原生功能进行函数调用、网页浏览Python 代码执行 和结构化输出。
  • 原生 MXFP4 量化: 模型在 MoE 层上使用原生 MXFP4 精度进行训练,使得 gpt-oss-120b 可以在单个 H100 GPU 上运行,而 gpt-oss-20b 模型可以在 16GB 内存内运行。

🔥对比Apple M2 Max的速度

MI50刷vbios后装Radeon-ID驱动,在windows10系统上,用lm-studio装载vulkan推理引擎,速度更快呢,达到了45.8 tokens/s 🚀🚀

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: MI50 用ollama跑gpt-oss:20b速度测试

MI50 用ollama跑qwen3-coder-30b-a3b的速度测试

7月底QWen3-Coder的小模型终于发布啦,这次带来的是30b-a3b的MoE模型。

  • 在代理编程、代理浏览器使用和其他基础编程任务方面,性能优于其他开源模型。
  • 具备长上下文能力,原生支持256K个标记,使用Yarn可扩展至1M个标记,优化用于仓库级理解。
  • 支持代理编程,适用于大多数平台,如Qwen Code、CLINE,采用专门设计的函数调用格式。

Qwen3-Coder-30B-A3B-Instruct 有以下特性

  • Type: Causal Language Models
  • Training Stage: Pretraining & Post-training
  • Number of Parameters: 30.5B in total and 3.3B activated
  • Number of Layers: 48
  • Number of Attention Heads (GQA): 32 for Q and 4 for KV
  • Number of Experts: 128
  • Number of Activated Experts: 8
  • Context Length: 262,144 natively.

本次测试仍然是MI50-32G,ollama_0.10.1, ROCm_6.3.4

生成速度达到35 t/s

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: MI50 用ollama跑qwen3-coder-30b-a3b的速度测试

Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现

以Ollama做运行器测试,先安装

在这个过程中,脚本会自动下载ROCm bundle,无需额外操作

打印以上,即表示安装成功。

直接运行32b的版本, 加上参数等会儿推理完查看速度统计

继续阅读“Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现

AMD MI50 在Ubuntu 24.04下安装驱动和ROCm

大船靠岸,1k不到淘到一块32G的Mi50 ,正适合跑32B大模型,规格如下:

目前这个GCN架构已经是淘汰架构了,只有CDNA(Compute DNA 专业级)和RDNA(Radeon DNA 消费级)才能安装最新的ROCm。这一代架构最后支持的版本为6.3.x。

逐条执行以下命令:

继续阅读“AMD MI50 在Ubuntu 24.04下安装驱动和ROCm”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: AMD MI50 在Ubuntu 24.04下安装驱动和ROCm

本地部署自托管的AI编码助手

有部分私有项目是不方便使用公网API或AI IDE来实时推理代码辅助生成的,之前一直使用ollama配合continue,模型Qwen-Coder-14B, 但continue现在商业感越来越浓,本地模型的部署配置也越藏越深。

换Tabby试试。

下载模型并运行

打开web后台进行配置,完成后可以查看模型运行状态

重点来了,tabby还能自动部署 上下文提供者来增强大型语言模型的性能。

现在回到VSCode,安装扩展 tabby

生成速度和质量还不错,意图理解也准确。

配置好之后,将tabby以服务自启动, 先修改配置 code .tabby/config.toml

然后再运行

与ollama的区别:

ollama 拉取的模型,默认为Q4_K_M量化,模型大小9G
tabby 拉取的是Q8_0量化,模型大小15G

M2 Max 32G统一内存下都能流畅运行。

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: 本地部署自托管的AI编码助手

解决Trae在MacOS下开发C/C++的问题

VSCode下 C/C++插件是微软自己开发的,根据VSCode扩展商店政策,第三方Fork的VSCode项目是不允许使用的。

Trae下如果打开C/C++项目,默认会推荐安装ccls插件来支持。

Mac下使用还需要一点小改动。

首先通过brew安装ccls命令行

自动安装ccls和它的依赖比如llvm

再次通过Trae打开项目,发现仍然找不到标准头文件。

打开终端,输入命令

打印:

打开Trae,切换到扩展,点ccls的配置,点ccls.clang.extraArgs

根据前一个打印,修改这个值为:

重启Trae后,再点头文件,正常跳转

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: 解决Trae在MacOS下开发C/C++的问题

MacOS 从配置PHP开发环境到VSCode调试

来让我看看还有谁2024年了还在用PHP 🙂

Homebrew是必须的,没有的话先安装 Homebrew — The Missing Package Manager for macOS (or Linux)

由于我们需要用到redis xdebug等扩展,brew默认的php是不够的。配置以下两个tap

通过brew安装php@8.3 xdebug@8.3 redis@8.3

Apple Silicon修改xdebug配置

Intel 修改xdebug配置

添加内容

此时运行 php artisan serve ,有以下打印则配置完成

接下来配置vscode

搜索并安装扩展 PHP Debug,开发者为Xdebug的。

打开PHP项目,切换到“运行与调试标签”,点创建launch.json文件,选 “PHP(Xdebug)”。
切换运行方式为 “Listen for Xdebug”,点运行。注意一定要先点调试运行后再启动项目。

这时候再执行php artisan serve,没有错误打印了,现在应该就能在源码中断点调试了。

没有最好的语言,只有最适合的,适合自己适合需求。

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: MacOS 从配置PHP开发环境到VSCode调试

解决apple silicon vscode远程到一个amd64容器里无法安装扩展到问题

在M1/M2/M3的MacOS上运行amd64的容器,采用命令行

进入容器后可以看到所有命令都是通过/run/rosetta/rosetta转译运行

如果需要通过vscode直接远程到容器内进行开发,目前版本1.88.1在容器内安装开发插件会失败,一直卡在扩展签名处,解决办法是:

修改remote的settings.json, 添加

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: 解决apple silicon vscode远程到一个amd64容器里无法安装扩展到问题

Xcode 15.1 在使用cocoapods时编译错误的问题

像这样的错误,那么解决方法是: 选择项目-> Build Settings->搜索sandbox,将一个名为 User Script Sandboxing 设置为No 再编译问题解决。

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: Xcode 15.1 在使用cocoapods时编译错误的问题