AI归档 - 贝壳博客

Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现

以Ollama做运行器测试，先安装

curl -fsSL https://ollama.com/install.sh | sh

1	curl -fsSL https://ollama.com/install.sh \| sh

在这个过程中，脚本会自动下载ROCm bundle，无需额外操作

aliang@ubuntu:~$ curl -fsSL https://ollama.com/install.sh | sh
>>> Installing ollama to /usr/local
[sudo] password for aliang: 
>>> Downloading Linux amd64 bundle
######################################################################## 100.0%
>>> Creating ollama user...
>>> Adding ollama user to render group...
>>> Adding ollama user to video group...
>>> Adding current user to ollama group...
>>> Creating ollama systemd service...
>>> Enabling and starting ollama service...
Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.
>>> Downloading Linux ROCm amd64 bundle
######################################################################## 100.0%
>>> The Ollama API is now available at 127.0.0.1:11434.
>>> Install complete. Run "ollama" from the command line.
>>> AMD GPU ready.

aliang@ubuntu:~$ curl -fsSL https://ollama.com/install.sh | sh

>>> Installing ollama to /usr/local

[sudo] password for aliang:

>>> Downloading Linux amd64 bundle

######################################################################## 100.0%

>>> Creating ollama user...

>>> Adding ollama user to render group...

>>> Adding ollama user to video group...

>>> Adding current user to ollama group...

>>> Creating ollama systemd service...

>>> Enabling and starting ollama service...

Created symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

>>> Downloading Linux ROCm amd64 bundle

######################################################################## 100.0%

>>> The Ollama API is now available at 127.0.0.1:11434.

>>> Install complete. Run "ollama" from the command line.

>>> AMD GPU ready.

打印以上，即表示安装成功。

直接运行32b的版本, 加上参数等会儿推理完查看速度统计

继续阅读

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现

AMD MI50 在Ubuntu 24.04下安装驱动和ROCm

大船靠岸，1k不到淘到一块32G的Mi50 ,正适合跑32B大模型，规格如下：

目前这个GCN架构已经是淘汰架构了，只有CDNA（Compute DNA 专业级）和RDNA（Radeon DNA 消费级）才能安装最新的ROCm。这一代架构最后支持的版本为6.3.x。

逐条执行以下命令：

继续阅读

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: AMD MI50 在Ubuntu 24.04下安装驱动和ROCm

本地部署自托管的AI编码助手

有部分私有项目是不方便使用公网API或AI IDE来实时推理代码辅助生成的，之前一直使用ollama配合continue，模型Qwen-Coder-14B, 但continue现在商业感越来越浓，本地模型的部署配置也越藏越深。

换Tabby试试。

brew install tabbyml/tabby/tabby

1	brew install tabbyml/tabby/tabby

下载模型并运行

tabby serve --device metal --model Qwen2.5-Coder-14B

1	tabby serve --device metal --model Qwen2.5-Coder-14B

打开web后台进行配置，完成后可以查看模型运行状态

重点来了，tabby还能自动部署上下文提供者来增强大型语言模型的性能。

现在回到VSCode，安装扩展 tabby

生成速度和质量还不错，意图理解也准确。

配置好之后，将tabby以服务自启动, 先修改配置 code .tabby/config.toml

[model.completion.local]
model_id = "Qwen2.5-Coder-14B"

1 2	[model.completion.local] model_id = "Qwen2.5-Coder-14B"

然后再运行

brew services start tabby

1	brew services start tabby

与ollama的区别：

ollama 拉取的模型，默认为Q4_K_M量化，模型大小9G
tabby 拉取的是Q8_0量化，模型大小15G

M2 Max 32G统一内存下都能流畅运行。

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: 本地部署自托管的AI编码助手

解决Debian 启动stable-diffusion-webui 提示 Cannot locate TCMalloc (improves CPU memory usage)

sudo apt install libtcmalloc-minimal4

1	sudo apt install libtcmalloc-minimal4

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: 解决Debian 启动stable-diffusion-webui 提示 Cannot locate TCMalloc (improves CPU memory usage)

解决华南X99主板接Tesla P100不开机的问题

使用亮机卡进入bios，选择Advanced。

移动到PCI Subsystem Settings, 并回车进入。

移动到Above 4G Decoding ，改为[Enabled]。

按F10保存重启，换P100卡，滴一声，自检完成，进入系统。

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: 解决华南X99主板接Tesla P100不开机的问题

Jetson 把玩记三、rtmp直播流物体识别定位

detectnet 可以直接打开rtsp网络摄像头作为输入源，进行实时视频分析，在监控领域有非常大的应用。

尝试了下打开rtmp流，没有成功，返回说不支持。

从日志输出来看是使用GStreamer。

[gstreamer] gstDecoder -- unsupported protocol (rtmp)
[gstreamer]               supported protocols are:
[gstreamer]                  * file://
[gstreamer]                  * rtp://
[gstreamer]                  * rtsp://
[gstreamer] gstDecoder -- failed to build pipeline string
[gstreamer] gstDecoder -- failed to create decoder for rtmp://192.168.0.2/live/bbb
detectnet:  failed to create input stream

[gstreamer] gstDecoder -- unsupported protocol (rtmp)

[gstreamer] supported protocols are:

[gstreamer] * file://

[gstreamer] * rtp://

[gstreamer] * rtsp://

[gstreamer] gstDecoder -- failed to build pipeline string

[gstreamer] gstDecoder -- failed to create decoder for rtmp://192.168.0.2/live/bbb

detectnet: failed to create input stream

如果是GStreamer，那当然应该支持rtmp才对。打开并修改源码
jetson-inference/utils/codec/gstDecoder.cpp

继续阅读

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: Jetson 把玩记三、rtmp直播流物体识别定位

Jetson 把玩记二、TensorRT 环境搭建

NVIDIA TensorRT™是一个高性能深度学习推理平台。它包括深度学习推理优化器和运行时，可为深度学习推理应用程序提供低延迟和高吞吐量。在推理期间，基于TensorRT的应用程序比仅CPU平台的执行速度快40倍。使用TensorRT，您可以优化在所有主要框架中培训的神经网络模型，以高精度校准低精度，最后部署到超大规模数据中心，嵌入式或汽车产品平台。

TensorRT构建于NVIDIA的并行编程模型CUDA之上，使您能够利用CUDA-X AI中的库，开发工具和技术，为人工智能，自动机器，高性能计算和图形优化所有深度学习框架的推理。

TensorRT为深度学习推理应用的生产部署提供INT8和FP16优化，例如视频流，语音识别，推荐和自然语言处理。降低精度推断可显着减少应用程序延迟，这是许多实时服务，自动和嵌入式应用程序的要求。

您可以将训练有素的模型从每个深度学习框架导入TensorRT。应用优化后，TensorRT选择特定于平台的内核，以最大限度地提高数据中心，Jetson嵌入式平台和NVIDIA DRIVE自动驾驶平台中Tesla GPU的性能。

为了在数据中心生产中使用AI模型，TensorRT推理服务器是一种容器化微服务，可最大化GPU利用率，并在节点上同时运行来自不同框架的多个模型。它利用Docker和Kubernetes无缝集成到DevOps架构中。

使用TensorRT，开发人员可以专注于创建新颖的AI驱动的应用程序，而不是用于推理部署的性能调整。

继续阅读

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: Jetson 把玩记二、TensorRT 环境搭建

Jetson 把玩记一、初次运行

最近得空，搞了一块Jetson Nano玩玩。

NVIDIA 在2019年NVIDIA GPU技术大会（GTC）上发布了Jetson Nano开发套件，这是一款售价99美元的计算机，现在可供嵌入式设计人员，研究人员和DIY制造商使用，在紧凑，易用的平台上提供现代AI的强大功能。完整的软件可编程性。Jetson Nano采用四核64位ARM CPU和128核集成NVIDIA GPU，可提供472 GFLOPS的计算性能。它还包括4GB LPDDR4存储器，采用高效，低功耗封装，具有5W / 10W功率模式和5V DC输入，如图1所示。
新发布的JetPack 4.2 SDK 为基于Ubuntu 18.04的Jetson Nano提供了完整的桌面Linux环境，具有加速图形，支持NVIDIA CUDA Toolkit 10.0，以及cuDNN 7.3和TensorRT等库。该SDK还包括本机安装流行的功能开源机器学习（ML）框架，如TensorFlow，PyTorch，Caffe，Keras和MXNet，以及计算机视觉和机器人开发的框架，如OpenCV和ROS。
完全兼容这些框架和NVIDIA领先的AI平台，可以比以往更轻松地将基于AI的推理工作负载部署到Jetson。Jetson Nano为各种复杂的深度神经网络（DNN）模型提供实时计算机视觉和推理。这些功能支持多传感器自主机器人，具有智能边缘分析的物联网设备和先进的AI系统。甚至转移学习也可以使用ML框架在Jetson Nano上本地重新训练网络。

话不多说直接开干。

继续阅读

原创文章，转载请注明： 转载自贝壳博客

本文链接地址: Jetson 把玩记一、初次运行