Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现

以Ollama做运行器测试,先安装

在这个过程中,脚本会自动下载ROCm bundle,无需额外操作

打印以上,即表示安装成功。

直接运行32b的版本, 加上参数等会儿推理完查看速度统计

继续阅读“Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: Mi50 32G 运行qwen3,deepseek-r1 32b模型的速度表现

AMD MI50 在Ubuntu 24.04下安装驱动和ROCm

大船靠岸,1k不到淘到一块32G的Mi50 ,正适合跑32B大模型,规格如下:

目前这个GCN架构已经是淘汰架构了,只有CDNA(Compute DNA 专业级)和RDNA(Radeon DNA 消费级)才能安装最新的ROCm。这一代架构最后支持的版本为6.3.x。

逐条执行以下命令:

继续阅读“AMD MI50 在Ubuntu 24.04下安装驱动和ROCm”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: AMD MI50 在Ubuntu 24.04下安装驱动和ROCm

本地部署自托管的AI编码助手

有部分私有项目是不方便使用公网API或AI IDE来实时推理代码辅助生成的,之前一直使用ollama配合continue,模型Qwen-Coder-14B, 但continue现在商业感越来越浓,本地模型的部署配置也越藏越深。

换Tabby试试。

下载模型并运行

打开web后台进行配置,完成后可以查看模型运行状态

重点来了,tabby还能自动部署 上下文提供者来增强大型语言模型的性能。

现在回到VSCode,安装扩展 tabby

生成速度和质量还不错,意图理解也准确。

配置好之后,将tabby以服务自启动, 先修改配置 code .tabby/config.toml

然后再运行

与ollama的区别:

ollama 拉取的模型,默认为Q4_K_M量化,模型大小9G
tabby 拉取的是Q8_0量化,模型大小15G

M2 Max 32G统一内存下都能流畅运行。

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: 本地部署自托管的AI编码助手

解决Debian 启动stable-diffusion-webui 提示 Cannot locate TCMalloc (improves CPU memory usage)

解决华南X99主板接Tesla P100不开机的问题

使用亮机卡进入bios,选择Advanced。

移动到PCI Subsystem Settings, 并回车进入。

移动到Above 4G Decoding ,改为[Enabled]。

按F10保存重启,换P100卡,滴一声,自检完成,进入系统。

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: 解决华南X99主板接Tesla P100不开机的问题

Jetson 把玩记 三、rtmp直播流物体识别定位

detectnet 可以直接打开rtsp网络摄像头作为输入源,进行实时视频分析,在监控领域有非常大的应用。

尝试了下打开rtmp流,没有成功,返回说不支持。

从日志输出来看是使用GStreamer。

如果是GStreamer,那当然应该支持rtmp才对。打开并修改源码
jetson-inference/utils/codec/gstDecoder.cpp

继续阅读“Jetson 把玩记 三、rtmp直播流物体识别定位”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: Jetson 把玩记 三、rtmp直播流物体识别定位

Jetson 把玩记 二、TensorRT 环境搭建

NVIDIA TensorRT™是一个高性能深度学习推理平台。它包括深度学习推理优化器和运行时,可为深度学习推理应用程序提供低延迟和高吞吐量。在推理期间,基于TensorRT的应用程序比仅CPU平台的执行速度快40倍。使用TensorRT,您可以优化在所有主要框架中培训的神经网络模型,以高精度校准低精度,最后部署到超大规模数据中心,嵌入式或汽车产品平台。

         TensorRT构建于NVIDIA的并行编程模型CUDA之上,使您能够利用CUDA-X AI中的库,开发工具和技术,为人工智能,自动机器,高性能计算和图形优化所有深度学习框架的推理。

         TensorRT为深度学习推理应用的生产部署提供INT8和FP16优化,例如视频流,语音识别,推荐和自然语言处理。降低精度推断可显着减少应用程序延迟,这是许多实时服务,自动和嵌入式应用程序的要求。

image.png

         您可以将训练有素的模型从每个深度学习框架导入TensorRT。应用优化后,TensorRT选择特定于平台的内核,以最大限度地提高数据中心,Jetson嵌入式平台和NVIDIA DRIVE自动驾驶平台中Tesla GPU的性能。

         为了在数据中心生产中使用AI模型,TensorRT推理服务器是一种容器化微服务,可最大化GPU利用率,并在节点上同时运行来自不同框架的多个模型。它利用Docker和Kubernetes无缝集成到DevOps架构中。

         使用TensorRT,开发人员可以专注于创建新颖的AI驱动的应用程序,而不是用于推理部署的性能调整。

继续阅读“Jetson 把玩记 二、TensorRT 环境搭建”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: Jetson 把玩记 二、TensorRT 环境搭建

Jetson 把玩记 一、初次运行

最近得空,搞了一块Jetson Nano玩玩。

NVIDIA  在2019年NVIDIA GPU技术大会(GTC)上发布了Jetson Nano开发套件,这是一款售价99美元的计算机,现在可供嵌入式设计人员,研究人员和DIY制造商使用,在紧凑,易用的平台上提供现代AI的强大功能。完整的软件可编程性。Jetson Nano采用四核64位ARM CPU和128核集成NVIDIA GPU,可提供472 GFLOPS的计算性能。它还包括4GB LPDDR4存储器,采用高效,低功耗封装,具有5W / 10W功率模式和5V DC输入,如图1所示。

新发布的JetPack 4.2 SDK  为基于Ubuntu 18.04的Jetson Nano提供了完整的桌面Linux环境,具有加速图形,支持NVIDIA CUDA Toolkit 10.0,以及cuDNN 7.3和TensorRT等库。该SDK还包括本机安装流行的功能开源机器学习(ML)框架,如TensorFlow,PyTorch,Caffe,Keras和MXNet,以及计算机视觉和机器人开发的框架,如OpenCV和ROS。

完全兼容这些框架和NVIDIA领先的AI平台,可以比以往更轻松地将基于AI的推理工作负载部署到Jetson。Jetson Nano为各种复杂的深度神经网络(DNN)模型提供实时计算机视觉和推理。这些功能支持多传感器自主机器人,具有智能边缘分析的物联网设备和先进的AI系统。甚至转移学习也可以使用ML框架在Jetson Nano上本地重新训练网络。

话不多说直接开干。

继续阅读“Jetson 把玩记 一、初次运行”

原创文章,转载请注明: 转载自贝壳博客

本文链接地址: Jetson 把玩记 一、初次运行