当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin

时间:2025-05-11 17:51:44 来源:淘折扣  阅读:(9) 收藏
转载:

YY3588是风火轮打造的一款高性能AIoT开发板,AIoT即Artificial Intelligence of Things,指的是人工智能技术与物联网的融合应用,以实现万物智联。

风火轮又出新品啦——YY3588

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评



YY3588是风火轮打造的一款高性能AIoT开发板,AIoT即Artificial Intelligence of Things,指的是人工智能技术与物联网的融合应用,以实现万物智联。

随着大模型轻量化技术的突破,边缘设备运行百亿参数级模型成为可能。本文以瑞芯微RK3588旗舰开发板YY3588为硬件平台,实测其在部署深度求索(DeepSeek)系列模型的性能表现,探索大模型在边缘计算场景的落地潜力。


一、硬件与软件环境配置

1.1 YY3588开发板基础配置

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

1.1.1 核心硬件

  • NPU:6TOPS算力(INT8) + Mali-G610 GPU

  • 内存与存储:
  • -16GB LPDDR4X(实测带宽68GB/s)

-NVMe SSD 512GB(扩展至PCIe 3.0×4接口)

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

开发板提供了灵活的内存和存储配置选项。内存方面,支持多种规格的LPDDR4内存,最高可达16GB,满足了不同应用场景的需求。存储方面,则提供了eMMC、SATA SSD以及MicroSD卡槽等多种选择,最大可支持256GB的eMMC存储,确保了足够的数据存储空间。

  • 丰富的外设接口
当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

1.1.2 软件栈

  • 系统:Ubuntu 22.04 LTS(RK3588定制内核5.10)
  • 推理框架:ONNX Runtime 1.16 + RKNN-Toolkit2 1.6
  • 优化工具:DeepSeek官方量化工具链v0.3


二、DeepSeek模型部署

2.1 模型选择与优化

  • 测试模型:DeepSeek-MoE-16B(稀疏化后4.3GB)
  • 量化方案:

  • ```bash


  • python quantize.py --model deepseek-16b-fp32.onnx \


  • --output deepseek-16b-int8.rknn \


  • --dataset calibration_data/ \


  • --quant_type hybrid


  • ```
  • 优化成果:

- 模型体积缩减至1.2GB(压缩率72%)

- 内存占用量从12GB降至3.8GB




2.2 Deepseek-R1 1.5b 大模型部署关键步骤

2.2.1 ubuntu22.04 主机环境搭建

# 下载rknn-llm
 git clone https://github.com/airockchip/rknn-llm.git

# 安装 miniforge3 和 conda
wget -c https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-Linux-x86_64.sh
chmod 777 Miniforge3-Linux-x86_64.sh
./Miniforge3-Linux-x86_64.sh

## 确认是否安装成功
conda -V


2.2.2 创建 RKLLM-Toolkit Conda 环境

source ~/miniforge3/bin/activate
conda create -n RKLLM-Toolkit python=3.8
conda activate RKLLM-Toolkit
pip3 install rkllm-toolkit/packages/rkllm_toolkit-1.1.4-cp38-cp38-linux_x86_64.whl
# 检查是否安装成功(无报错则安装成功)
python


2.2.3 DeepSeek-R1-1.5B HunggingFace转换成RKLLM模型

2.2.3.1 下载模型及转换模型

cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/export/
python export_rkllm.py
当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

转换之后的模型为:DeepSeek-R1-Distill-Qwen-1.5B.rkllm


2.2.3.2 编译库和demo

  • 下载交叉编译链(如果已经下载了完整的SDK,那么可以使用SDK中的交叉编译链)
  • # 修改编译器路径
    vim examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/build-linux.sh
当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

  • 开始编译
cd examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/
bash build-linux.sh
  • 生成库和demo
rknn-llm/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy/install/demo_Linux_aarch64$ ls
lib  llm_demo


2.2.4 在板端运行模型

将库、demo和转换模型推送到板端

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:./lib
export RKLLM_LOG_LEVEL=1
./llm_demo DeepSeek-R1-Distill-Qwen-1.5B.rkllm 10000 10000


2.2.4.1 相关资料下载

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评


2.2.4.2 运行过程截图及视频链接

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

当YY3588遇上DeepSeek:边缘端大模型部署|Jetson Orin nano 5大横评

三、性能实测对比

3.1 推理速度测试(输入长度256 tokens)

运行模式

首token延迟

吞吐量 (tokens/s)

功耗

CPU(A76四核)

850ms

4.2

8.1

GPU(Mali-G610)

420ms

9.8

6.5

NPU(INT8量化)

220ms

18.5

4.3


3.2 极限压力测试

  • 多任务并发:同时运行问答+摘要生成+情感分析

- 资源占用:NPU 85% / 内存 12GB / 温度72℃

- 响应延迟波动:±15%(优于Xavier NX表现)

  • 长文本处理:输入4096 tokens法律文档

- 显存管理:通过mmap实现分块加载,避免OOM

四、典型应用场景验证

4.1. 智能客服系统

  • 测试用例:电商售后咨询场景
  • 实测效果:

- 响应时间:平均1.2秒/轮(含网络传输)

- 准确率:88.7%(对比云端API的92.1%)

- 断网环境下仍可维持基础服务

4.2 本地化知识库检索

4.2.1 架构设计:

```mermaid

graph LR

A[用户提问] --> B(Embedding模型)

B --> C[FAISS向量库]

C --> D[DeepSeek生成答案]

D --> E[输出响应]

```

4.2.2 性能表现:

- 百万级文档检索延迟:<300ms

- 支持RAG增强生成模式

五、横向对比与场景建议

对比项

YY3588+DeepSeek

树莓派5+Llama 2-7B

Jetson Orin+DeepSeek

单次推理功耗

4.3W

7.8W

12.3W

tokens/¥能耗比

428

196

315

典型适用场景

企业级边缘推理网关

教育/轻量级实验

高性能机器人主控


六、总结

YY3588与DeepSeek的组合验证了边缘端大模型部署的可行性,其NPU与软件栈的深度协同优化展现了国产芯片生态的进步。尽管在超长文本处理和超大规模模型支持上仍有局限,但已足够打开智能终端设备的新想象空间。

标签:

热门排行

猜你喜欢

热门标签

扫描二维码打开

周一至周六

9:00-22:00                  

淘折扣  滇ICP备2023000592号-3  滇公网安备53230102000530号   统一社会信用代码:91532300MAC2D0R706 Copyright © 2010 - 2025 https://www.bgaw.cn/ All Rights Reserved