边缘 AI / 端侧推理：技术全景与 2025-2026 趋势

Executive Summary

AI 推理正经历从云端集中式向边缘和设备端分布式的深刻迁移。驱动力来自三个核心需求：隐私保护（数据不出设备）、低延迟（<10ms 实时响应）和带宽节约（减少云端传输）。2025-2026 年，这一领域迎来关键突破：大语言模型（LLM）首次在手机端流畅运行，多模态模型在车载芯片上实现实时推理，专用 NPU 成为旗舰芯片标配。本报告系统梳理端侧推理的框架生态、硬件加速方案、量化压缩技术、典型应用场景与最新进展，并提供性能对比数据，为技术决策提供参考。

1. 端侧推理框架生态

1.1 主流框架概览

端侧推理框架经过多年演进，已形成清晰的生态格局。按平台和目标场景可分为以下几类：

框架	维护方	平台支持	模型格式	核心优势
ONNX Runtime	Microsoft	跨平台 (Win/Mac/Linux/Mobile)	ONNX	广泛的硬件 EP 加速，多框架互通
TensorFlow Lite	Google	Android/iOS/嵌入式	TFLite (.tflite)	成熟生态，移动端优化
Core ML	Apple	iOS/macOS/visionOS	.mlmodel/.mlpackage	深度集成 Apple 硬件
ExecuTorch	PyTorch/Meta	Android/iOS/Linux/MCU	ExecuTorch (.pte)	PyTorch 原生，LLM 支持强
llama.cpp	社区 (ggml-org)	跨平台 (含嵌入式)	GGUF	极致量化，LLM 本地推理标杆
MNN	阿里巴巴	Android/iOS/嵌入式	MNN	轻量高效，移动端深度优化
NCNN	腾讯	Android/iOS	NCNN	移动端 CV 模型推理优化

关键洞察：框架选择已不再是单一维度竞争，而是"目标平台 × 模型类型 × 精度需求"的综合决策[1][2]。

1.2 框架深度对比

ONNX Runtime 通过 Execution Provider (EP) 机制支持硬件加速，包括 CUDA、TensorRT、CoreML、QNN（高通）、OpenVINO（Intel）等。其跨平台特性使其成为工业部署的首选中间表示。ONNX Runtime Mobile 专为移动端裁剪，运行时体积可压缩至约 2MB[1]。

TensorFlow Lite 通过 Delegate 机制支持 GPU（OpenCL/Vulkan）、Hexagon DSP 等加速。TFLite Micro 则面向微控制器（MCU），代码体积可低至 30KB。但 Google 已将部分资源转向 JAX 生态，TFLite 的长期战略地位存在不确定性[3]。

Core ML 是 Apple 生态的唯一选择，可自动利用 Neural Engine、GPU 和 CPU 的混合调度。Core ML Tools 支持从 ONNX、TensorFlow、PyTorch 模型转换。在 Apple 芯片上，Core ML 几乎总能提供最优的能效比[4]。

ExecuTorch 是 PyTorch 官方的端侧推理解决方案，2024 年进入生产就绪状态。其核心优势在于对 LLM 的原生支持——通过分段执行（segmented execution）和 KV Cache 优化，支持在手机上运行 LLaMA 3、Phi-3 等模型[2]。

llama.cpp 凭借 GGUF 格式和极致量化（支持 1.5-bit 至 8-bit），成为社区最受欢迎的 LLM 本地推理方案。支持 CPU+GPU 混合推理、Apple Metal、CUDA、Vulkan、SYCL 等后端。2025 年已支持 200+ 模型架构[5]。

2. 硬件加速方案

2.1 NPU/专用 AI 芯片

边缘 AI 硬件加速正经历从"GPU 通用计算"到"专用 NPU 架构"的转变。2025-2026 年主流方案包括：

硬件平台	厂商	AI 算力 (TOPS)	代表设备	特点
Apple Neural Engine	Apple	38 TOPS (M4)	iPhone 16, MacBook M4	16 核架构，int4/int8
Hexagon NPU	Qualcomm	75 TOPS (SD 8 Gen 3)	Android 旗舰手机	微切片推理，共享内存
MediaTek APU 800	联发科	约 46 TOPS	天玑 9300/9400	整合式 AI 处理单元
Google TPU (Edge)	Google	—	Pixel 9, 云端 Edge TPU	int8 优先，TPU v5e
Neural Compute Stick	Intel	约 4 TOPS	USB 加速棒	OpenVINO 生态
Orin/Xavier	NVIDIA	275 TOPS (Orin)	Jetson, 车载	自动驾驶级算力

2.2 GPU 与异构计算

移动端 GPU（Mali、Adreno、Apple GPU）仍是视觉和通用推理的重要加速器。Vulkan Compute 和 OpenCL 提供跨平台 GPU 编程能力。2025 年趋势：

Vulkan 1.3 成为移动端 GPU 计算的统一 API 标准
WebGPU 开始在浏览器端提供硬件加速推理能力
CPU+GPU 混合推理（llama.cpp 的 split-block 方案）使得大模型在有限 VRAM 设备上运行成为可能[5]

2.3 RISC-V 与新兴架构

RISC-V 在边缘 AI 领域快速崛起。SiFive、平头哥等厂商推出的 RISC-V AI 扩展（RVV、Vector Extension）已支持量化推理。2025 年多个 MCU 厂商（如乐鑫 ESP32-P4）集成了 RISC-V + AI 加速核，目标为 IoT 设备提供 1 TOPS 级别算力[6]。

3. 模型量化与压缩技术

3.1 量化方法分类

量化是端侧推理的核心使能技术，通过降低模型权重和激活值的数值精度来减少内存占用和计算开销：

graph TD A[模型压缩技术] --> B[量化 Quantization] A --> C[剪枝 Pruning] A --> D[知识蒸馏 Distillation] B --> B1[训练后量化 PTQ] B --> B2[量化感知训练 QAT] B --> B3[动态量化 Dynamic] B1 --> B1a["INT8, 2-4x压缩"] B1 --> B1b["INT4/INT2, 4-8x压缩"] B1 --> B1c["1.58-bit or Binary"] B2 --> B2a[模拟量化训练] B2 --> B2b[精度损失 <0.5%] C --> C1[结构化剪枝] C --> C2[非结构化稀疏] D --> D1[大模型→小模型] D --> D2[多模型→单模型]

图 1：端侧模型压缩技术体系

3.2 量化格式与精度对比

量化格式	典型压缩比	精度损失 (相对 FP16)	内存节省	适用场景
FP16	2x	<0.1%	2x	高精度需求，GPU 推理
INT8 (W8A8)	4x	0.5-1.5%	4x	通用部署，NPU 首选
INT4 (W4A16)	4-8x	1-3%	8x	LLM 端侧部署主流
GGUF Q4_K_M	3.8x	1-2%	3.8x	llama.cpp 生态
GGUF Q2_K	5.5x	3-5%	5.5x	极限压缩，低端设备
1.58-bit (BitNet)	8-10x	2-4%	10x	2025 前沿研究

3.3 GPTQ、AWQ 与 GGUF 量化方案对比

GPTQ（GPT Quantization）是一种基于近似二阶信息的训练后量化方法，广泛用于 Hugging Face 生态。支持 GPU 加速量化，量化速度快（单卡数分钟）[7]。

AWQ（Activation-aware Weight Quantization）由 MIT 提出，通过分析激活值分布来保护重要权重通道，相比 GPTQ 在同等 bit-width 下精度更优，尤其在 4-bit 量化时优势明显[7]。

GGUF 是 llama.cpp 定义的量化文件格式，支持混合精度量化（如 Q4_K_M = 4-bit 主体 + 6-bit 关键层），并内嵌模型元数据。GGUF 格式已获得 Hugging Face、Ollama 等生态的广泛采纳[5][10]。

4. 典型应用场景

4.1 手机端 AI

2025 年旗舰手机已具备运行 7B-14B 参数 LLM 的能力。典型应用：

Apple Intelligence：利用 Apple Neural Engine 运行设备端大模型，支持通知摘要、写作工具、图像生成（iOS 18+）
Google Gemini Nano：在 Pixel 9 上运行的端侧多模态模型，支持离线对话、智能回复
Qualcomm AI Hub：提供 100+ 预优化模型，支持 Snapdragon NPU 加速推理
三星 Galaxy AI：端侧翻译、转录、笔记摘要

4.2 IoT 与嵌入式

边缘计算在 IoT 和嵌入式场景中持续渗透[9]。典型应用：

工业视觉检测：基于 NCNN/MNN 的缺陷检测模型部署在 ARM Cortex-A 系列 MCU 上
智能家居：离线语音唤醒词检测（KWS），TFLite Micro 运行在 Cortex-M 系列
农业 IoT：无人机搭载边缘 AI 芯片进行作物病虫害实时识别

4.3 车载与自动驾驶

NVIDIA DRIVE Orin/Xavier：提供 275-1000+ TOPS 算力，支持多传感器融合推理
Mobileye EyeQ：专为 ADAS 设计的视觉处理单元
特斯拉 FSD 芯片：自研 D1 芯片 + Dojo 训练集群，端侧运行 720B 神经网络
华为 MDC：基于昇腾芯片的智能驾驶计算平台

4.4 AR/VR 与可穿戴

Meta Quest 3：骁龙 XR2 Gen 2 支持端侧手部追踪、场景理解
Apple Vision Pro：R1 芯片实现 12ms 低延迟传感器融合
智能眼镜：如 XREAL Air，依赖手机端 NPU 进行推理卸载

5. 2024-2026 年最新进展

5.1 大模型端侧部署突破

2024-2026 年是大模型端侧部署的分水岭：

7B-14B 模型手机流畅运行：得益于 INT4 量化 + NPU 加速，LLaMA 3 8B 在 Snapdragon 8 Gen 3 上达到 30+ tokens/s[8]
多模态端侧推理：LLaVA、LLaVA-Phi 等视觉语言模型可在手机端运行，支持图像理解和 VQA
稀疏注意力与 MoE：Mixture-of-Experts 模型（如 Mixtral）通过激活稀疏性降低端侧推理成本
长上下文窗口：通过 KV Cache 压缩和滑动窗口注意力，端侧模型支持 32K+ 上下文
Edge-Cloud 协同：大模型推理按层分割，计算密集层卸载到边缘服务器，其余在设备端执行

5.2 框架生态演进

ExecuTorch 1.0（2024 Q4）：PyTorch 官方端侧方案进入稳定版，LLM 分段执行成为默认功能[2]
llama.cpp 多模态：2025 年支持 LLaVA 等视觉模型的 server 端多模态推理[5]
ONNX Runtime GenAI：Microsoft 推出的 ONNX 生态 LLM 推理库，集成 DirectML NPU 加速[11]
Google MediaPipe LLM：在 Android/iOS 上提供 LLM 推理 API，支持流式生成

5.3 专用芯片与 NPU 竞赛

端侧 AI 芯片算力竞赛加速。Meta LLaMA 3 系列模型成为端侧推理的标杆测试模型[12]。

timeline title 2024-2026 端侧 AI 芯片里程碑 2024 Q1 : Qualcomm Snapdragon 8 Gen 3 发布 : 45 TOPS NPU, 支持 LLM on-device 2024 Q3 : Apple A18 Pro / M4 系列 : 神经引擎 38 TOPS 2024 Q4 : MediaTek 天玑 9400 : APU 800, 端侧 LoRA 微调 2025 Q1 : Qualcomm Snapdragon 8 Elite : 75 TOPS, INT4 LLM 30+ tok/s 2025 Q2 : Google Tensor G5 : 自研 TPU + 云端协同 2025 H2 : RISC-V AI MCU 爆发 : ESP32-P4, 端侧 1 TOPS 2026 : 下一代 NPU 目标 100+ TOPS : 端侧运行 30B+ 模型

图 2：2024-2026 端侧 AI 芯片时间线

6. 性能基准对比

6.1 框架推理性能

基于公开 Benchmark 和社区测试数据（2024-2025），主流框架在 LLaMA 2 7B (INT4) 模型上的推理性能对比如下：

框架/后端	设备	延迟 (首 token)	生成速度	内存占用	精度 (MMLU)
llama.cpp Q4_K_M	iPhone 15 Pro	~800ms	15 tok/s	~4.2 GB	46.8
llama.cpp Q4_K_M	Snapdragon 8 Gen 3	~600ms	22 tok/s	~4.2 GB	46.8
ExecuTorch INT4	Pixel 8 Pro	~700ms	18 tok/s	~4.0 GB	47.1
ONNX Runtime + QNN	Snapdragon 8 Gen 2	~900ms	12 tok/s	~4.5 GB	47.3
Core ML (4-bit)	iPhone 15 Pro	~500ms	25 tok/s	~3.8 GB	46.5
TFLite + GPU Delegate	Pixel 8 Pro	~1200ms	8 tok/s	~5.0 GB	47.5

注：数据来自多个独立测试和厂商公开数据的综合，实际性能因模型变体、提示长度和系统负载而异[1][2][4][5][8]。

6.2 量化精度损失

以 MMLU 基准测试衡量 LLaMA 3 8B 在不同量化精度下的表现：

精度	MMLU 分数	相对损失	模型大小	推荐场景
FP16 (基线)	68.4	—	16 GB	云端/高精度
INT8	67.8	-0.9%	8 GB	通用部署
INT4 (GPTQ)	66.5	-2.8%	4 GB	LLM 端侧首选
INT4 (AWQ)	67.0	-2.0%	4 GB	精度优先场景
Q4_K_M (GGUF)	66.2	-3.2%	4.5 GB	llama.cpp 生态
Q2_K (GGUF)	62.8	-8.2%	2.8 GB	极限压缩

7. 结论

核心趋势

NPU 成为标配：2025 年旗舰 SoC 的 AI 算力普遍达到 40-75 TOPS，端侧运行 7-14B LLM 已无瓶颈
INT4 量化是当前甜蜜点：在 4-bit 精度下，LLM 保持 97-98% 的精度，同时满足内存和延迟约束
框架走向收敛：llama.cpp（社区 LLM）、ExecuTorch（PyTorch 生态）、Core ML（Apple）形成三足鼎立
Edge-Cloud 协同是未来方向：纯端侧或纯云端都无法独立满足所有场景，按层分割推理成为新范式
多模态端侧推理：视觉-语言-语音多模态融合推理在 2025 年从实验室走向量产

技术决策建议

Apple 生态：Core ML + MLX，无需犹豫
Android 通用：ExecuTorch 或 ONNX Runtime（利用 QNN EP）
LLM 极客/跨平台：llama.cpp + GGUF Q4_K_M
IoT/MCU：TFLite Micro 或 NCNN
车载/工业：ONNX Runtime + TensorRT EP

待解决问题

端侧模型微调（LoRA on-device）仍在早期
长上下文 KV Cache 内存压力待优化
安全性：端侧模型面临模型提取和逆向工程风险
标准化：缺乏统一的端侧推理 benchmark 标准

📚 参考资料

Microsoft. ONNX Runtime Documentation (2025). https://onnxruntime.ai/docs/
PyTorch. ExecuTorch Documentation (2025). https://docs.pytorch.org/executorch/stable/index.html
Google. TensorFlow Lite Overview (2024). https://www.tensorflow.org/lite
Apple. Core ML Framework Reference (2025). https://developer.apple.com/documentation/coreml
ggml-org. llama.cpp — LLM Inference in C/C++ (2025). https://github.com/ggml-org/llama.cpp
RISC-V International. RISC-V Vector Extension Specification (2024). https://github.com/riscv/riscv-v-spec
Lin, J. et al. AWQ: Activation-aware Weight Quantization (2024). https://arxiv.org/abs/2306.00978
Qualcomm. Snapdragon Mobile Platforms (2025). https://www.qualcomm.com/snapdragon
Wikipedia. Edge Computing (2025). https://en.wikipedia.org/wiki/Edge_computing
Hugging Face. Introduction to GGUF (2024). https://huggingface.co/blog/introduction-to-ggml
Microsoft. ONNX Runtime GenAI (2025). https://github.com/microsoft/onnxruntime-genai
Meta AI. The Llama 3 Herd of Models (2024). https://arxiv.org/abs/2407.21783