favicon
CANN
operation-entry
CANN
CANN(Compute Architecture for Neural Networks)是华为针对AI场景推出的异构计算架构,对上支持多种AI框架,对下服务AI处理器与编程,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台
More
README

🔥DeepSeek V4专区🔥

开源项目

组件 描述 源码仓
算子库 提供了丰富的深度优化、硬件亲和的高性能算子,为神经网络在昇腾硬件上加速计算提供基础。 ops-nn
ops-math
ops-transformer
ops-cv
通信库 基于昇腾硬件的高性能通信库,提供单机多卡及多机多卡间的数据并行、模型并行通信方案。 hixl
shmem
hccl
hcomm
领域加速库 针对特定领域或场景的算子和算法的结合。 ascend-transformer-boost
sip
图引擎 面向昇腾的图编译器和执行器,提供图优化、多流并行、内存复用和模型下沉等功能。 ge
metadef
graph-autofusion
triton-inference-server-ge-backend
编程语言 CANN针对算子开发场景推出的编程语言,最大化匹配用户开发习惯,提供算子模板库,支持算子极简编程。 asc-devkit
pyasc
pypto
pto-isa
atvoss
catlass
运行时 提供了高效的硬件资源管理、媒体数据预处理、单算子加载执行、模型推理等开发接口,供开发者轻松构建高性能人工智能应用。 runtime
驱动 提供了基础驱动、设备管理、资源管理及调度、通信能力等功能,使能昇腾芯片,充分发挥硬件能力,支撑CANN上层软件高效稳定运行。 driver
工具 提供CANN平台的各种工具,如算子调试调优工具、故障定位、模型压缩等。 asc-tools
oam-tools
amct

关于社区

社区治理架构及章程

CANN 社区采用分层协作的治理模式,当前架构主要包括以下组织:

更多社区治理内容,详见:社区治理章程

参与贡献

  • 基础贡献:包含参与社区会议、社区邮件讨论、提交 Issue 、处理 Issue 任务、提交PR等。
  • 进阶贡献:包含新建 SIG、成为核心贡献者、组织会议、新建仓库、引入开源软件、发布新版本或新仓库等。

快速体验

若您希望快速体验CANN算子的调用和开发过程,请访问如下文档获取简易教程。

  • 算子调用:介绍调用算子的基本步骤,快速搭建环境,实现算子编译执行。
  • 算子开发:介绍开发算子的基本流程,一键创建算子工程目录,实现Tiling、Kernel核心交付件。

🔥一站式开发平台:您也可在对应仓库中点击“云开发”,在一站式在线开发环境中限时免费体验昇腾算力。🔥

实践样例

推理   |  🚈 训练 |   🔮 空间智能 |   🎮 具身智能 |   📱 鸿蒙推理

热门实践 描述
NPU DeepSeek-V4推理优化实践 DeepSeek团队发布了最新的模型DeepSeek-V4系列模型,包含DeepSeek-V4 Flash和DeepSeek-V4 Pro两种规格。在DeepSeek-V3.2的稀疏Attention(DeepSeek Sparse Attention)的基础上,在不同层间进一步通过KV Cache滑窗 (Window Cache) 和压缩算法 (KV Cache Compress),减少Attention的计算和访存开销,可以大幅提升长序列的计算效率,降低推理的成本。本实践0 Day支持了DeepSeek-V4的模型推理部署,并适配支持Atlas-A3和950PR/DT多代际昇腾芯片。
DeepSeek-V4昇腾训练支持 本文介绍 DeepSeek-V4-Flash 模型基于 CANN 平台的训练优化实践。基于 TorchTitan-NPU 框架,采用纯 FSDP + 大 EP 极简并行策略实现内存最优;创新性地使能训练入图技术,凭借 Ascend C AutoFuse 能力,获得端到端 32% 的编译收益;针对稀疏注意力结构定制高效融合算子,充分释放芯片算力。
DeepSeek-V3.2-Exp模型支持0day推理部署 基于Transformers库,在Atlas A3环境中Prefill阶段采用了长序列亲和的CP并行策略,Decode阶段沿用大EP并行,同时整网设计新的NPU融合Kernel和多流并行优化,实现较高的吞吐推理性能。
DeepSeek-R1 RL训练优化实践 基于开源veRL框架,搭配MindSpeed+vLLM-Ascend框架,在Atlas A3集群实现GRPO算法的高吞吐RL训练,并达到120TPS/卡的系统吞吐量。
HunyuanVideo模型推理优化实践 基于xDiT框架,在Atlas A2环境中采用了Ulysses序列并行和RingAttention序列并行测量,同时适配了TeaCache加速,实现了较优的推理性能。
VGGT模型推理优化实践 基于VGGT开源模型,完成其在Atlas A2上的推理适配,并提供其在相机位姿估计、点云三维重建、深度估计三个任务上的精度评测脚本。
Pi0模型推理优化实践 基于LeRobot库,在Atlas A2环境适配Pi0模型,通过使能融合算子、图模式、计算逻辑优化等手段,实现了较低的推理时延。
QQ音乐声伴分离鸿蒙推理优化实践 实现QQ音乐声伴分离业务模型中的BandNorm等算子在鸿蒙设备上的高性能推理部署。

社区活动

联系我们

  • 社区邮件订阅:选择需要订阅的组织(TSC/PMC/SIG等),填写相关信息,进行邮件订阅(邮件推送内容包含:会议通知、会议纪要、内容讨论等),如果您对相关组织有诉求或者问题,也可以通过邮箱途径联系。

  • 昇腾CANN(社交媒体)

    B站
    微信公众号
    知乎
    CSDN
    cann_bilibili CANN微信公众号 昇腾CANN知乎 昇腾CANN_CSDN
  • cann@cann.team

相关链接

Collapse
Pinned
cann-recipes-infer
596
本项目针对LLM与多模态模型推理业务中的典型模型、加速算法,提供基于CANN平台的优化样例
ops-transformer
751
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
ops-nn
590
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
ops-cv
455
本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。
ops-math
953
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
community
646
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
Project Showcase
More >
GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力,并同时支持 onnx、pb 等主流模型格式的解析与编译。
C++
499
266
NOASSERTION
Updated at 10 hours ago
Star
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
953
919
NOASSERTION
Updated at 10 hours ago
Star
Parallel Tile Operation (PTO) is a virtual instruction set architecture designed by Ascend CANN, focusing on tile-level operations. This repository offers high-performance, cross-platform tile operations across Ascend platforms.
C++
249
204
NOASSERTION
Updated at 9 hours ago
Star
PyPTO(发音: pai p-t-o):Parallel Tensor/Tile Operation编程范式。
C++
487
471
NOASSERTION
Updated at 7 hours ago
Star
本项目提供CANN运行时组件和维测功能组件。
Motorola 68K Assembly
401
443
NOASSERTION
Updated at 10 hours ago
Star
本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C++标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。
C++
332
444
NOASSERTION
Updated at 10 hours ago
Star
本项目是CANN提供的是一款高效、可靠的Transformer加速库,基于华为Ascend AI处理器,提供Transformer定制化场景的高性能融合算子。
C++
255
136
NOASSERTION
Updated at 10 hours ago
Star
本项目是CANN提供的神经网络类计算算子库,实现网络在NPU上加速计算。
C++
590
1.09 K
NOASSERTION
Updated at 8 hours ago
Star
本项目是CANN提供的图像处理、目标检测相关的算子库,实现网络在NPU上加速计算。
C++
455
214
NOASSERTION
Updated at 10 hours ago
Star
本项目是CANN提供的transformer类大模型算子库,实现网络在NPU上加速计算。
C++
751
1.51 K
NOASSERTION
Updated at 6 hours ago
Star
More >
Community Chat

Chat with community members in real-time

Announcements
No Announcements
Achievements
annualOrgImage
13.41 K
Star
8.74 K
Fork
7.74 M
Download
Common Languages
C++
Python
Shell
CMake
C