九三读书网

手机浏览器扫描二维码访问

本站广告仅展示一次,尽可能不去影响用户体验,为了生存请广大读者理解

一文读懂华为昇腾芯片:国产ai算力的中流砥柱(第1页)

在当下人工智能飞速发展的时代,芯片就如同AI的“心脏”,为各种智能应用提供着不可或缺的算力支持。华为的昇腾芯片,作为国产AI芯片的杰出代表,备受瞩目。今天,咱们就用最通俗易懂的大白话,来深入了解一下昇腾芯片到底是怎么一回事。

一、昇腾芯片诞生的背景

这几年,人工智能火得一塌糊涂,到处都在搞AI大模型,像ChatGPT这类的应用更是让大家看到了AI的巨大潜力。AI大模型的训练和各种AI应用的落地,都需要巨量的计算能力,这就离不开AI芯片。

以前,在AI芯片领域,英伟达的GPU那是占据着主导地位。但是呢,由于众所周知的原因,英伟达的GPU对我们进行了禁售,连阉割版的H20都不卖给我们了。这就好比做饭突然没了锅,AI发展面临着算力短缺的困境。就在这个时候,华为的昇腾芯片挺身而出,成为了国产AI芯片的希望之光,发挥了重要的替代作用,也迎来了巨大的市场机遇。

二、昇腾芯片的家族成员

昇腾芯片是一个庞大的系列,主要包括昇腾310和昇腾910两个子系列 ,它们有着各自不同的特点和用途。

(一)昇腾310:小巧灵活的边缘“助手”

昇腾310是SoC小芯片,就跟我们手机芯片差不多大,只有指甲盖那么点儿大 ,功耗也特别低,仅有8W,特别省电。它麻雀虽小,五脏俱全,集成了多个运算单元,包括8个ARM A55 Core的CPU、AI Core、数字视觉预处理子系统等。

它主要面向边缘计算与低功耗终端,就像是一个灵活的小助手,在边缘端帮助完成AI推理任务。比如说,在智能安防摄像头里,昇腾310就能实时对采集到的视频图像进行分析,看看有没有异常行为,而且因为它功耗低,摄像头也不用担心太费电。它的AI Core采用了华为自研的达芬奇架构,就像一个高效的计算小能手,能够复杂执行矩阵、向量、标量计算的算子任务,而CPU则负责非矩阵类复杂计算。根据海思官网的披露,昇腾310的FP16算力为8TOPS,INT8算力为16TOPS,采用12nm工艺制造。

(二)昇腾910:云端的强大“算力担当”

昇腾910可就大多了,和我们的掌心差不多大 ,功耗在300W以上 ,是个“大力士”,主要面向云端高性能计算。它的算力特别强,既能用于AI推理任务,也能用于AI训练任务,是云端的“算力担当”。

华为早期发布的昇腾910,其实应该算是910A 。当时华为还没被完全禁售,所以910A采用了台积电的7nm增强版EUV工艺 。芯片内建了32颗达芬奇Max核心(达芬奇核心分为Max/Lite/Tiny三种,Max最完整),支持混合精度计算(FP16/FP32/INT8),FP16算力为256TFOPs,最大功耗350W(一开始说是350W,后来变成了310W )。

2020年华为被列入实体清单后,台积电那边的先进工艺用不了了。于是,华为就与中芯国际(SMIC)合作,采用他们的N+1工艺(等效7nm),推出了910B 。910B优化了架构设计,提升了能效比,芯片尺寸为21.32mm×31.22mm,FP16算力约320TFLOPS,INT8算力约640TOPS 。显存为64GB HBM2e,显存带宽400GB/s 。910B也分为B1/B2/B3 。910B3引入了HBM3e内存,带宽提升至1.2TB/s,支持万亿参数模型训练。

最近这两年,华为又推出了昇腾910C 。昇腾910C采用中芯国际的7nm(N+2)工艺,晶体管数量达到530亿 。910C采用了类似B200的双die封装设计,就是把两颗独立的芯片die分别放置在各自的中介层,再通过有机基板将两个中介层连接起来 。通过把两颗昇腾910B整合到一起,实现了性能的提升。这种封装方式虽然在芯片间互联带宽上可能低于英伟达的先进封装方案,但好处是成本更低、良率更高,量产速度也更快。

业界估测,910C在FP16精度下的单卡算力能达到800TFLOPS左右,大概是英伟达H100芯片(2022年推出)的80% 。不过,910C的芯片逻辑面积大约比H100多60% 。这也意味着910C在架构效率和设计优化方面,和H100还是存在一定差距的。910C的HBM高带宽内存仍然来自海外厂商(国内DRAM制造商长鑫存储HBM2e相关技术还需要再等等),但芯片的整体国产化比例据说已经达到90%以上 。

关于910C的消息比较神秘,根据网络上不太确定的信息,910C于2024年四季度推出样片,2025年一季度开始量产,目前已经处于大规模出货阶段,全年销量大概在70 - 80万颗 。也有消息说,2024年910B的出货量约四十万张,今年910B出货量可能与去年持平或略低(约30万张),而910C的出货量预计可能超过40万张 。因此,华为今年910B + 910C的整体出货量可能是70 - 100万张 。出货量和产能也有很大关系,中芯国际N+2工艺良率去年只有20%,今年据说已经达到40 - 50% ,分配给910C的产能貌似是2.6万片晶圆/月(数据不太确定,仅供参考)。价格方面,910B的均价据说大约是11万/片,910C可能是18 - 20万/片 。网上很多文章说910C价格是1800美元,感觉不太靠谱。相比之下,英伟达H100的市场价格,大约是2.5 - 3万美元/张 。

本小章还未完,请点击下一页继续阅读后面精彩内容!

对了,华为前段时间推出的CloudMatrix 384超节点,由384颗昇腾910C芯片构建,系统性能比英伟达的GB200 NVL72更强 。这就像是“群殴”模式,虽然单芯片的性能比不过人家,但通过系统层面的创新,组成更大规模的集群,也能在一定程度上弥补差距,满足算力需求。

在连接方面,华为自研的HCCS高速互连接口也很厉害。昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,可以灵活高效地实现横向扩展和纵向扩展 。HCCS对标的是英伟达的NVLINK,能够给内核、设备、集群提供系统内存的一致访问 。在单一链路的单向/双向互联带宽上,HCCS有显着优势,可以有效提升多个Al芯片协同训练的能力。

热门小说推荐
全球密室[无限]

全球密室[无限]

《全球密室[无限]》全球密室[无限]小说全文番外_时候水千星全球密室[无限],  《全球密室[无限]》作者:月上星稀文案一夜之间,全球成为一个无限密室。无人可以逃脱。旅馆多出来的444号房间……一辆不知开往何方的12号公交车……半夜十二点,恐怖电影准时放映……...

耍棍

耍棍

耍棍情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的武侠修真小说,耍棍-蜀道山道长-小说旗免费提供耍棍最新清爽干净的文字章节在线阅读和TXT下载。...

穿山

穿山

正义,生命,价值…… 往事是否可追?一切都有迹可循。 ———————————— “我明白人性的不可控,在追求信仰的路途上会有无数荆棘和坎坷,每过一个岔口,都无法避免地与一些人走散、告别。我会惶恐、会不舍、会疑惑,但我不会停下脚步,哪怕最后这条路上只有我一人在踽踽独行,我也绝不后悔。” 法医苏行刚调到平潞市公安局刑科所不久,在外人看来他积极乐观,年轻帅气,见谁都笑。但没有人知道他掩藏在笑意之下的真实内心。 一起性质恶劣的抛尸案让他和刑侦支队的支队长有了交集。 ———————————— 假乐观真悲观看谁都没区别最喜欢跟尸体打交道的法医攻x有钱有颜工作一丝不苟但极其双标的刑侦支队长受...

诸天最苟龙套

诸天最苟龙套

作为一个基本活不过几章的龙套,如何生存下去呢?1、降低存在感,成为小透明,你看不见我,看不见我。2、变强。主世界:莽荒纪。龙套世界:九鼎记,斗破苍穹,沧元图,吞噬星空,盘龙,遮天等...

怎料是枯木又逢春

怎料是枯木又逢春

怎料是枯木又逢春情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的其他类型小说,怎料是枯木又逢春-悦玖-小说旗免费提供怎料是枯木又逢春最新清爽干净的文字章节在线阅读和TXT下载。...

疯狂深陷

疯狂深陷

云师大的白教授,身后总是跟着一个小尾巴。小尾巴叫池柚,是隔壁医科大的学生。学医的池柚天天都来云师大听白教授的课。每次来,还给白教授带一颗糖,一杯水,一朵花。但白教授次次都把那些礼物还给了...