安徽芯云科技 中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构

用户投稿 1 0

中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构

算力成本是大模型应用起飞的前提,是下一代AI计算架构需要解决的最核心问题。

安徽芯云科技 中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构

当大模型训推需求份额已占据过半的算力需求时,硬件层上针对大模型的创新却屈指可数,芯片设计几乎成为制程工艺的附庸。

安徽芯云科技 中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构

应用需求 vs 基础设施供给

类GPGPU架构支持了AI大模型快速崛起,但其难以兼顾通用性和对大模型的针对性,在面对模型规模和复杂性的急剧膨胀时,其效率与成本的黑洞被诟病已久,甚至已经影响市场对大模型未来发展的预期。

玉盘MoonQuest团队充分拆解不同角度的算力问题(内存墙、存储墙、功耗墙等),认为核心都是I/O问题(数据的读写与搬运效率太低),制约了硬件理论算力的充分发挥,算力成本问题有进一步制约了整个行业的发展

本文旨在提出一种从I/O出发、专为AI大模型训推设计的创新计算架构——SRDA(系统级极简可重构数据流架构 System-level Simplified Reconfigurable Dataflow Architecture ),辅以一份更为详细的架构白皮书,完整开源SRDA的架构理念、技术优势以及初代的核心组件,探讨从I/O优化角度出发克服现有算力成本瓶颈的新思路。

AI计算需求的演进与挑战

人工智能,尤其是深度学习,在过去十年中取得了显著进展。AI模型,特别是Transformer、Diffusion等架构的出现,使得模型参数量从数百万激增至数千万亿级别,直接导致了对计算资源,尤其是并行处理能力和内存带宽的极致需求,传统计算架构逐渐暴露多重制约:

性能提升依赖制程工艺: 过去3年,工艺提升带来的单位面积算力优化只有15%,而主流观点认为当前芯片工艺极限约1nm,先进制程难以跟着大模型一起scale.内存带宽限制 :现有主流类GPGPU架构采用的多级共享式内存(如HBM)在多线程并发访问时,读写冲突以及数据过度随机化极易产生显存访问拥塞,导致内存带宽往往成为实际应用中的瓶颈,尤其在处理巨型AI模型时问题更加严重。算力利用率低 :由于架构设计、通信开销以及内存访问瓶颈等多重因素制约,芯片的理论峰值算力在实际AI负载中无法充分发挥。功耗屡创新高: 顶级AI加速器芯片的功耗指标屡创新高,已成为制约其更广泛应用和可持续发展的核心瓶颈。以英伟达H100 GPU为例,其典型板卡功耗高达700瓦,基于光模块的超节点集群方案更是功耗惊人。这是类GPGPU架构依靠增加计算核来拉高算力导致的,算力增幅与功耗增幅几乎成正比。大规模集群扩展难题 :传统两层网络(节点内高速互联如NVLink,节点间网络如InfiniBand/以太网)的设计,带来了带宽层级差异、协议转换开销、通信管理复杂等诸多问题,不得不占用大量计算资源来执行通信任务。软件复杂 :现有AI加速方案的主流软件栈非常复杂,实际算力利用率低,而优化成本非常高,进一步限制了其在大模型领域的应用。

面对这些挑战,业界亟需创新的计算架构来突破现有瓶颈,满足AI大模型发展的技术需求。

SRDA:为AI大模型极致算力性价比设计的新计算范式

SRDA 系统级精简可重构数据流架构是一种以数据流为中心、软硬件协同设计的AI计算架构,强调在成熟工艺下通过架构创新实现性能突破的潜力。其核心设计理念是通过数据流驱动计算,结合极简和可重构思路,最大限度地提升AI计算的效率、灵活性和可扩展性。

设计哲学

SRDA的设计哲学根植于对AI计算负载特性的深刻理解:

数据流驱动 :AI计算,尤其是神经网络的训练和推理,本质上是大规模、结构化的「数据流」 处理过程(数据在计算节点间依照特定计算图(Compute Graph)进行流动和转换)。传统GPGPU类的「控制流」 架构(Control-Flow Architecture)下,SIMT架构叠加复杂的多级共享内存架构导致内存访问常常成为性能瓶颈,致使计算单元长时间空闲和高额的数据搬运功耗。SRDA 将「数据流」的优化置于架构设计的核心 (Data-Flow Architecture)。SRDA通过编译器解析计算图,定制优化路径,将计算图拆解后直接静态映射到硬件,实现数据在计算单元之间点到点直接传输,大幅减少了对中央内存的依赖和访问次数。这种设计理念从根本上减少了数据移动的距离和频率——这也是当前大模型计算系统中主要的性能和能耗瓶颈之一。通过让数据“流动”起来,让计算“追随”数据,SRDA最大化有效计算的占比,最小化等待和搬运的开销。软硬件超融合 :为充分发挥硬件潜力,SRDA从设计之初就强调硬件架构与软件系统的超融合设计。这并非简单地为已有的硬件开发软件,而是在架构定义阶段就将软件精简性和易用性作为核心指标。(这也是玉盘仅20余人投入的核心起点,我们认为高效是AI时代的必然要求)SRDA的编译器对硬件的可重构特性、内存系统的架构与访问特性、以及互联网络的拓扑与通信特性拥有精确的认知。这使得编译器能够在编译阶段进行全局的静态优化,例如:将计算图高效地映射到物理计算单元,精确规划数据在片上和片间的传输路径,优化内存访问模式,以及预先配置数据流通路以消除运行时调度开销。这种深度的超融合设计,使得SRDA能够实现传统通用架构配合通用编译器难以企及的优化水平,从而将硬件的理论性能更充分地转化为实际应用性能。同时,SRDA软件栈也致力于对上层AI框架(如PyTorch、JAX及更上层的训推框架)提供简洁的接入层接口,使开发者不用感知底层硬件就能够高效利用SRDA的强大能力。精简与高效 :SRDA追求用最直接、最高效的方式满足AI计算的核心需求。面对AI计算负载的专用性,SRDA选择剥离传统通用处理器中为支持多样化任务而引入的复杂控制逻辑、冗余指令集以及多级缓存一致性等机制。作为一种AI领域的专用架构,SRDA将硬件资源更聚焦于AI计算本身的核心操作,如张量运算、向量处理等。 这种架构上的精简带来了多重效益:更高的面积效率 :在相同的芯片面积下,可以集成更多的有效计算单元和片上内存,直接提升原始计算能力。更高的能源效率 :减少了非计算相关的晶体管活动和复杂控制逻辑的能耗,使得每一瓦特电力都能更有效地转化为有效算力。更低的复杂度 :底层基于开源RISC-V指令集生态,大幅简化了指令系统和算子开发难度。同时,精简的架构也意味着芯片和系统的开发复杂度更可控,能更好的助力芯片设计团队及未来的用户大幅降低开发成本。可重构性与适应性 :SRDA是为AI领域设计的专用架构,但并非僵化的固定模型的硬件加速器。AI算法和模型本身在快速演进,从经典的CNN、RNN到主流的Transformer,再到新兴的MoE(混合专家模型)、Mamba(状态空间模型)、DiT(Diffusion Transformer)、ViT(Vision Transformer)等,其计算特性和数据流模式各不相同。 SRDA的关键特性之一是其可重构性,硬件的数据路径、部分计算单元的功能组合以及内存访问模式,可以在一定程度上由软件根据具体的AI模型或计算任务进行配置和优化,实现:适应多样化的模型结构 :针对不同模型的独特计算需求(如不同类型的注意力机制、循环结构或稀疏计算模式),配置最优的硬件执行方案。优化特定运算层 :专业用户可以针对模型中的不同计算层或关键算子,进行细粒度的硬件资源匹配和数据流定制。面向未来模型架构的扩展性 :为未来可能出现的新型AI算法和模型架构预留了适应空间,避免了因架构固化而过早被淘汰的风险。 通过这种受控的可重构性,SRDA™力求在专用加速器的高效率与通用处理器的高灵活性之间取得理想的平衡,以持续高效地支持AI技术的快速发展。

关键技术模块与解决方案

源于深厚I/O技术积累和市场需求洞察,玉盘SRDA凭借系统级数据流、分布式3D堆叠内存系统、I/O融合互连技术、极简可重构等多项关键技术模块,实现极简且高效的软硬件超融合SRDA架构,系统性解决当前算力面临的核心挑战。

安徽芯云科技 中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构 QDDM™:分布式片上3D堆叠内存管理技术

为了突破“内存墙”的限制,SRDA采用了QDDM™(Distributed 3D DRAM Management)技术 。该技术利用先进的3D堆叠工艺,在计算芯片上直接集成了高带宽、大容量的分布式内存网络。QDDM™的关键特性包括:

计算单元内存私有化 :每个计算核心或计算簇拥有其私有的、紧耦合的内存区域,天然支持带宽隔离,消除了多核心共享内存带来的带宽竞争和访问冲突。3D-DRAM专用控制技术 :集成定制的3D-DRAM控制器,在提供高带宽利用率的同时,可有效缩短数据传输路径和访问延迟,并定制了专用的数据加速功能。良率提升方案 :针对3D堆叠技术可能带来的良率挑战,SRDA™采用了的专用良率方案,确保了大规模生产的可行性和成本效益。QLink™:融合高速互连通信技术

在大规模AI计算集群中,节点间的通信效率是决定整体性能的关键因素。SRDA为此引入了QLink™融合高速互连技术 。QLink™旨在构建一个单层的统一、高效、低成本的互连网络,支持原生all-to-all的从芯片内部核间、芯片间(chip-to-chip)到服务器节点间(node-to-node)的无缝互连

融合网络架构 :将传统数据中心中可能并存的多种网络(如scale-up与scale-out网络)融合成统一的QLink™网络,简化网络拓扑,降低管理复杂度和部署成本,且无需昂贵的专用网卡。独立通信引擎 :QLink™集成了自研的独立通信调度引擎,实现了计算任务与通信任务的完全解耦。通信操作由专门的硬件处理,不占用宝贵的核心计算资源,释放更多有效算力。高带宽与低延迟 :QLink™提供高速互联带宽和低延迟特性,为大规模并行训练和分布式推理提供强大的通信支撑。线性扩展与高可靠性 :集成了自研的增强型网络模块,有效降低数据拥塞,支持大规模AI集群(如十万卡级别)的近乎线性扩展,并增强了系统可靠性。极简AI编译器与协同设计的软件栈

SRDA架构的强大能力需要高效的软件栈来释放。为此,玉盘开发与硬件架构紧密协同的极简AI编译器和软件工具链 :

基于开源RISC-V生态 :底层基于开源的RISC-V指令集生态,简化了底层算子的开发和优化难度,同时也为架构的开放性和社区合作提供了基础。聚焦核心与静态编译 :编译器聚焦AI计算的核心功能,降低了系统复杂度。通过支持静态计算图优化和静态编译,能够在编译期间完成大部分的优化工作,为可重构数据流路径的配置和资源调度提供精确指导。兼容主流AI框架 :前端接口设计注重与主流AI开发框架(如PyTorch、JAX以及上层的vLLM)的兼容性,使得用户可以平滑迁移现有的模型和开发流程。训推一体与资源优化 :软件栈对推理、预训练和后训练等不同AI应用场景进行了重新设计和优化,以充分利用SRDA架构在算力、内存和通信方面的硬件优势,最大化资源利用率。在集群层面,实现对网络、计算、存储的统一管理和高效利用。高性能融合计算引擎与可重构数据流

与传统固定功能的计算单元不同,SRDA的计算单元支持根据AI模型的具体算子和数据依赖关系,动态构建和优化计算路径。这种可重构的数据流使得中间计算结果可以在计算单元之间直接点到点传输,无需频繁访问片外主存,从而极大减少了数据搬运开销,消除了数据拥塞,显著提高了实际算力利用率 。

该计算引擎特别针对AI工作负载进行了优化,定制了专用的计算单元以大幅提升峰值算力。此外,玉盘首颗SRDA芯片将原生支持FP8等主流趋势的低精度数据类型,对于降低内存占用、提升计算吞吐量至关重要,并能与采用FP8原生模型精度的前沿模型高效配合。计算单元还支持灵活的计算组合,保证了较强的通用性。

“当下是推动AI专用计算架构的最合适时机”

安徽芯云科技 中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构

SRDA架构将:

大幅提升算力利用率 :通过可重构数据流、存算联一体化设计以及计算通信解耦,大幅减少数据搬运和通信等待,提升有效计算时间占比。大幅优化内存带宽与效率 :大幅优化超高内存带宽和低延迟访问,有效缓解大模型应用中的内存瓶颈。高效费比的大规模集群扩展 :IO融合技术简化了网络部署,降低了互联成本,并支持构建高效率的超大规模AI计算集群。不依赖先进制程拉高算力:基于成熟的工艺制程即可实现高有效算力。 大模型场景最优总拥有成本(TCO) :通过提升单芯片/单节点性能、大幅降低功耗、降低集群构建和运维复杂度、以及采用合适的成熟制程工艺,旨在提供更优的整体TCO。灵活的模型与算法适应性 :可重构数据流和对多种数据精度的支持,使得SRDA有能力灵活适应不断演进的AI模型和算法。极简的软件开发与迁移 :兼容主流框架并简化底层软件栈,降低用户的使用门槛。

下一步

SRDA不仅关注芯片单点性能的提升,更着眼于整体数据中心系统 。我们希望SRDA在推动AI技术普惠化、赋能下一代AI应用、探索计算架构发展以及构建自主可控的AI算力基础设施等方面发挥作用,为智能时代的加速到来贡献力量:

重塑数据中心与智能算力网络: QLink™等互联技术的创新,不仅优化了单服务器内部的通信,更为构建高效、低成本、易扩展的超大规模AI数据中心(“AI token工厂”)提供了新的解决方案。未来,SRDA的理念和技术也可能延伸至边缘计算乃至端侧设备,满足不同场景下对高效AI处理能力的需求,为构建泛在的智能算力网络贡献力量。赋能下一代AI大模型与复杂应用 :当前AI模型正朝着更大参数规模、更复杂结构(如多模态融合、长程依赖处理)的方向发展。SRDA™提供的超高实际算力、超大内存带宽和容量、各类精度覆盖,将为这些当前受限于硬件能力的下一代AI模型的训练和部署提供坚实基础,催生出更加智能和强大的AI应用。探索AI计算架构的范式演进: 作为一种专为AI设计的领域专用架构,SRDA以数据流为中心的设计理念,以及其在分布式内存系统和融合网络上的创新,对传统以控制流为主、依赖共享内存和分层网络的通用计算架构构成了重要补充和发展。基于此,我们有望进一步推动AI芯片设计向更深层次的软硬件协同优化和专用化方向发展,加速形成针对不同AI负载特征的异构计算生态。SRDA所强调的可重构性,也为应对在transformer之上进一步快速迭代的AI算法提供了灵活性,我们希望和各方模型伙伴探索演进。构建开放与协作的生态系统 :我们期待围绕SRDA架构,与AI框架开发者、模型研究社区、行业应用伙伴以及上下游供应链企业展开深度合作。通过开放部分硬件细节、提供完善的SDK和开发工具、共同定义和优化上下游关键组件与芯片的协同(“芯云一体”、“芯模一体”、“算电一体”等),旨在构建一个活跃、共荣的开发者和用户社区,加速SRDA技术的普及和创新应用。

结语

当一个场景的技术需求走向收敛,市场需求从小规模科研走向大规模应用,底层基础设施由专用架构替代通用架构实现最高性价比几乎是市场的必然选择,从图像显示市场GPU替代CPU,到矿机市场矿卡替代GPGPU。

玉盘MoonQuest团队从芯片、Infra、应用等不同角度看到了当前AI计算架构下算力瓶颈给AI发展带来的限制,于2025年的今天提出SRDA架构,并推出接下来的相关芯片,不仅是我们对当前AI算力瓶颈的回应,也是尝试对未来AI计算领域的发展可能性提出一次“天问”(A Moonquest)。

近期DeepSeek团队在其新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中从芯片用户角度对未来AI硬件提出了一些期待,其中很多点和SRDA架构的思路不谋而合,也让我们更有信心SRDA架构有机会成为下一代针对AI大模型场景的更优计算架构。

我们期待除玉盘外,未来有更多AI大模型计算芯片考虑SRDA,继模型层、Infra层之后,在硬件层也助力加速AGI的到来。

《SRDA计算架构白皮书》:

https://github.com/moonquest-ai/SRDA/tree/main

— 完 —

量子位 QbitAI · 头条号

关注我们,第一时间获知前沿科技动态

又出故障!CTO们该认真考虑混合多云了

近日,某云厂商出现核心域名解析异常,对象存储、内容分发网络等关键服务不可用,导致众多采用单云服务的企业应用出现服务异常。这一故障给所有云厂商都敲响了警钟,也让所有上云企业都必须面对这个问题:没有一朵云是100%可靠,应该如何保证业务的连续性和安全性?

当下,CTO需要认真考虑一下更领先的用云策略——混合多云。尤其是在全球化竞争加剧的今天,企业核心业务出海面临数据合规、地域时延、服务稳定性等多重挑战,混合多云策略正成为企业构建韧性架构的必然选择。

为何混合多云是企业上云的先进架构?

混合多云之所以先进,来自于多云多活带来的业务连续性保障,以及多云架构来带的成本降低。Gartner 预测,到 2027 年全球 90% 的企业将采用混合云策略,这一趋势源于对单点故障的深度防御。而据Flexera《2024 云状态报告》显示,采用混合多云的企业云资源浪费率下降 32%,故障恢复时间缩短 60%。

首先多云多活的机制带来更高的业务连续性保障。其业务应用与底层基础设施真正解耦,当底层硬件故障发生时,业务系统不会有任何感知;当意外发生时,出现故障的业务能够在数秒内将流量切换到其他正常服务的单元之上,用户甚至感受不到故障发生。

其次是用云成本的降低。很多企业能够看到混合多云的架构优势及可靠性,但出于成本原因,始终没有行动,认为混合多云由“单”变“多”成本肯定提升。但其实混合多云是降本的,企业能够摆脱单一云厂商的价格捆绑,通过对比云平台的定价和优惠来选择最经济实惠的云服务;此外,混合多云操作系统能够解决多个云烟囱式架构所带来的资源利用率低下的问题,通过高效腾挪调度,提升资源利用率。

京东云云舰:多云多芯多活保障业务连续性

基于对客户需求的洞察,京东云推出了混合多云操作系统云舰,由京东内部大规模业务场景打磨而来,高效支撑起京东618、京东11.11、春晚红包流量洪峰。

在多云方面,云舰打通公有云、专有云、IDC和边缘节点,实现统一的运维运营和管理。 在多芯方面,云舰全面兼容各类CPU和GPU架构,以及全栈国产化软硬件体系基础,实现生产级可用。 在多活方面,云舰作为国内应用多活最高级别的云平台,在现有的一云多芯云架构基础上,以单元化技术,实现同一应用跨芯片进行多活部署和调度,搭建最适合的平滑升级云环境,实现应用在国产化环境中真替真用。

例如,在京东云应用多活系统中,所有机房内的应用可同时对外提供服务,保证了极高的可用率,当灾难发生时,多活系统可以快速实现业务流量切换,最大化降低故障带来的影响,有效保障业务系统持续稳定的运行。在实际生产的实践中,应用多活的发布和切换达到最高秒级、最低分钟级的 RTO 指标要求,能够最大化降低各种故障带来的业务影响。

混合多云降低企业用云成本,提升资源利用率

从“一云多芯”到“多云多芯”,京东云云舰具备超强的底层兼容能力,全面支持混合多云多芯,完全屏蔽底层基础设施的差异性。客户无需关注底层基础设施,就像使用一朵云一样,只用关注地域、可用区和自己的应用,

此外,借助多云多活,企业可根据不同云厂商的价格和优惠措施,随时动态调整各机房的业务流量和相应的云资源,有效控制总体成本。

对业务系统稳定性冲击极大的京东618,11.11等场景,京东云依靠自主研发的混合多云操作系统云舰,腾挪现有资源,秒级精准调度,面对数亿级别的QPS流量洪峰时,仍能保证业务系统稳定0事故,并实现资源成本下降35%。

同时,作为混合多云架构的首批实践者,京东云基于自身业务实践不断向行业客户输出创新能力,为北汽集团打造了专有的混合云平台底座,基于混合多云操作系统云舰,面向集团及二级子公司的IDC统一利旧,整合15个数据中心、19朵私有云为集团一朵云,在节约50%系统重复建设成本的同时,支持产线生产率综合提升50%以上。

此次云厂商域名解析异常事件是警钟而非孤例。无论是源于云厂商自身故障、网络攻击、还是自然灾害,风险无处不在。对CTO而言,部署混合多云已成为保障全球业务高可用性、应对不确定性的核心竞争力支柱。

京东云凭借全栈技术能力和丰富实践经验,正成为企业出海的 “最优解”—— 通过统一管理、智能调度、安全合规的混合多云架构,企业不仅能抵御技术风险,更能以敏捷的资源调度能力和成本优势,带来更优用云体验,助力企业在全球市场竞争中抢占先机。

相关问答

良渚芯云多久建成?

良渚芯云是一个大型云计算数据中心项目,建设时间较长。根据计划,良渚芯云的建设工期预计为3年,从2020年开始,预计于2023年完工。该项目将提供高效、可靠的云...

云芯科技是干什么的?

云芯科技(云南)有限公司成立于2021-11-03,注册资本为100万人民币,法定代表人为水兴刚,经营状态为存续,注册地址为云南省昆明市盘龙区博欣欣悦苑2层201号。...

芯视云摄像头怎么样?

挺好用的。深圳市芯视云科技有限公司于2019年07月02日成立。法定代表人姚海兵,公司经营范围包括:一般经营项目是:计算机软件、信息系统软件的技术开发、销...

云芯小学好不好?

好成都高新云芯学校,是由成都市高新区为加速高新西区优质基础教育资源聚集,增强电子信息产业功能区的人才吸附力,进一步改善营商环境,助力世界一流高科技园...

云芯学校初升高是否属于5+2区域?

属于5+2区域高新西区新增成都高新云芯学校,在第一批次里,“升学区域”为成都高新滨河学校、成都高新顺江学校、成都高新新科学校的符合条件的小学毕业生可自...

端管云芯啥意思?

端管云芯是指边缘计算技术中的一种创新。它结合了端侧计算、管道网络和云计算三个概念,旨在实现数据的高效传输、处理和存储。具体来说,"端"指的是边缘设备或...

芯赛云公司怎样?

不错,公司是自然人控股的有限责任公司。芯赛云(上海芯赛云计算科技有限公司)成立于2021年,注册资本3亿,是一家具备科技活力、正高速发展的云计算公司,专注...

国内做芯片最好的国企?

目前国内紫光集团是做芯片最好的国企,紫光集团有限公司是清华大学旗下的高科技企业。在国家战略引导下,紫光集团以“自主创新加国际合作”为“双轮驱动”,形成...

航芯hj300w-b2云服务到期还能用吗?

如果航芯hj300w-b2的云服务到期,通常情况下其基于云服务的一些功能可能无法继续使用。云服务提供了诸如远程数据存储、远程控制、数据分析等功能,一旦到...

墨芯智能怎么样?

墨芯将于2021年中后期发布产品安腾(Antom)芯片,产品在以下三方面具有独特和巨大优势:1、墨芯的产品体积小,适用于更多类型服务器,将节省在数据中心所占物...

上一篇安徽科技学院校历 学校教学使用电子屏,用多久才合适?

下一篇当前文章已是最新一篇了

抱歉,评论功能暂时关闭!