金年会,金年会官网,金年会登录,金年会注册,金年会app下载,在线体育投注,电竞投注平台,真人游戏平台,金年会数字站
「暗涌Waves」独家获悉,算苗科技于近期连续完成两轮累计规模近10亿元人民币融资。其中,Pre-A轮融资由源码资本、石溪资本联合领投,联想创投等多家半导体核心产业方跟投。Pre-A1轮融资由襄禾资本领投,同时获国开金融、北京顺禧等国资背景资本加持。
算苗科技是一家长期专注于3D算力芯片研发的公司,核心产品是AI大模型推理3D定制化芯片。
“现有AI芯片最大的问题不是计算而是内存。英伟达H100在跑AI推理时,高达70%的计算单元在空转,等待数据从内存中搬运过来。过去20年,摩尔定律驱动计算能力增长了60000倍,而内存带宽仅仅增长了100倍。”
算苗科技创始人汪福全告诉「暗涌Waves」,他的目标是凭借计算机体系结构创新、以及团队多年来与国内半导体核心产业伙伴联手打造的3DIC供应链,来解决“内存墙”对于AI大模型计算的制约。目前3D DRAM的带宽可达到32TB/s,相当于英伟达B200的4倍。而算苗科技的研发重点,就是要将高带宽转化为实实在在的推理性能。
算苗科技向「暗涌Waves」提供了其研发芯片A4的帕拉丁仿真数据,信息显示:在Llama和Mixtral等海外主流开源大模型上,A4的推理吞吐量(tokens/s)能达到英伟达H200的1.26倍到2.19倍。
今年51岁的汪福全曾是中科院声学所国家重点实验室博士、研究员,师从张仁和院士。毕业后,汪福全进入中科院计算所,从事计算机体系结构博士后科研工作,合作导师为知名国产CPU“龙芯”的首席科学家胡伟武。
目前,算苗科技的核心科学家大多毕业于中科院计算所、声学所、自动化所以及清华等高校。他们之中既有在半导体行业打拼多年的创业老兵,也有伏案在微软亚洲研究院做前沿AI探索的首席研究员。
2019年之后,全产业链国产化成为芯片产业的主流叙事。但算苗科技团队称自己并不是一个押注“国产替代”风口的机会主义选择。这家初创企业背后,是一群最早投身于国产化的科技工作者们行走在国家意志与市场经济之间的故事。
二十年前,从中国科学院博士毕业的汪福全顺理成章地成为国产CPU芯片“龙芯”的深度参与者。2009年,他创办中科声龙,在随后的近十年里,几乎只做一件事——围绕龙芯进行各种产业化探索开拓。在那个崇尚品牌和全球化的时代,坚守龙芯是一段极为孤独的旅途,缺乏软件生态的土壤制约了国产通用处理器的市场化竞争力。
2018年元月,汪福全受邀参加了一家加密算力芯片设计公司的年会,受到了“最直接的冲击”——“10人团队,一年做了好几个亿的营收,利润过亿。”这是因为加密算法需要极致的硬件设计(ASIC),并且不存在软件生态壁垒。这也为国内芯片公司挑战国际芯片巨头提供了一个“公平竞技”的舞台。
彼时44岁、想要“找找新方向”的汪福全迅速迈入了一场“中年叛逆”。他关停了中科声龙所有与龙芯相关的业务,带着1000多万天使融资和一支“5.5人”的研发团队,怀揣着成为一家国际一流芯片设计公司的梦想,一头扎进了加密算力的黑暗森林。
进入完全陌生的加密算力领域,汪福全的团队没有选择最主流的比特币算力芯片,而是选择了技术上和商业上都极具挑战性的“以太坊”(Ethereum)算力芯片。
刚刚进入加密芯片领域,汪福全团队发现,不像比特币早就进入ASIC芯片挖矿时代,在以太坊区块链上,大家几乎都还在用英伟达和AMD的显卡挖矿。不像比特币共识算法对ASIC十分友好,相反,以太坊共识机制的算法(ethash)充分利用了所谓“内存墙”的问题,被设计为“抗ASIC”,是典型的内存困难型算法。该算法把算力瓶颈设计在内存访存带宽上,要想获得极致算力的释放,只有一条路,必须在通常的标准总线内存(如DDR、HBM)之外,找到极致的内存带宽技术。
为了攻克这个难题,汪福全的团队在三次“临门一脚”时否定原有技术寻找新的路径,并最终在2019年底锁定了当时刚刚崭露头角的“3D堆叠”架构。2021年第四季度,其高通量算力芯片JASMINER X4面向全球市场发售,用成熟的40nm工艺,实现了比英伟达7nm旗舰显卡高出20倍的加密算力功耗比,一举把英伟达、AMD显卡淘汰出了以太坊挖矿领域。在以太坊转向POS共识机制前的最后一年,仅这一款芯片就为团队带来了8个亿的收入,JASMINER成为以太坊挖矿领域全球最顶级的品牌。
不曾想,2022年底,ChatGPT横空出世。汪福全看到,AI大模型计算的背后有着与以太坊挖矿极为相似的瓶颈——算力被“内存墙”活活堵死。经过汪福全团队长期专注的工作,3D堆叠已被证明是解决这类内存困难问题最佳的现实方案,AI大模型的爆发提供了极为宏大的计算场景,算苗科技由此诞生。
在国内外GPU资本故事已经眼花缭乱的今天,汪福全认为,算苗科技得以生存并发展的关键是“AI大模型时代,计算范式跃迁带来的新机遇”。
“在算苗我们很少提‘国产化’‘国产替代’这些概念,因为我们所做的工作本来就是全球范围内最好的,我们的目标依然是成为一家具有国际竞争力的芯片公司,为全球AI大模型计算贡献具有中国优势的全新解决方案,缓解全球范围内的算力危机和算力能源危机”汪福全说,自己的底气来自于团队在3D IC领域积累多年的研发经验,以及在加密算力市场大规模商业化的成功实践。
算苗科技两轮融资汇聚国家产业资本、3DIC核心供应链产业资本以及头部市场化基金,截至目前来看,至少在资本层面,这个远大的梦想已有了最基础的支撑。
另外值得注意的是,在2025年下半年完成募资的源码资本最早领投了算苗科技。纵观源码的portfolio,这家低调许久的投资机构其实已悄然完成对AI全产业链的系统性卡位。从半导体材料到设备到芯片的奕斯伟材料、壁仞科技、视涯科技、长光辰芯、矽行半导体、加速纪元等,到AI+机器人场景的宇树科技、银河通用、Hillbot、加速进化、卧安机器人等,再到模型与应用的Kimi、Lovart、sand.ai、meshy、AI for science的深势科技等20多家企业。显然,源码完全不想错过这个扑面而来的AI时代。
2025年冬天,在北京中关村算苗科技的总部,「暗涌Waves」见到了汪福全。这位从中科院走出的中年创业者向我们描绘了一个宏大的愿景、以及面对当下市场的强劲信心。从他的讲述中,你能看到一个“国家队”背景的科学家创业者是如何拥抱市场、信仰市场,再用一种新的心态重新回到“全国产”的道路上。
「暗涌」:你们提供的仿线nm工艺,在推理性能上“打败”英伟达采用台积电4nm工艺的H200。这合理吗?
汪福全:反直觉,但它符合大模型计算的物理本质。大模型推理是一个典型的“访存密集型”任务。简单说,瓶颈不在于脑子转得不够快(计算核心不够多),而在于能多快地把数据拿进(内存带宽)脑子里。
不妨把计算芯片想象成一个工厂,存储芯片里的数据就是原材料。英伟达H200的工厂建的设备非常齐全(4nm工艺),可以生产出各式各样的产品(通用处理器),但现在的问题是怎么快速地把原料运到工厂里。2.5D架构芯片(CoWoS)的思路是建更宽的传送带,最终约束是工厂大门的宽度(shoreline)。英伟达H200的芯片大小已经是可量产的极限尺寸了,内存带宽可达到4.8TB/s。
而3D架构芯片则是另外一个解决思路,我们把内存芯片直接盖在了计算核心的楼上(缩短搬运距离),并且修建了数十万部垂直电梯,原材料可以快速搬运到工厂的各个角落,不再受限于大门宽度,从而实现16-32TB/s的带宽。同时,我们设计的工厂(计算芯片)是专门用于推理AI大模型的(专用芯片),因此可以用更少的设备(12nm工艺)来实现更高的推理性能。
汪福全:英伟达是一家伟大的公司,它的护城河建立在CUDA生态和通用GPU架构上,但这也导致它的硬件架构的创新需要让位于软件生态的兼容性。它的硬件架构需要照顾图形渲染、科学计算、AI训练等各种场景,它必须是一个“全能冠军”。而3D堆叠架构创新给硬件带来全新的挑战,算苗选择定制化的ASIC思路,通过牺牲非大模型计算必须的通用性,换取了极致的推理性能。英伟达如果做这个,就等于在拆自己GPU帝国的台。这正是创业公司的机会——不必背负巨头们过去的包袱,可以基于第一性原理进行作战。
「暗涌」:这也是我想问的下一个问题,为什么只做大模型推理而不做训练?你们是在回避正面战场吗?
从技术角度看,大模型训练需要的能力不仅是芯片设计水平,万卡互联的工程能力、复杂的软件栈生态缺一不可。因此训练市场并不是一家创业公司恰当的切入点。
从市场的角度看,未来90%的AI算力需求都将发生在推理侧,大模型推理算力的需求将远大于训练算力。大模型训练终将收敛,未来每个人的手机、每家公司的服务器主要是在进行大模型的推理,此时推理的成本(TCO)将成为唯一考量。客户不会在乎你是不是GPU,只在乎每生成一百万个token需要多少钱、多少电。这恰恰是ASIC最擅长的战场。
美国工程师的强项是“抽象思维”和软件。你看CUDA、Windows、iOS,他们擅长把复杂的世界抽象成一层层标准的接口,建立生态。这是美国工程师所具备的能力。
但ASIC专用芯片不一样,它是“具象思维”的极致。它要求你在一个极小的物理空间里,把晶体管排列得像瑞士钟表一样精密,为了省一点点电、抠一点点性能,反复打磨,甚至要去“魔改”存储颗粒。这种“在螺蛳壳里做道场”的精耕细作,恰恰是中国工程师所擅长的。
加密算力芯片的历史已经证明了这一点:欧美虽然最早发明了比特币、以太坊,但最终称雄比特币加密算力芯片的是比特大陆、制霸以太坊算力芯片的中科声龙,而这些都是土生土长的中国公司。在AI推理这个同样需要极致效率的战场上,我认为历史会重演。
汪福全:训练和推理是两个不同的场景/客户群体,能够持续进行大模型训练的只有极少数的头部玩家,推理的客户群体则要大得多。我们首款产品专注于大模型推理,可以使得我们的芯片架构可以做得极其精简,只需要兼顾推理场景内有限的通用性,而把更多的资源用于增强推理计算本身,这就带来了更低的成本和更低的功耗。算苗不想要替代英伟达的全部,而是要切走它未来增量里最大的一块蛋糕。
汪福全:仅仅大模型推理,在全球范围内,这已经是个千亿美金的算力市场,仅在中国,也已经是数千亿人民币的算力市场,而且,都在快速增长,超乎了绝大多数人的预期。
「暗涌」:国内有GPU“N小龙”,还有虎视眈眈的大厂们。在这样对手林立的环境下,你还挺自信的。
汪福全:我们不做GPU,那也不是我们的长项。六七年来,我们团队基于市场驱动,携手供应链伙伴,开创了中国3D堆叠芯片这个领域,并在全球范围内已初步形成显著优势。我们专注于3D芯片的研发、量产和全球销售,作为一家创业公司,我们在这个领域投资了十多亿人民币,把我们赚的钱、融的钱集中砸进了这个领域,打造了一个具有丰富经验和战斗力的3D芯片和大模型计算软硬件整建制团队,我们当然有理由保持自信。
同时,我们也一直保持如履薄冰的心态,战战兢兢走好走稳自己开创出的这条大路。我们相信3D芯片代表着计算的未来,相信ASIC是解决大模型推理计算的正确路径,GPU只是过渡。但无论如何都要感谢以英伟达为代表的GPU公司催生了这个伟大AI大模型时代。
汪福全:那是我朋友公司的年会。他们也是做芯片,但做的是当时我们这帮“正规军”看不上的加密挖矿芯片。那晚我受到极大冲击的不仅仅是那几个数字——10个人做了3个亿营收、1亿净利——而是那种商业模式的粗暴与直接。
他们不需要去“求”客户,不需要去写繁琐的申报材料。只要芯片算力够强,客户就会提着现金来排队。那是我第一次直观地感受到“算力即货币”。这种市场化的力量太生猛了。基于我们的经历和认知,我坚定认为中国的芯片产业,前途一定在市场化力量。中国技术的市场化力量很明显被严重低估。
汪福全:我当时产生了一种深刻的自我怀疑:如果技术不能在市场上兑现为真金白银,它的价值到底在哪里?我如果要想创立一家伟大的芯片设计公司,就必须要经得起市场化的检验。
所以我决定“下海”,放下了围绕龙芯的所有业务。当时很多老朋友不理解,觉得我“堕落”了,从做国家重器变成了做加密矿机芯片。但现在回头看,如果没有那几年在全球市场的极限生存训练,没有在那个完全讲究PPA(性能、功耗、面积)的斗兽场里厮杀过,我们根本不可能历练出今天的团队,更别说携手国内3DIC核心的供应链伙伴们一起发展。
汪福全:我们这个团队的自觉,就是要找大活干。以太坊是当时加密货币的第二大网络,更重要的是,以太坊挖矿芯片,是那个领域最具挑战性的一个芯片。因为整个芯片的算法瓶颈就卡在“内存带宽”。要想把芯片的算力要把它扩大一倍,就必须把有效带宽扩大一倍。没有办法投机取巧。这个“内存墙”问题,是一直困扰整个计算机界的一个传统问题。
汪福全:当时团队就五个半人,有个成员还在兼职。我们确定了要走“纯ASIC”的路径。我们首先尝试的就是HBM的方案,这是当时基于DRAM这种存储介质带宽最高的内存解决方案。但是随着研究的深入,出于供应链、性价比的考虑,我们很快就放弃了。我们是很早就对HBM内存祛魅了的团队。第二套方案是不用外面的内存,就用芯片里面有限的SRAM,用计算来换取空间。尽管空间小,但用反复的计算,把这个空间把它弥补掉。这个方案搞了18个月,芯片都设计出来了。那个当口我们找到了第三个方案。
汪福全:放弃了。因为我们又找到了更好的。第三个方案是强互联,使用SerDes完成多个芯片的互联来解决SRAM容量低的问题,功耗很好,但挑战是板子变得非常复杂。我们又做了3个月,直到2019年底的时候,碰到了我们认为是终极的解决方案,就是3D架构的方案。
汪福全:2022年初次接触AI大模型时ChatGPT还没有出圈,我的内心也是比较犹疑的。一方面是因为在此之前,AI一直是叫好不叫座,并没有芯片公司真的能在AI芯片上挣到钱;另一方面是上一轮小模型时代,各种各样的模型结构层出不穷,不得不设计通用处理器来兼顾各种模型,这与我们团队的基因是相悖的。
2023年上半年我在硅谷,亲身经历了这一波AI大模型的浪潮,scaling law驱动AI大模型智能的提升速度远超我的预期,图灵测试事实上被突破,这个人工智能领域真正的大事。同时,我们团队对Transformer算法的研究也到了相当深度,我们过去积累的3D架构技术恰好是解决大模型计算内存瓶颈最有潜力的解决方案,于是我们迅速的转向了AI大模型芯片。
AI算力在未来将会像现在的水电气一样,成为新时代的基础设施。AI时代的核心竞争力在于算力,而算力的未来在于架构创新。我们坚信3D堆叠架构和ASIC极致优化的设计理念,在未来5-10年内是AI大模型算力的最优解。
「暗涌」:我知道你们现在在非常积极的进行招聘。你如何说服那些已身处芯片行业大厂的顶尖工程师来加入你们?
汪福全:很简单,一流的人才理应去做一流的工作,我们在做的就是全球范围内大模型算力领域最顶级的工作。并且我们团队已经历过长期的充分的全球化市场上的商业化历练,对于算力的生意有深刻的理解。
「暗涌」:从龙芯的“国家队”出发,去加密算力圈做了一回“草莽英雄”。现在又回到了AI算力芯片这个“大国重器”的主赛道。一路走来,你怎么定义现在的自己?