一秒记住【笔趣阁小说网】biquge345.com,更新快,无弹窗!
合城未来科技中央研究院的灯光已经连续亮了七十二个小时。
章宸从法兰克福飞回时是凌晨三点,他没有回家,直接让司机开到了研究院楼下。电梯门打开,走廊里的空气混杂着助焊剂和咖啡的味道——那是晶片验证团队连续作战的标志性气息。林薇的办公室门半掩着,里面传出低哑的讨论声。
推门进去,林薇正对着三块屏幕上的热成像图蹙眉。她的眼圈发青,头发随意扎在脑后,白大褂袖口沾着一块不知什么时候蹭上的导热矽脂。张京京坐在她旁边,手里捏着一份刚列印出来的失效分析报告,纸面上密密麻麻标注着红色批注。章宸的突然出现让两人同时抬头,林薇没有寒暄,直接把中间那块屏幕转向他。
「天权6号工程样片,第二次全工况热测试。目标功耗四十五瓦,实测峰值五十五瓦,超出目标值百分之二十二。」她用手指在屏幕上的热成像图上画了一个圈,「热量集中在GPU计算核心区域,这个区域的功率密度已经超过了每平方毫米零点八瓦,比天权5号高出一倍半。再往上加散热方案就只能上液冷,但我们的目标场景是终端设备,液冷不是选项。」
章宸拉过一把椅子坐下,仔细看了一遍热成像图的每一处热点分布。天权6号采用的是异构计算架构,CPU核心群和自研GPU核心群集成在同一颗晶片上,通过高速互联总线交换数据。热成像显示,CPU核心区域温度正常,但GPU核心区域出现了三个明显的热点——分别对应纹理处理单元丶张量计算阵列和缓存控制器。其中张量计算阵列的热点温度最高,局部结温已经逼近一百一十度的安全红线。
「泄漏源定位了吗?」章宸问。
张京京把失效分析报告摊开在桌上。她用红笔圈出了三个位置:「第一泄漏源是张量计算阵列的时钟树。我们在设计时为了追求算力密度,把张量阵列的时钟频率拉得太高,导致动态功耗超出预算三十一个百分点。第二泄漏源是GPU与共享缓存之间的数据通路,位宽二百五十六比特,全速运行时静态漏电功耗比仿真数据高了四点七倍。第三泄漏源最麻烦——GPU核心与CPU核心之间的互联总线,异构调度时频繁的上下文切换产生了大量的瞬时电流尖峰,这些尖峰在仿真阶段被平均化处理了,没有引起足够重视。」
「仿真掩盖了峰值问题。」章宸一语道破。
林薇点头:「天权5号的冗余设计仿真良率百分之九十九,这套方法论在5号上很成功,团队就惯性延续到了6号。但异构计算的动态功耗波动幅度远大于同构架构,用平均功耗代替峰值功耗做仿真,等于把最危险的部分平滑掉了。」她调出另一组数据,「我们在仿真里看到的是四十五瓦的平均热功耗,但实际工作负载下,GPU张量阵列被调用的瞬间,功耗会在几纳秒内冲到五十五瓦,然后快速回落。这种尖峰式热冲击比持续高温更致命——它不仅影响稳定性,还会加速电子迁移,缩短晶片寿命。」
问题彻底摊开了。三个泄漏源,两个在设计层面,一个在方法论层面。留给团队的时间并不宽裕——天权6号的流片窗口定在十个月后,而解决热功耗问题需要重新设计GPU核心的部分微架构,从RTL修改到功能验证再到物理设计,每一步都卡在临界线上。
章宸没有急于定方案,而是问了一个问题:「自研GPU架构和之前用的第三方GPUIP相比,设计复杂度增加了多少?」
林薇从抽屉里拿出一张架构对比图。天权5号使用的是经过深度定制的第三方GPUIP核,性能不错但架构黑盒,无法做底层的功耗优化。天权6号的自研GPU架构名为「羲和」,从指令集到微架构全部自研,张量计算阵列丶纹理处理单元丶缓存层次结构都经过了重新设计,算力密度比第三方IP高出百分之四十,但功耗控制也相应复杂了一倍以上。
「自研架构的方向没有错。」林薇的语气很坚定,「第三方GPUIP的黑盒限制我们只能做外围优化,相当于在别人打好的地基上盖房子。羲和架构让我们第一次拥有了GPU底层设计的完整自由度,这次热功耗问题暴露的恰恰是我们可以通过架构优化来解决的——时钟树可以重构,数据通路可以重布,互联协议可以重写。如果还在用第三方IP,遇到同样的功耗问题我们连改的权限都没有。」
这话让章宸想起陈醒在启动「补天」计划时说的那句「我们也能写EDA」。自研的代价是踩坑,但不自研的代价是把命脉交在别人手里。两害相权,未来科技选前者。
「三个泄漏源,分三条线同时攻坚。」章宸在白板上画了一个三叉戟结构,「第一条线,张量计算阵列的时钟树重构。目标是把动态功耗降回预算线以内,但不能牺牲算力密度——天权6号的AI推理性能是我们的核心卖点,不能因为解决功耗问题就把性能优势丢掉。」
张京京接话:「可以用多时钟域设计,把张量阵列按工作负载分成四个独立的时钟域。轻负载时只激活一个域,重负载时四个域并行,这样平均功耗和峰值功耗之间的波动幅度可以压缩百分之四十以上。代价是控制逻辑复杂一些,RTL代码量增加大约百分之十五。」
「做。」章宸在白板上写下一个「锺」字,「第二条线,数据通路静态漏电优化。四百七十倍的仿真偏差,说明我们的漏电模型本身就有问题。」