Nature子刊：港大等首提下一代AI硬件系統，能耗銳減57.2%

2025-11-17 16:05:31

人工智能新聞

港大、港科大與西電團隊登上Nature子刊，破解AI芯片核心難題。

在AI算力需求呈指數級暴漲的今天，為了突破算力瓶頸，「存算一體」（CIM）架構被視為AI推理芯片的未來。

其利用基本物理定律實現計算，相比于GPU有顯著的能效優勢，但一個關鍵的「能耗黑洞」——模數轉換器（ADC）——卻嚴重阻礙了其發展。

在先進的存算一體芯片中，ADC竟吞噬了高達87.8%的能耗和75.2%的面積，極大壓制了存算一體AI芯片本應有的巨大潛力。

近日，來自香港大學、香港科技大學與西安電子科技大學的由劉正午、張薇、李燦、黃毅領導的聯合研究團隊正面攻克了這一難題，論文第一作者洪海橋在國際上首次提出了一種基于憶阻器的硬件原生自適應ADC架構。

論文鏈接：https://www.nature.com/articles/s41467-025-65233-w

論文代碼：https://github.com/MIKEHHQ/ReADC

該設計創新性地利用憶阻器的可編程特性，讓ADC這把「標尺」變得智能且高效，將存算一體芯片中ADC模塊的能耗開銷銳減57.2%，面積降低30.7%，為下一代高效AI硬件系統鋪平了道路。

模擬域存算一體的優勢與困局

要理解這項突破的意義，我們首先要明白AI芯片為什么「渴求」存算一體。

在傳統的馮·諾依曼架構（目前我們電腦和手機都在使用）中，計算單元（CPU/GPU）和存儲單元（內存）是分離的。AI進行計算時，需要消耗巨量能量和時間，在兩個單元之間來回搬運數據。這就是所謂的「馮·諾依曼瓶頸」，也是AI計算中心能耗高昂且難以在終端部署的根本原因。

「存算一體」（CIM）架構因此誕生。

顧名思義，它在存儲器（比如憶阻器）內部直接進行計算，近乎徹底地消除了數據搬運。

其中，模擬域存算一體被認為極具潛力，它利用憶阻器等新型器件陣列，通過物理定律（如基爾霍夫電流定律）「瞬間」完成AI最核心的矩陣乘加運算，能效極高。

但問題隨之而來：計算在模擬世界連續的電壓或電流中完成，而后續處理單元工作在數字世界（0和1）。連接這兩個世界的「翻譯官」——模數轉換器（ADC）——成為了新的瓶頸。

這個「翻譯官」的工作效率極低。根據論文中的數據，在一些先進的存算一體芯片中，ADC的能耗占比高達87.8%，面積占比高達75.2%，幾乎壓制了存算一體本應具備的巨大能效優勢，成為了阻礙AI芯片落地的關鍵技術難點。

傳統的ADC為何如此「臃腫」？

硬件笨重：傳統ADC需要一個「標尺」來測量模擬電壓。這把「標尺」通常由大量的電容器（Capacitor）或電阻器（Resistor）陣列構成，它們像尺子上的刻度。所需刻度越多（即精度越高），能區分的電壓就越多，但這個陣列就越龐大，能耗和面積也隨之激增。

標尺僵化：更糟糕的是，這把「標尺」通常是固定且均勻的（例如0, 1, 2, 3...）。但AI模型中不同網絡層的計算結果（模擬電壓）分布往往是非均勻的，如下圖所示，有的數據集中在中間，有的則是多峰或者偏向兩端。用一把均勻的尺子去測量一堆分布不均的數據，會造成巨大的精度損失。

(a) 存算一體陣列中不同層（Conv 1, 2, 3）的數據分布各不相同；(b) CIM系統流程；(c) ADC（粉色）在CIM系統中占據了絕大多數的能耗（87.8%）和面積（75.2%）。

為了彌補這種損失，設計師又被迫使用更高精度的ADC（更密的刻度），導致硬件開銷和延遲進一步惡化，陷入了死循環。

用憶阻器打造一把可編程的「智能標尺」

面對這一困局，港大、港科大與西電的聯合團隊提出了一個顛覆性的解決方案：為什么不直接用憶阻器來打造這把「標尺」呢？

憶阻器（Memristor）是一種神奇的可編程非易失器件，它的電阻值不是固定的，而是可以通過施加電壓來連續調控，并且在斷電后仍能「記住」這個電阻值。

研究團隊基于憶阻器設計了一種全新的「量化單元」（Q-cell），它替代了傳統ADC中龐大的電阻/電容陣列，這把新「標尺」的核心優勢在于——它是完全可編程的，并且具備低能耗和緊湊的面積。

(a) 論文提出的基于憶阻器（M1, M2）的Q-cell核心電路；(c, d) 多個Q-cell和一個解碼器（Decoder）共同構成一個完整的ADC。

通過改變Q-cell中憶阻器的電阻，研究人員可以隨心所欲地設定「標尺」上每一個「刻度」的位置。這帶來了兩大革命性優勢：

硬件原生自適應：標尺不再是僵化的。研究團隊利用Lloyd-Max算法，先分析AI模型中每一層的數據到底長什么樣，然后「反推出」一套最優的「刻度」方案，最后通過編程憶阻器，將這把定制的「標尺」在硬件上復現出來。這使得ADC能完美貼合數據分布，極大降低了量化誤差，顯著提高存算一體芯片推理精度。

極致的硬件效率：憶阻器本身就是納米級的存儲器件，用它來構建ADC，其能耗和面積相比傳統方案實現了數量級的降低。

亮點一：ADC自身能效暴漲，面積劇減

團隊將憶阻器ADC與在ISSCC/VLSI等頂會發表的先進ADC設計進行了全方位對比。結果顯示，在5-bit精度下，憶阻器ADC的能效提升了15.1倍，而面積縮小了12.9倍。

(a) 憶阻器ADC（紅星）與SOTA ADC在能效-面積圖上的對比，(b) 憶阻器ADC的能耗與面積構成分析。

亮點二：系統能耗「黑洞」被填平

當把這款高效的憶阻器ADC集成回存算一體AI芯片中時，其系統級優勢立刻顯現。

以VGG8網絡為例，ADC模塊在系統總能耗中的占比從驚人的79.8%銳減至22.5%；在總面積中的占比也從47.6%壓縮至16.9%，這也就是說整個存算一體芯片因ADC的突破，功耗和面積分別凈降低了57.2%和30.7%。

這意味著ADC這個最大的「能耗黑洞」被徹底攻克，存算一體芯片終于可以釋放其應有的超高能效潛力。

系統級能耗與面積對比。集成憶阻器ADC后，ADC的開銷被極大壓縮，系統總能耗和總面積顯著降低。

亮點三：變Bug為Feature，獨創「超分辨率」策略

模擬器件（包括憶阻器）天然存在「器件差異性」（Variation），即便是同一批生產的兩個器件，其特性也不可能100%相同，在寫入讀取時還會有波動或誤差。這通常被視為硬件的「缺陷」，會導致精度下降。

在復雜的ResNet18網絡測試中，團隊也觀察到了這一現象：器件差異導致ADC標尺輕微錯位，使得網絡準確率有所下降。

但團隊獨創性地提出了一種「超分辨率」（Super-resolution）策略，巧妙地將這個「缺陷」轉化為了「優勢」。

他們的方法是同時使用兩個憶阻器ADC來量化同一個信號。由于器件差異，這兩把「標尺」的刻度會有些許錯位。當一個輸入電壓剛好落在「刻度」邊緣時，兩個ADC可能會給出不同的數字（比如一個判為「4」，一個判為「5」）。

研究團隊利用這種「分歧」來反向推斷——這說明信號的真實值恰好處在「4」和「5」的邊界上。通過這種不同于求取平均值的方式，他們憑空創造出了一個更精細的「刻度」，實現了超越單個ADC的「超分辨率」。

結果令人振奮：在使用該策略后，ResNet18的推理準確率不僅完全恢復（圖6e中第四組相比于第二組數據），甚至在4-bit等配置下反超了沒有器件差異的理想軟件基準！這一「變Bug為Feature」的思路，為解決模擬計算的硬件缺陷提供了全新的視角。

自適應量化與超分辨率策略的性能。(a, b) 自適應量化（紅色）相比均勻量化（藍色）能更好地擬合數據分布，均方誤差（MSE）從14.99降至3.10；(c, e) 在VGG8和ResNet18網絡上，自適應量化均大幅優于均勻量化；(d, f) 獨創的超分辨率（SR）策略成功克服了器件差異帶來的精度下降。

亮點四：全面的硬件實驗驗證

為了確保研究的可靠性，團隊并不僅僅停留在仿真。他們實際制造了8×8的憶阻器陣列，并進行了全面的實驗表征。

實驗證明，這些器件具有高度一致的可編程性（標準差僅2.73 μS）和穩定性（1000次讀取循環下波動<0.05%），并能承受超過3000萬次的編程-擦除循環，為憶阻器ADC的可靠性提供了堅實的硬件基礎。

此外，團隊還基于28nm工藝完成了5-bit ADC的完整版圖設計，驗證了其在先進工藝下的面積優勢。

(a) 實際制造的8x8憶阻器陣列顯微圖像；(b) 器件的多級電導調控（SET/RESET）；(c) 陣列上64個器件的編程一致性統計；(d) 多個電導狀態的讀取穩定性。

總結

這項工作直面了模擬存算一體落地中最關鍵的ADC瓶頸，通過將憶阻器的可編程性與ADC的功能需求創新性地結合，打造出了一款高效、智能、自適應的硬件原生ADC。

它不僅在器件層面實現了數量級的能效和面積增益，更在系統層面攻克了ADC的能耗黑洞，同時還巧妙地將硬件缺陷轉化為性能優勢。

這項研究為下一代高效、精準AI硬件系統的研發提出新的技術路徑，有望加速存算一體芯片的產業化進程。

責任編輯：張燕妮來源：新智元

AI 算力架構