2026年3月23日 星期一

運算架構大解密 (七):系統單晶片 (SoC) 與未來挑戰 — 異質整合的終極版圖

運算架構大解密 (七):系統單晶片 (SoC) 與未來挑戰 — 異質整合的終極版圖

(本篇為系列文章第七篇。如果您還沒看過前一篇關於雲端 AI 巨獸的文章,建議先閱讀:運算架構大解密 (六):張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

從精準控制的 MCU、乘載系統的 MPU、處理連續訊號的 DSP,到突破空間運算的 FPGA,以及專注矩陣加速的 NPU 與 TPU,我們已經看遍了運算世界的各式核心。然而,在真實世界中,現代旗艦級的電子設備(如智慧型手機或自動駕駛大腦)往往需要同時具備上述所有的能力。我們不可能在主機板上擺滿數十顆獨立的晶片,那樣不僅耗電,資料傳輸的延遲也會高得無法接受。因此,半導體產業走向了終極的整合方案:系統單晶片(System on a Chip, SoC)

一、什麼是 SoC?異質運算的微型宇宙

SoC 顧名思義,就是將一個完整電腦系統所需的關鍵元件,全部微縮並整合到單一矽晶粒(Die)上。一顆現代的旗艦級 SoC 內部,可能同時包含了通用運算的 CPU 叢集、負責圖形渲染的 GPU、處理相機訊號的 ISP、專司 AI 推論的 NPU、以及高階的 DSP 與記憶體控制器。

這種將不同專長的核心「鎔鑄一爐」的設計,被稱為異質整合(Heterogeneous Integration)。它的最大優勢在於元件之間的物理距離被極大化縮短,從而帶來了極高的資料頻寬與極低的功耗。

二、通訊危機的解法:晶片上網路 (NoC)

當這麼多強大的運算核心被塞進同一個晶片時,第一個面臨的挑戰就是「通訊塞車」。

從傳統匯流排到晶片上網路:
早期晶片內部採用傳統的「共享匯流排(Shared Bus)」架構,就像一條只有單線道的馬路,CPU 和 GPU 必須輪流搶奪使用權。隨著核心數量暴增,這條馬路徹底癱瘓。

現代 SoC 為了解決頻寬壅塞,全面導入了「晶片上網路(Network on Chip, NoC)」。這是一種將網際網路封包路由概念搬進晶片內部的微縮技術。NoC 放棄了單一實體線路的獨佔權,轉而使用多個路由器(Routers)與交換節點。當 CPU 要傳送資料給 NPU 時,資料會被打包成微小的「封包(Packets)」,透過網格狀的內部網路找到最快、最不擁擠的路徑抵達目的地。這徹底釋放了 SoC 內部的巨量資料吞吐潛力。



三、記憶體的隱形炸彈:異質快取一致性 (Cache Coherence)

除了頻寬,SoC 設計師還必須解決一個致命的邏輯問題:資料同步。當 CPU 和 NPU 同時在處理同一張照片,且各自擁有自己的 L2/L3 快取(Cache)時,如果 NPU 修改了照片的像素,但 CPU 快取裡的資料還沒更新,CPU 就會讀取到所謂的「髒資料(Dirty Data)」,導致系統崩潰或運算錯誤。

為了解決這個問題,SoC 必須依賴硬體級的異質快取一致性協議(如 ARM 的 AMBA CHI)。這套機制就像晶片內部的「糾察隊」,它透過監聽(Snooping)或目錄追蹤(Directory-based)的方式,確保任何一個核心在修改共享記憶體中的資料時,其他核心的舊備份會立刻被標記為失效(Invalidate)。這種硬體層級的同步機制,讓軟體開發者不用痛苦地手動管理記憶體狀態。

四、未來的物理極限:先進封裝與「暗矽現象」

隨著摩爾定律放緩,要在單一平面的矽晶圓上塞入更多電晶體變得越來越昂貴且困難。因此,SoC 的發展正在從 2D 平面走向 2.5D 與 3D 的先進封裝技術,例如將記憶體與運算核心透過矽穿孔(TSV)垂直堆疊。這類結合 CoWoS(晶圓級封裝)、InFO(整合扇出型封裝)甚至是混合鍵合(Hybrid Bonding)的技術,讓不同製程的「小晶片(Chiplets)」能以極高的密度連接在一起,突破了單一晶片的面積極限(Reticle Limit)。

然而,這帶來了 SoC 領域目前最可怕的夢魘:垂直熱阻與散熱極限

  • 散熱的三明治: 當發熱極高的邏輯運算晶片與對溫度極度敏感的 HBM(高頻寬記憶體)被垂直堆疊或緊密靠攏時,熱量無法像過去 2D 晶片那樣輕易從表面散去。
  • 暗矽現象 (Dark Silicon): 由於散熱能力的物理極限,現代 SoC 雖然擁有了上百億個電晶體,但礙於「功耗牆」,系統無法在同一時間將所有核心(例如 CPU, GPU, NPU)同時全速運轉,否則晶片會瞬間過熱燒毀。這意味著在任何給定的時間點,晶片上都有很大一部分的矽區域必須被迫處於斷電休眠狀態,這就是半導體界著名的「暗矽」難題。


結語

系統單晶片(SoC)透過 NoC 與快取一致性協議,完美揉合了異質運算的強大火力;但也同時面臨著 3D 封裝帶來的散熱與暗矽挑戰。硬體架構的演進,永遠是在這層層的物理限制中尋求突破。在我們下一篇、也是本系列的最後一篇文章中,我們將為您做一個總結,透過全面的選型指南,帶您鳥瞰這幅從時間順序到空間平行的運算藍圖。

2026年3月22日 星期日

運算架構大解密 (六):張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

運算架構大解密 (六):張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

(本篇為系列文章第六篇。如果您還沒看過前一篇關於邊緣 AI 加速器的文章,建議先閱讀:運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

上一篇文章我們介紹了 NPU,它是邊緣裝置上敏捷靈巧的人工智慧大腦。然而,當我們將目光轉向雲端,面對的是擁有數千億甚至兆級參數的大型語言模型(LLMs)時,邊緣設備的算力便顯得微不足道。為了解決超大規模 AI 資料集的運算需求,Google 獨家研發並推動了一種重裝運算巨獸:張量處理單元(Tensor Processing Unit, TPU)

一、設計哲學的極端:捨棄靈活性,榨出極致吞吐量

TPU 的設計哲學走向了與 NPU 截然不同的極端。NPU 必須在極度受限的功耗預算(毫瓦至十幾瓦)內提供實時推論,但 TPU 完全放棄了邊緣端所需的低功耗靈活性與硬體體積限制 。它將所有的矽晶片電晶體資源,毫無保留地投入到一個單一目標上:「最大化巨量矩陣運算的整體吞吐量(Throughput)」。

二、TPU 的核心黑科技:脈動陣列 (Systolic Array)

在傳統的馮紐曼架構中,CPU 或 GPU 執行每一次的數學運算,都必須從暫存器或快取中獨立讀取輸入資料並寫回運算結果 。對於 AI 運算來說,這種頻繁的資料移動不僅極度耗能,更會迅速飽和記憶體頻寬 。TPU 為了稱霸雲端 AI 領域,採用了一種非傳統的計算架構:脈動陣列(Systolic Array)

  • 密集的運算網格: 在 TPU 的脈動陣列設計中,成千上萬個乘加單元(MAC)被排列成一個高度密集且緊密耦合的網格狀結構 。以第一代 TPU 為例,其核心的矩陣乘法單元(MXU)佈建了一個 256 乘 256 的龐大陣列,總計包含高達 65,536 個獨立的 MAC 單元 。
  • 如心臟跳動般的資料流: 脈動陣列的工作原理猶如人類心臟泵送血液(Systolic)的節律運作。


三、權重固定 (Weight Stationary):徹底擊碎記憶體牆

當執行神經網路中最核心的龐大矩陣乘法(例如 $C = A \times B$)時,TPU 採用了極致的「權重固定」資料流策略。

運作流程:
系統會先將龐大神經網路模型的「權重矩陣(Weights)」載入並固定駐留在這 6 萬多個處理單元的本地暫存器中 。接著,輸入資料的「激勵值(Activations)」如波浪一般,跟隨著時鐘週期的節拍,從陣列的一側被有節奏地推入。這些資料流經各個相鄰的運算單元,在傳遞的過程中不斷與固定的權重進行相乘與局部累加,最終將結果從陣列的另一側輸出。

這種空間資料流設計的偉大之處在於,中間運算結果直接在硬體單元之間傳遞,系統僅需要對外部記憶體進行一次讀取權重的操作 。此舉徹底打破了記憶體牆的限制,讓 TPU 的能效比(Performance-per-watt)達到了同時代 CPU 的 83 倍,以及同時代 GPU 的 29 倍。

四、隱藏延遲的魔法:雙重緩衝 (Double Buffering)

雖然 TPU 計算極快,但在連續處理不同神經網路層時,重新載入下一層龐大權重資料可能會引發系統閒置(Stall)。為了解決這個問題,TPU 架構設計了專屬的權重先進先出(FIFO)快取與複雜的雙重緩衝(Double Buffering)機制 。

這項機制允許 TPU 的核心運算單元在全速處理當前神經網路層矩陣乘法的同時,背景的記憶體控制器可以平行運作,預先從外部高頻寬記憶體(HBM)將下一層的權重資料搬移至統一緩衝區(Unified Buffer)中。這種技術猶如計算機圖形學中的「頁面翻轉(Page Flipping)」,完美地隱藏了記憶體傳輸的物理延遲,確保了脈動陣列維持極高的硬體利用率。




五、TPU 的實務應用與局限性

強大的算力伴隨著嚴格的使用條件,TPU 被嚴格限制在雲端與大型資料中心的範疇內:

  1. 主力戰場: 訓練(Training)擁有數千億甚至兆級參數的大型語言模型(LLMs)、執行自然語言處理(NLP)的雲端批次分析,以及運作跨國電子商務平台複雜推薦系統。
  2. 架構犧牲: 為了追求極致的批次處理(Batch processing)吞吐量,TPU 犧牲了對單一資料的低延遲處理能力 。
  3. 物理限制: 高昂的硬體部署成本、緊密綁定 Google TensorFlow 生態系的封閉性,以及單晶片動輒高達數百瓦的巨大散熱需求,使得 TPU 絕對無法被整合進任何依賴電池供電的終端邊緣設備中。

結語

從極限省電的 MCU 到功耗數百瓦的 TPU,我們見證了為了不同運算目的而誕生的極致硬體。然而,現代旗艦級的電子設備往往需要同時具備這些處理器的優點。我們該如何將 CPU、GPU、DSP 甚至 NPU 全部塞進同一個微小的晶片裡?在下一篇文章中,我們將進入系列的高潮,探討異質整合的終極版圖:系統單晶片(SoC)與未來的先進封裝挑戰

2026年3月21日 星期六

運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

(本篇為系列文章第五篇。如果您還沒看過前一篇關於硬體重構與空間運算的文章,建議先閱讀:運算架構大解密 (四):現場可程式化邏輯閘陣列 (FPGA) — 空間運算與硬體的終極變色龍

在上一篇文章中,我們認識了 FPGA 這種能夠隨心所欲改變硬體電路型態的「變色龍」晶片。然而,當科技發展進入人工智慧(AI)與深度學習的爆發期,我們面對的是幾何級數增長、動輒數百萬甚至上億次的神經網路矩陣運算。在這樣的極端負載下,通用型 CPU 顯得無力,而圖形處理器(GPU)雖然算力驚人,卻伴隨著巨大的功耗,無法塞進手機或無人機等依靠電池運作的設備中。為了解決這個矛盾,專為邊緣運算量身打造的神經處理單元(Neural Processing Unit, 簡稱 NPU)應運而生。

一、AI 運算的致命傷:撞上「記憶體牆」

要理解 NPU 存在的必要性,我們必須先看見傳統架構在執行 AI 運算時的根本痛點:記憶體牆(Memory Wall)

什麼是記憶體牆?
在神經網路的推論過程中,需要頻繁地讀取龐大的「權重(Weights)」與「特徵圖(Feature Maps)」。研究指出,在傳統的馮紐曼架構下,高達 80% 到 90% 的能源並非消耗在「運算(乘加操作)」本身,而是浪費在「將資料從外部記憶體(DRAM)搬運到晶片內部」的傳輸過程中。

想像一下,為了解決一道簡單的數學題,您花費了 1 分鐘思考,卻花了 9 分鐘走到圖書館拿參考書。這就是 CPU 與 GPU 在處理邊緣 AI 任務時面臨的窘境。高昂的資料搬運功耗,直接扼殺了將複雜 AI 模型部署在低功耗設備上的可能性。




二、NPU 的破壁絕招:空間資料流架構 (Dataflow Architecture)

NPU 如何打破這面高聳的記憶體牆?它的核心武器是「空間資料流架構(Dataflow Architecture)」。與我們在上一篇提到的 FPGA 類似,NPU 也採用了空間運算的概念,但它是為了「矩陣乘加」這項單一任務而徹底固化的特製硬體。

  • 最大化晶片內部的資料重複利用率: NPU 內部佈滿了由乘加器(MAC)組成的巨大處理陣列,並且緊密結合了分散式的本地靜態記憶體(SRAM)。
  • 權重複用 (Weight Reuse): NPU 的資料流控制機制會將神經網路的權重載入到乘加器陣列中並「停留」在那裡。當連續的影像特徵資料如同流水般通過這些乘加器時,就不需要為了每一次運算重新去外部 DRAM 讀取相同的權重。
  • 透過這種巧妙的資料排程,NPU 將外部記憶體存取的頻率降到了最低,從根本上解決了功耗問題。

三、硬體電路固化:極致能效比的秘密

除了打破記憶體牆,NPU 還在硬體層面上進行了「斷捨離」。在 NPU 眼中,神經網路模型就是一堆矩陣乘法、加法,以及非線性啟動函數的組合。

因此,NPU 放棄了 CPU 內部為了處理複雜作業系統而設計的控制邏輯(如分支預測、亂序執行)。相反地,NPU 直接將神經網路中常見的數學操作,例如 ReLU 啟動函數(Activation Functions)池化層(Pooling),直接燒錄成了專屬的「硬體電路」。

這種毫不妥協的特定領域架構設計,讓 NPU 能夠在毫瓦(mW)至 15 瓦(W)的極低功耗信封內,提供驚人的每秒兆次運算能力(TOPS),實現了極致的能效比。

四、NPU 在邊緣運算的實務應用

今日,NPU 已經悄悄地潛入我們生活的各個角落,成為了「邊緣 AI(Edge AI)」的中樞神經:

  1. 智慧型手機: 現代手機 SoC(如 Apple A 系列、Snapdragon)內建的 NPU 負責了極其複雜的計算攝影(如即時夜景降噪、人像景深運算),以及完全斷網下的本地端自然語言處理與語音辨識。
  2. 無人機與自駕車系統: 在高速移動的環境中,無人機必須依賴 NPU 在幾毫秒內處理多鏡頭影像,進行即時的深度估計與避障,因為將資料傳上雲端再等指令傳回,早已經來不及了。
  3. 工業機器視覺: 工廠流水線上的高速瑕疵檢測系統,利用 NPU 可以在不外接龐大耗電 GPU 主機的情況下,直接在攝影機終端(Smart Camera)完成推論。這不僅解決了頻寬限制,也保護了工廠的生產資料隱私。


結語

神經處理單元(NPU)透過「資料流架構」與「特定硬體固化」,完美解決了邊緣運算設備在處理 AI 推論時的功耗與記憶體存取瓶頸。然而,當我們將目光從「終端邊緣設備」轉向「雲端資料中心」,當面臨的是包含數千億參數的巨型大型語言模型(LLM)的訓練任務時,即便 NPU 也顯得微不足道。在下一篇文章中,我們將直擊 AI 運算的最頂點:一窺 Google 為雲端打造的脈動陣列巨獸 —— 張量處理單元(TPU)