顯示具有 TPU 標籤的文章。 顯示所有文章
顯示具有 TPU 標籤的文章。 顯示所有文章

2026年3月24日 星期二

運算架構大解密 (八):總結篇 — 從時間到空間,定義未來的運算藍圖

運算架構大解密 (八):總結篇 — 從時間到空間,定義未來的運算藍圖

(本篇為系列文章的最終回。如果您還沒看過前一篇關於異質整合的文章,建議先閱讀:運算架構大解密 (七):系統單晶片 (SoC) 與未來挑戰 — 異質整合的終極版圖

在這七篇文章的旅程中,我們從最底層、最精簡的微控制器(MCU)出發,一路攀升到乘載複雜作業系統的微處理器(MPU),見證了為連續訊號而生的數位訊號處理器(DSP),並跨越了軟硬體界線,認識了能隨意重構的現場可程式化邏輯閘陣列(FPGA)。最後,我們迎來了 AI 時代的兩大巨頭:主宰邊緣的 NPU 與稱霸雲端的 TPU,並探討了將這一切鎔鑄一爐的系統單晶片(SoC)。

站在這趟硬體演進之旅的終點,我們該如何從宏觀的角度來理解這些晶片?又該如何在實際的專案中做出正確的選型?

一、運算典範的轉移:從「時間順序」到「空間平行」

綜觀這半個世紀以來的晶片發展史,最核心的脈絡就是「運算典範的轉移」。面對摩爾定律的放緩與功耗牆的限制,硬體架構設計師不再執著於單純拉高 CPU 的時脈(Clock Speed),而是將目光轉向了架構的本質改變:

  • 時間主導的控制流(Control-flow): 如 MCU、MPU 與傳統 CPU。它們是優秀的「通才」,擅長處理複雜的邏輯判斷、條件分支(If-Else)與運行龐大的作業系統。它們依賴時間上的順序執行,透過極高的時脈速度來完成任務。
  • 空間主導的資料流(Data-flow): 如 FPGA、NPU 與 TPU。它們是極端的「專才」,放棄了複雜的控制邏輯,轉而將晶片面積鋪滿成千上萬的運算單元。當龐大的資料矩陣湧入時,它們依賴實體空間上的極致平行處理,讓資料在硬體陣列中流動並直接算出結果,徹底打破了記憶體牆的功耗瓶頸。


二、終極硬體選型指南:把對的晶片放在對的位置

為了幫助各位在未來的系統設計或技術研究中快速建立直覺,我們整理了一份基於「需求痛點」的終極選型指南:

設計決策樹:您的專案真正需要什麼?
核心需求與應用場景 首選架構 關鍵優勢與原因
極低功耗、硬即時控制 (Hard Real-time)
如:馬達驅動、感測器節點、簡單家電
MCU (微控制器) 就地執行 (XIP)、內建 Flash/RAM、無 OS 干擾、單一電壓供電即可運作。
需要圖形介面、網路通訊與複雜 OS
如:工業 HMI、物聯網閘道器、單板電腦
MPU (微處理器) 具備 MMU (可跑 Linux)、支援龐大外部 DDR 記憶體與高速周邊介面。
密集的數學迴圈與連續訊號處理
如:音訊降噪、雷達分析、基地台解調
DSP (數位訊號處理器) 哈佛架構打破讀寫瓶頸、專屬 MAC 陣列與零耗損迴圈硬體。
極低且絕對固定的延遲、客製化非標準介面
如:高頻交易、晶片原型驗證、航太設備
FPGA (可程式化邏輯閘陣列) 空間運算、透過 LUT 重構實體硬體電路、無指令排程干擾。
在電池供電設備上進行 AI 推論
如:手機計算攝影、無人機避障、智慧攝影機
NPU (神經處理單元) 資料流架構最大化權重複用率、硬體固化非線性函數、極致能效比。
雲端訓練兆級參數的大型語言模型 (LLM)
如:ChatGPT 訓練、超大型推薦系統
TPU (張量處理單元) 脈動陣列 (Systolic Array)、權重固定資料流、透過雙重緩衝隱藏龐大延遲。
空間受限且需兼具上述多種能力
如:旗艦智慧型手機、自駕車核心主機
SoC (系統單晶片) 晶片上網路 (NoC) 解決頻寬問題、硬體快取一致性確保異質核心協作。


三、未來的挑戰與展望

硬體的世界從未停止轉動。在可見的未來,隨著小晶片(Chiplet)技術與 3D 先進封裝(如 CoWoS)的成熟,我們將看到運算架構的界線變得越來越模糊。未來的處理器可能不再是一整塊單一的矽,而是像樂高積木一樣,由不同製程的 CPU、GPU、NPU 甚至光電轉換晶片拼裝而成。

然而,無論封裝技術如何演進,「如何有效移動資料」與「如何散去龐大熱量」依然是所有硬體工程師必須面對的終極物理挑戰。了解底層架構的原理,不僅能幫助我們選對工具,更能讓我們在面對未來層出不窮的新名詞時,直指技術的本質。

感謝您參與這趟「運算架構大解密」的旅程,希望這系列文章能為您在探索電子工程與半導體世界的道路上,點亮一盞明燈!

2026年3月22日 星期日

運算架構大解密 (六):張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

運算架構大解密 (六):張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

(本篇為系列文章第六篇。如果您還沒看過前一篇關於邊緣 AI 加速器的文章,建議先閱讀:運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

上一篇文章我們介紹了 NPU,它是邊緣裝置上敏捷靈巧的人工智慧大腦。然而,當我們將目光轉向雲端,面對的是擁有數千億甚至兆級參數的大型語言模型(LLMs)時,邊緣設備的算力便顯得微不足道。為了解決超大規模 AI 資料集的運算需求,Google 獨家研發並推動了一種重裝運算巨獸:張量處理單元(Tensor Processing Unit, TPU)

一、設計哲學的極端:捨棄靈活性,榨出極致吞吐量

TPU 的設計哲學走向了與 NPU 截然不同的極端。NPU 必須在極度受限的功耗預算(毫瓦至十幾瓦)內提供實時推論,但 TPU 完全放棄了邊緣端所需的低功耗靈活性與硬體體積限制 。它將所有的矽晶片電晶體資源,毫無保留地投入到一個單一目標上:「最大化巨量矩陣運算的整體吞吐量(Throughput)」。

二、TPU 的核心黑科技:脈動陣列 (Systolic Array)

在傳統的馮紐曼架構中,CPU 或 GPU 執行每一次的數學運算,都必須從暫存器或快取中獨立讀取輸入資料並寫回運算結果 。對於 AI 運算來說,這種頻繁的資料移動不僅極度耗能,更會迅速飽和記憶體頻寬 。TPU 為了稱霸雲端 AI 領域,採用了一種非傳統的計算架構:脈動陣列(Systolic Array)

  • 密集的運算網格: 在 TPU 的脈動陣列設計中,成千上萬個乘加單元(MAC)被排列成一個高度密集且緊密耦合的網格狀結構 。以第一代 TPU 為例,其核心的矩陣乘法單元(MXU)佈建了一個 256 乘 256 的龐大陣列,總計包含高達 65,536 個獨立的 MAC 單元 。
  • 如心臟跳動般的資料流: 脈動陣列的工作原理猶如人類心臟泵送血液(Systolic)的節律運作。


三、權重固定 (Weight Stationary):徹底擊碎記憶體牆

當執行神經網路中最核心的龐大矩陣乘法(例如 $C = A \times B$)時,TPU 採用了極致的「權重固定」資料流策略。

運作流程:
系統會先將龐大神經網路模型的「權重矩陣(Weights)」載入並固定駐留在這 6 萬多個處理單元的本地暫存器中 。接著,輸入資料的「激勵值(Activations)」如波浪一般,跟隨著時鐘週期的節拍,從陣列的一側被有節奏地推入。這些資料流經各個相鄰的運算單元,在傳遞的過程中不斷與固定的權重進行相乘與局部累加,最終將結果從陣列的另一側輸出。

這種空間資料流設計的偉大之處在於,中間運算結果直接在硬體單元之間傳遞,系統僅需要對外部記憶體進行一次讀取權重的操作 。此舉徹底打破了記憶體牆的限制,讓 TPU 的能效比(Performance-per-watt)達到了同時代 CPU 的 83 倍,以及同時代 GPU 的 29 倍。

四、隱藏延遲的魔法:雙重緩衝 (Double Buffering)

雖然 TPU 計算極快,但在連續處理不同神經網路層時,重新載入下一層龐大權重資料可能會引發系統閒置(Stall)。為了解決這個問題,TPU 架構設計了專屬的權重先進先出(FIFO)快取與複雜的雙重緩衝(Double Buffering)機制 。

這項機制允許 TPU 的核心運算單元在全速處理當前神經網路層矩陣乘法的同時,背景的記憶體控制器可以平行運作,預先從外部高頻寬記憶體(HBM)將下一層的權重資料搬移至統一緩衝區(Unified Buffer)中。這種技術猶如計算機圖形學中的「頁面翻轉(Page Flipping)」,完美地隱藏了記憶體傳輸的物理延遲,確保了脈動陣列維持極高的硬體利用率。




五、TPU 的實務應用與局限性

強大的算力伴隨著嚴格的使用條件,TPU 被嚴格限制在雲端與大型資料中心的範疇內:

  1. 主力戰場: 訓練(Training)擁有數千億甚至兆級參數的大型語言模型(LLMs)、執行自然語言處理(NLP)的雲端批次分析,以及運作跨國電子商務平台複雜推薦系統。
  2. 架構犧牲: 為了追求極致的批次處理(Batch processing)吞吐量,TPU 犧牲了對單一資料的低延遲處理能力 。
  3. 物理限制: 高昂的硬體部署成本、緊密綁定 Google TensorFlow 生態系的封閉性,以及單晶片動輒高達數百瓦的巨大散熱需求,使得 TPU 絕對無法被整合進任何依賴電池供電的終端邊緣設備中。

結語

從極限省電的 MCU 到功耗數百瓦的 TPU,我們見證了為了不同運算目的而誕生的極致硬體。然而,現代旗艦級的電子設備往往需要同時具備這些處理器的優點。我們該如何將 CPU、GPU、DSP 甚至 NPU 全部塞進同一個微小的晶片裡?在下一篇文章中,我們將進入系列的高潮,探討異質整合的終極版圖:系統單晶片(SoC)與未來的先進封裝挑戰