PLC world: TPU

顯示具有 TPU 標籤的文章。顯示所有文章

2026年3月24日星期二

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

（本篇為系列文章的最終回。如果您還沒看過前一篇關於異質整合的文章，建議先閱讀：運算架構大解密 (七)：系統單晶片 (SoC) 與未來挑戰 — 異質整合的終極版圖）

在這七篇文章的旅程中，我們從最底層、最精簡的微控制器（MCU）出發，一路攀升到乘載複雜作業系統的微處理器（MPU），見證了為連續訊號而生的數位訊號處理器（DSP），並跨越了軟硬體界線，認識了能隨意重構的現場可程式化邏輯閘陣列（FPGA）。最後，我們迎來了 AI 時代的兩大巨頭：主宰邊緣的 NPU 與稱霸雲端的 TPU，並探討了將這一切鎔鑄一爐的系統單晶片（SoC）。

站在這趟硬體演進之旅的終點，我們該如何從宏觀的角度來理解這些晶片？又該如何在實際的專案中做出正確的選型？

一、運算典範的轉移：從「時間順序」到「空間平行」

綜觀這半個世紀以來的晶片發展史，最核心的脈絡就是「運算典範的轉移」。面對摩爾定律的放緩與功耗牆的限制，硬體架構設計師不再執著於單純拉高 CPU 的時脈（Clock Speed），而是將目光轉向了架構的本質改變：

時間主導的控制流（Control-flow）： 如 MCU、MPU 與傳統 CPU。它們是優秀的「通才」，擅長處理複雜的邏輯判斷、條件分支（If-Else）與運行龐大的作業系統。它們依賴時間上的順序執行，透過極高的時脈速度來完成任務。
空間主導的資料流（Data-flow）： 如 FPGA、NPU 與 TPU。它們是極端的「專才」，放棄了複雜的控制邏輯，轉而將晶片面積鋪滿成千上萬的運算單元。當龐大的資料矩陣湧入時，它們依賴實體空間上的極致平行處理，讓資料在硬體陣列中流動並直接算出結果，徹底打破了記憶體牆的功耗瓶頸。

二、終極硬體選型指南：把對的晶片放在對的位置

為了幫助各位在未來的系統設計或技術研究中快速建立直覺，我們整理了一份基於「需求痛點」的終極選型指南：

設計決策樹：您的專案真正需要什麼？

核心需求與應用場景	首選架構	關鍵優勢與原因
極低功耗、硬即時控制 (Hard Real-time) 如：馬達驅動、感測器節點、簡單家電	MCU (微控制器)	就地執行 (XIP)、內建 Flash/RAM、無 OS 干擾、單一電壓供電即可運作。
需要圖形介面、網路通訊與複雜 OS 如：工業 HMI、物聯網閘道器、單板電腦	MPU (微處理器)	具備 MMU (可跑 Linux)、支援龐大外部 DDR 記憶體與高速周邊介面。
密集的數學迴圈與連續訊號處理如：音訊降噪、雷達分析、基地台解調	DSP (數位訊號處理器)	哈佛架構打破讀寫瓶頸、專屬 MAC 陣列與零耗損迴圈硬體。
極低且絕對固定的延遲、客製化非標準介面如：高頻交易、晶片原型驗證、航太設備	FPGA (可程式化邏輯閘陣列)	空間運算、透過 LUT 重構實體硬體電路、無指令排程干擾。
在電池供電設備上進行 AI 推論如：手機計算攝影、無人機避障、智慧攝影機	NPU (神經處理單元)	資料流架構最大化權重複用率、硬體固化非線性函數、極致能效比。
雲端訓練兆級參數的大型語言模型 (LLM) 如：ChatGPT 訓練、超大型推薦系統	TPU (張量處理單元)	脈動陣列 (Systolic Array)、權重固定資料流、透過雙重緩衝隱藏龐大延遲。
空間受限且需兼具上述多種能力如：旗艦智慧型手機、自駕車核心主機	SoC (系統單晶片)	晶片上網路 (NoC) 解決頻寬問題、硬體快取一致性確保異質核心協作。

三、未來的挑戰與展望

硬體的世界從未停止轉動。在可見的未來，隨著小晶片（Chiplet）技術與 3D 先進封裝（如 CoWoS）的成熟，我們將看到運算架構的界線變得越來越模糊。未來的處理器可能不再是一整塊單一的矽，而是像樂高積木一樣，由不同製程的 CPU、GPU、NPU 甚至光電轉換晶片拼裝而成。

然而，無論封裝技術如何演進，「如何有效移動資料」與「如何散去龐大熱量」依然是所有硬體工程師必須面對的終極物理挑戰。了解底層架構的原理，不僅能幫助我們選對工具，更能讓我們在面對未來層出不窮的新名詞時，直指技術的本質。

感謝您參與這趟「運算架構大解密」的旅程，希望這系列文章能為您在探索電子工程與半導體世界的道路上，點亮一盞明燈！

2026年3月22日星期日

運算架構大解密 (六)：張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

（本篇為系列文章第六篇。如果您還沒看過前一篇關於邊緣 AI 加速器的文章，建議先閱讀：運算架構大解密 (五)：神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器）

上一篇文章我們介紹了 NPU，它是邊緣裝置上敏捷靈巧的人工智慧大腦。然而，當我們將目光轉向雲端，面對的是擁有數千億甚至兆級參數的大型語言模型（LLMs）時，邊緣設備的算力便顯得微不足道。為了解決超大規模 AI 資料集的運算需求，Google 獨家研發並推動了一種重裝運算巨獸：張量處理單元（Tensor Processing Unit, TPU）。

一、設計哲學的極端：捨棄靈活性，榨出極致吞吐量

TPU 的設計哲學走向了與 NPU 截然不同的極端。NPU 必須在極度受限的功耗預算（毫瓦至十幾瓦）內提供實時推論，但 TPU 完全放棄了邊緣端所需的低功耗靈活性與硬體體積限制。它將所有的矽晶片電晶體資源，毫無保留地投入到一個單一目標上：「最大化巨量矩陣運算的整體吞吐量（Throughput）」。

二、TPU 的核心黑科技：脈動陣列 (Systolic Array)

在傳統的馮紐曼架構中，CPU 或 GPU 執行每一次的數學運算，都必須從暫存器或快取中獨立讀取輸入資料並寫回運算結果。對於 AI 運算來說，這種頻繁的資料移動不僅極度耗能，更會迅速飽和記憶體頻寬。TPU 為了稱霸雲端 AI 領域，採用了一種非傳統的計算架構：脈動陣列（Systolic Array）。

密集的運算網格： 在 TPU 的脈動陣列設計中，成千上萬個乘加單元（MAC）被排列成一個高度密集且緊密耦合的網格狀結構。以第一代 TPU 為例，其核心的矩陣乘法單元（MXU）佈建了一個 256 乘 256 的龐大陣列，總計包含高達 65,536 個獨立的 MAC 單元。
如心臟跳動般的資料流： 脈動陣列的工作原理猶如人類心臟泵送血液（Systolic）的節律運作。

三、權重固定 (Weight Stationary)：徹底擊碎記憶體牆

當執行神經網路中最核心的龐大矩陣乘法（例如 $C = A \times B$）時，TPU 採用了極致的「權重固定」資料流策略。

  運作流程：

  系統會先將龐大神經網路模型的「權重矩陣（Weights）」載入並固定駐留在這 6 萬多個處理單元的本地暫存器中 。接著，輸入資料的「激勵值（Activations）」如波浪一般，跟隨著時鐘週期的節拍，從陣列的一側被有節奏地推入。這些資料流經各個相鄰的運算單元，在傳遞的過程中不斷與固定的權重進行相乘與局部累加，最終將結果從陣列的另一側輸出。

這種空間資料流設計的偉大之處在於，中間運算結果直接在硬體單元之間傳遞，系統僅需要對外部記憶體進行一次讀取權重的操作。此舉徹底打破了記憶體牆的限制，讓 TPU 的能效比（Performance-per-watt）達到了同時代 CPU 的 83 倍，以及同時代 GPU 的 29 倍。

四、隱藏延遲的魔法：雙重緩衝 (Double Buffering)

雖然 TPU 計算極快，但在連續處理不同神經網路層時，重新載入下一層龐大權重資料可能會引發系統閒置（Stall）。為了解決這個問題，TPU 架構設計了專屬的權重先進先出（FIFO）快取與複雜的雙重緩衝（Double Buffering）機制 。

這項機制允許 TPU 的核心運算單元在全速處理當前神經網路層矩陣乘法的同時，背景的記憶體控制器可以平行運作，預先從外部高頻寬記憶體（HBM）將下一層的權重資料搬移至統一緩衝區（Unified Buffer）中。這種技術猶如計算機圖形學中的「頁面翻轉（Page Flipping）」，完美地隱藏了記憶體傳輸的物理延遲，確保了脈動陣列維持極高的硬體利用率。

五、TPU 的實務應用與局限性

強大的算力伴隨著嚴格的使用條件，TPU 被嚴格限制在雲端與大型資料中心的範疇內：

主力戰場： 訓練（Training）擁有數千億甚至兆級參數的大型語言模型（LLMs）、執行自然語言處理（NLP）的雲端批次分析，以及運作跨國電子商務平台複雜推薦系統。
架構犧牲： 為了追求極致的批次處理（Batch processing）吞吐量，TPU 犧牲了對單一資料的低延遲處理能力。
物理限制： 高昂的硬體部署成本、緊密綁定 Google TensorFlow 生態系的封閉性，以及單晶片動輒高達數百瓦的巨大散熱需求，使得 TPU 絕對無法被整合進任何依賴電池供電的終端邊緣設備中。

結語

從極限省電的 MCU 到功耗數百瓦的 TPU，我們見證了為了不同運算目的而誕生的極致硬體。然而，現代旗艦級的電子設備往往需要同時具備這些處理器的優點。我們該如何將 CPU、GPU、DSP 甚至 NPU 全部塞進同一個微小的晶片裡？在下一篇文章中，我們將進入系列的高潮，探討異質整合的終極版圖：系統單晶片（SoC）與未來的先進封裝挑戰。

訂閱：文章 (Atom)

PLC world

網頁

2026年3月24日星期二

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

一、運算典範的轉移：從「時間順序」到「空間平行」

二、終極硬體選型指南：把對的晶片放在對的位置

三、未來的挑戰與展望

2026年3月22日星期日

運算架構大解密 (六)：張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

運算架構大解密 (六)：張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

一、設計哲學的極端：捨棄靈活性，榨出極致吞吐量

二、TPU 的核心黑科技：脈動陣列 (Systolic Array)

三、權重固定 (Weight Stationary)：徹底擊碎記憶體牆

四、隱藏延遲的魔法：雙重緩衝 (Double Buffering)

五、TPU 的實務應用與局限性

結語

熱門文章

我的網誌清單

網誌存檔

網頁

2026年3月24日 星期二

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

一、運算典範的轉移：從「時間順序」到「空間平行」

二、終極硬體選型指南：把對的晶片放在對的位置

三、未來的挑戰與展望

2026年3月22日 星期日

運算架構大解密 (六)：張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

運算架構大解密 (六)：張量處理單元 (TPU) — 雲端巨量資料的脈動陣列巨獸

一、設計哲學的極端：捨棄靈活性，榨出極致吞吐量

二、TPU 的核心黑科技：脈動陣列 (Systolic Array)

三、權重固定 (Weight Stationary)：徹底擊碎記憶體牆

四、隱藏延遲的魔法：雙重緩衝 (Double Buffering)

五、TPU 的實務應用與局限性

結語

2026年3月24日星期二

2026年3月22日星期日