PLC world: NPU

顯示具有 NPU 標籤的文章。顯示所有文章

2026年3月24日星期二

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

（本篇為系列文章的最終回。如果您還沒看過前一篇關於異質整合的文章，建議先閱讀：運算架構大解密 (七)：系統單晶片 (SoC) 與未來挑戰 — 異質整合的終極版圖）

在這七篇文章的旅程中，我們從最底層、最精簡的微控制器（MCU）出發，一路攀升到乘載複雜作業系統的微處理器（MPU），見證了為連續訊號而生的數位訊號處理器（DSP），並跨越了軟硬體界線，認識了能隨意重構的現場可程式化邏輯閘陣列（FPGA）。最後，我們迎來了 AI 時代的兩大巨頭：主宰邊緣的 NPU 與稱霸雲端的 TPU，並探討了將這一切鎔鑄一爐的系統單晶片（SoC）。

站在這趟硬體演進之旅的終點，我們該如何從宏觀的角度來理解這些晶片？又該如何在實際的專案中做出正確的選型？

一、運算典範的轉移：從「時間順序」到「空間平行」

綜觀這半個世紀以來的晶片發展史，最核心的脈絡就是「運算典範的轉移」。面對摩爾定律的放緩與功耗牆的限制，硬體架構設計師不再執著於單純拉高 CPU 的時脈（Clock Speed），而是將目光轉向了架構的本質改變：

時間主導的控制流（Control-flow）： 如 MCU、MPU 與傳統 CPU。它們是優秀的「通才」，擅長處理複雜的邏輯判斷、條件分支（If-Else）與運行龐大的作業系統。它們依賴時間上的順序執行，透過極高的時脈速度來完成任務。
空間主導的資料流（Data-flow）： 如 FPGA、NPU 與 TPU。它們是極端的「專才」，放棄了複雜的控制邏輯，轉而將晶片面積鋪滿成千上萬的運算單元。當龐大的資料矩陣湧入時，它們依賴實體空間上的極致平行處理，讓資料在硬體陣列中流動並直接算出結果，徹底打破了記憶體牆的功耗瓶頸。

二、終極硬體選型指南：把對的晶片放在對的位置

為了幫助各位在未來的系統設計或技術研究中快速建立直覺，我們整理了一份基於「需求痛點」的終極選型指南：

設計決策樹：您的專案真正需要什麼？

核心需求與應用場景	首選架構	關鍵優勢與原因
極低功耗、硬即時控制 (Hard Real-time) 如：馬達驅動、感測器節點、簡單家電	MCU (微控制器)	就地執行 (XIP)、內建 Flash/RAM、無 OS 干擾、單一電壓供電即可運作。
需要圖形介面、網路通訊與複雜 OS 如：工業 HMI、物聯網閘道器、單板電腦	MPU (微處理器)	具備 MMU (可跑 Linux)、支援龐大外部 DDR 記憶體與高速周邊介面。
密集的數學迴圈與連續訊號處理如：音訊降噪、雷達分析、基地台解調	DSP (數位訊號處理器)	哈佛架構打破讀寫瓶頸、專屬 MAC 陣列與零耗損迴圈硬體。
極低且絕對固定的延遲、客製化非標準介面如：高頻交易、晶片原型驗證、航太設備	FPGA (可程式化邏輯閘陣列)	空間運算、透過 LUT 重構實體硬體電路、無指令排程干擾。
在電池供電設備上進行 AI 推論如：手機計算攝影、無人機避障、智慧攝影機	NPU (神經處理單元)	資料流架構最大化權重複用率、硬體固化非線性函數、極致能效比。
雲端訓練兆級參數的大型語言模型 (LLM) 如：ChatGPT 訓練、超大型推薦系統	TPU (張量處理單元)	脈動陣列 (Systolic Array)、權重固定資料流、透過雙重緩衝隱藏龐大延遲。
空間受限且需兼具上述多種能力如：旗艦智慧型手機、自駕車核心主機	SoC (系統單晶片)	晶片上網路 (NoC) 解決頻寬問題、硬體快取一致性確保異質核心協作。

三、未來的挑戰與展望

硬體的世界從未停止轉動。在可見的未來，隨著小晶片（Chiplet）技術與 3D 先進封裝（如 CoWoS）的成熟，我們將看到運算架構的界線變得越來越模糊。未來的處理器可能不再是一整塊單一的矽，而是像樂高積木一樣，由不同製程的 CPU、GPU、NPU 甚至光電轉換晶片拼裝而成。

然而，無論封裝技術如何演進，「如何有效移動資料」與「如何散去龐大熱量」依然是所有硬體工程師必須面對的終極物理挑戰。了解底層架構的原理，不僅能幫助我們選對工具，更能讓我們在面對未來層出不窮的新名詞時，直指技術的本質。

感謝您參與這趟「運算架構大解密」的旅程，希望這系列文章能為您在探索電子工程與半導體世界的道路上，點亮一盞明燈！

2026年3月21日星期六

運算架構大解密 (五)：神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

（本篇為系列文章第五篇。如果您還沒看過前一篇關於硬體重構與空間運算的文章，建議先閱讀：運算架構大解密 (四)：現場可程式化邏輯閘陣列 (FPGA) — 空間運算與硬體的終極變色龍）

在上一篇文章中，我們認識了 FPGA 這種能夠隨心所欲改變硬體電路型態的「變色龍」晶片。然而，當科技發展進入人工智慧（AI）與深度學習的爆發期，我們面對的是幾何級數增長、動輒數百萬甚至上億次的神經網路矩陣運算。在這樣的極端負載下，通用型 CPU 顯得無力，而圖形處理器（GPU）雖然算力驚人，卻伴隨著巨大的功耗，無法塞進手機或無人機等依靠電池運作的設備中。為了解決這個矛盾，專為邊緣運算量身打造的神經處理單元（Neural Processing Unit, 簡稱 NPU）應運而生。

一、AI 運算的致命傷：撞上「記憶體牆」

要理解 NPU 存在的必要性，我們必須先看見傳統架構在執行 AI 運算時的根本痛點：記憶體牆（Memory Wall）。

  什麼是記憶體牆？

  在神經網路的推論過程中，需要頻繁地讀取龐大的「權重（Weights）」與「特徵圖（Feature Maps）」。研究指出，在傳統的馮紐曼架構下，高達 80% 到 90% 的能源並非消耗在「運算（乘加操作）」本身，而是浪費在「將資料從外部記憶體（DRAM）搬運到晶片內部」的傳輸過程中。

想像一下，為了解決一道簡單的數學題，您花費了 1 分鐘思考，卻花了 9 分鐘走到圖書館拿參考書。這就是 CPU 與 GPU 在處理邊緣 AI 任務時面臨的窘境。高昂的資料搬運功耗，直接扼殺了將複雜 AI 模型部署在低功耗設備上的可能性。

二、NPU 的破壁絕招：空間資料流架構 (Dataflow Architecture)

NPU 如何打破這面高聳的記憶體牆？它的核心武器是「空間資料流架構（Dataflow Architecture）」。與我們在上一篇提到的 FPGA 類似，NPU 也採用了空間運算的概念，但它是為了「矩陣乘加」這項單一任務而徹底固化的特製硬體。

最大化晶片內部的資料重複利用率： NPU 內部佈滿了由乘加器（MAC）組成的巨大處理陣列，並且緊密結合了分散式的本地靜態記憶體（SRAM）。
權重複用 (Weight Reuse)： NPU 的資料流控制機制會將神經網路的權重載入到乘加器陣列中並「停留」在那裡。當連續的影像特徵資料如同流水般通過這些乘加器時，就不需要為了每一次運算重新去外部 DRAM 讀取相同的權重。
透過這種巧妙的資料排程，NPU 將外部記憶體存取的頻率降到了最低，從根本上解決了功耗問題。

三、硬體電路固化：極致能效比的秘密

除了打破記憶體牆，NPU 還在硬體層面上進行了「斷捨離」。在 NPU 眼中，神經網路模型就是一堆矩陣乘法、加法，以及非線性啟動函數的組合。

因此，NPU 放棄了 CPU 內部為了處理複雜作業系統而設計的控制邏輯（如分支預測、亂序執行）。相反地，NPU 直接將神經網路中常見的數學操作，例如 ReLU 啟動函數（Activation Functions） 與 池化層（Pooling），直接燒錄成了專屬的「硬體電路」。

這種毫不妥協的特定領域架構設計，讓 NPU 能夠在毫瓦（mW）至 15 瓦（W）的極低功耗信封內，提供驚人的每秒兆次運算能力（TOPS），實現了極致的能效比。

四、NPU 在邊緣運算的實務應用

今日，NPU 已經悄悄地潛入我們生活的各個角落，成為了「邊緣 AI（Edge AI）」的中樞神經：

智慧型手機： 現代手機 SoC（如 Apple A 系列、Snapdragon）內建的 NPU 負責了極其複雜的計算攝影（如即時夜景降噪、人像景深運算），以及完全斷網下的本地端自然語言處理與語音辨識。
無人機與自駕車系統： 在高速移動的環境中，無人機必須依賴 NPU 在幾毫秒內處理多鏡頭影像，進行即時的深度估計與避障，因為將資料傳上雲端再等指令傳回，早已經來不及了。
工業機器視覺： 工廠流水線上的高速瑕疵檢測系統，利用 NPU 可以在不外接龐大耗電 GPU 主機的情況下，直接在攝影機終端（Smart Camera）完成推論。這不僅解決了頻寬限制，也保護了工廠的生產資料隱私。

結語

神經處理單元（NPU）透過「資料流架構」與「特定硬體固化」，完美解決了邊緣運算設備在處理 AI 推論時的功耗與記憶體存取瓶頸。然而，當我們將目光從「終端邊緣設備」轉向「雲端資料中心」，當面臨的是包含數千億參數的巨型大型語言模型（LLM）的訓練任務時，即便 NPU 也顯得微不足道。在下一篇文章中，我們將直擊 AI 運算的最頂點：一窺 Google 為雲端打造的脈動陣列巨獸 —— 張量處理單元（TPU）。

訂閱：文章 (Atom)

PLC world

網頁

2026年3月24日星期二

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

一、運算典範的轉移：從「時間順序」到「空間平行」

二、終極硬體選型指南：把對的晶片放在對的位置

三、未來的挑戰與展望

2026年3月21日星期六

運算架構大解密 (五)：神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

運算架構大解密 (五)：神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

一、AI 運算的致命傷：撞上「記憶體牆」

二、NPU 的破壁絕招：空間資料流架構 (Dataflow Architecture)

三、硬體電路固化：極致能效比的秘密

四、NPU 在邊緣運算的實務應用

結語

熱門文章

我的網誌清單

網誌存檔

網頁

2026年3月24日 星期二

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

運算架構大解密 (八)：總結篇 — 從時間到空間，定義未來的運算藍圖

一、運算典範的轉移：從「時間順序」到「空間平行」

二、終極硬體選型指南：把對的晶片放在對的位置

三、未來的挑戰與展望

2026年3月21日 星期六

運算架構大解密 (五)：神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

運算架構大解密 (五)：神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

一、AI 運算的致命傷：撞上「記憶體牆」

二、NPU 的破壁絕招：空間資料流架構 (Dataflow Architecture)

三、硬體電路固化：極致能效比的秘密

四、NPU 在邊緣運算的實務應用

結語

2026年3月24日星期二

2026年3月21日星期六