顯示具有 NPU 標籤的文章。 顯示所有文章
顯示具有 NPU 標籤的文章。 顯示所有文章

2026年3月24日 星期二

運算架構大解密 (八):總結篇 — 從時間到空間,定義未來的運算藍圖

運算架構大解密 (八):總結篇 — 從時間到空間,定義未來的運算藍圖

(本篇為系列文章的最終回。如果您還沒看過前一篇關於異質整合的文章,建議先閱讀:運算架構大解密 (七):系統單晶片 (SoC) 與未來挑戰 — 異質整合的終極版圖

在這七篇文章的旅程中,我們從最底層、最精簡的微控制器(MCU)出發,一路攀升到乘載複雜作業系統的微處理器(MPU),見證了為連續訊號而生的數位訊號處理器(DSP),並跨越了軟硬體界線,認識了能隨意重構的現場可程式化邏輯閘陣列(FPGA)。最後,我們迎來了 AI 時代的兩大巨頭:主宰邊緣的 NPU 與稱霸雲端的 TPU,並探討了將這一切鎔鑄一爐的系統單晶片(SoC)。

站在這趟硬體演進之旅的終點,我們該如何從宏觀的角度來理解這些晶片?又該如何在實際的專案中做出正確的選型?

一、運算典範的轉移:從「時間順序」到「空間平行」

綜觀這半個世紀以來的晶片發展史,最核心的脈絡就是「運算典範的轉移」。面對摩爾定律的放緩與功耗牆的限制,硬體架構設計師不再執著於單純拉高 CPU 的時脈(Clock Speed),而是將目光轉向了架構的本質改變:

  • 時間主導的控制流(Control-flow): 如 MCU、MPU 與傳統 CPU。它們是優秀的「通才」,擅長處理複雜的邏輯判斷、條件分支(If-Else)與運行龐大的作業系統。它們依賴時間上的順序執行,透過極高的時脈速度來完成任務。
  • 空間主導的資料流(Data-flow): 如 FPGA、NPU 與 TPU。它們是極端的「專才」,放棄了複雜的控制邏輯,轉而將晶片面積鋪滿成千上萬的運算單元。當龐大的資料矩陣湧入時,它們依賴實體空間上的極致平行處理,讓資料在硬體陣列中流動並直接算出結果,徹底打破了記憶體牆的功耗瓶頸。


二、終極硬體選型指南:把對的晶片放在對的位置

為了幫助各位在未來的系統設計或技術研究中快速建立直覺,我們整理了一份基於「需求痛點」的終極選型指南:

設計決策樹:您的專案真正需要什麼?
核心需求與應用場景 首選架構 關鍵優勢與原因
極低功耗、硬即時控制 (Hard Real-time)
如:馬達驅動、感測器節點、簡單家電
MCU (微控制器) 就地執行 (XIP)、內建 Flash/RAM、無 OS 干擾、單一電壓供電即可運作。
需要圖形介面、網路通訊與複雜 OS
如:工業 HMI、物聯網閘道器、單板電腦
MPU (微處理器) 具備 MMU (可跑 Linux)、支援龐大外部 DDR 記憶體與高速周邊介面。
密集的數學迴圈與連續訊號處理
如:音訊降噪、雷達分析、基地台解調
DSP (數位訊號處理器) 哈佛架構打破讀寫瓶頸、專屬 MAC 陣列與零耗損迴圈硬體。
極低且絕對固定的延遲、客製化非標準介面
如:高頻交易、晶片原型驗證、航太設備
FPGA (可程式化邏輯閘陣列) 空間運算、透過 LUT 重構實體硬體電路、無指令排程干擾。
在電池供電設備上進行 AI 推論
如:手機計算攝影、無人機避障、智慧攝影機
NPU (神經處理單元) 資料流架構最大化權重複用率、硬體固化非線性函數、極致能效比。
雲端訓練兆級參數的大型語言模型 (LLM)
如:ChatGPT 訓練、超大型推薦系統
TPU (張量處理單元) 脈動陣列 (Systolic Array)、權重固定資料流、透過雙重緩衝隱藏龐大延遲。
空間受限且需兼具上述多種能力
如:旗艦智慧型手機、自駕車核心主機
SoC (系統單晶片) 晶片上網路 (NoC) 解決頻寬問題、硬體快取一致性確保異質核心協作。


三、未來的挑戰與展望

硬體的世界從未停止轉動。在可見的未來,隨著小晶片(Chiplet)技術與 3D 先進封裝(如 CoWoS)的成熟,我們將看到運算架構的界線變得越來越模糊。未來的處理器可能不再是一整塊單一的矽,而是像樂高積木一樣,由不同製程的 CPU、GPU、NPU 甚至光電轉換晶片拼裝而成。

然而,無論封裝技術如何演進,「如何有效移動資料」與「如何散去龐大熱量」依然是所有硬體工程師必須面對的終極物理挑戰。了解底層架構的原理,不僅能幫助我們選對工具,更能讓我們在面對未來層出不窮的新名詞時,直指技術的本質。

感謝您參與這趟「運算架構大解密」的旅程,希望這系列文章能為您在探索電子工程與半導體世界的道路上,點亮一盞明燈!

2026年3月21日 星期六

運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

(本篇為系列文章第五篇。如果您還沒看過前一篇關於硬體重構與空間運算的文章,建議先閱讀:運算架構大解密 (四):現場可程式化邏輯閘陣列 (FPGA) — 空間運算與硬體的終極變色龍

在上一篇文章中,我們認識了 FPGA 這種能夠隨心所欲改變硬體電路型態的「變色龍」晶片。然而,當科技發展進入人工智慧(AI)與深度學習的爆發期,我們面對的是幾何級數增長、動輒數百萬甚至上億次的神經網路矩陣運算。在這樣的極端負載下,通用型 CPU 顯得無力,而圖形處理器(GPU)雖然算力驚人,卻伴隨著巨大的功耗,無法塞進手機或無人機等依靠電池運作的設備中。為了解決這個矛盾,專為邊緣運算量身打造的神經處理單元(Neural Processing Unit, 簡稱 NPU)應運而生。

一、AI 運算的致命傷:撞上「記憶體牆」

要理解 NPU 存在的必要性,我們必須先看見傳統架構在執行 AI 運算時的根本痛點:記憶體牆(Memory Wall)

什麼是記憶體牆?
在神經網路的推論過程中,需要頻繁地讀取龐大的「權重(Weights)」與「特徵圖(Feature Maps)」。研究指出,在傳統的馮紐曼架構下,高達 80% 到 90% 的能源並非消耗在「運算(乘加操作)」本身,而是浪費在「將資料從外部記憶體(DRAM)搬運到晶片內部」的傳輸過程中。

想像一下,為了解決一道簡單的數學題,您花費了 1 分鐘思考,卻花了 9 分鐘走到圖書館拿參考書。這就是 CPU 與 GPU 在處理邊緣 AI 任務時面臨的窘境。高昂的資料搬運功耗,直接扼殺了將複雜 AI 模型部署在低功耗設備上的可能性。




二、NPU 的破壁絕招:空間資料流架構 (Dataflow Architecture)

NPU 如何打破這面高聳的記憶體牆?它的核心武器是「空間資料流架構(Dataflow Architecture)」。與我們在上一篇提到的 FPGA 類似,NPU 也採用了空間運算的概念,但它是為了「矩陣乘加」這項單一任務而徹底固化的特製硬體。

  • 最大化晶片內部的資料重複利用率: NPU 內部佈滿了由乘加器(MAC)組成的巨大處理陣列,並且緊密結合了分散式的本地靜態記憶體(SRAM)。
  • 權重複用 (Weight Reuse): NPU 的資料流控制機制會將神經網路的權重載入到乘加器陣列中並「停留」在那裡。當連續的影像特徵資料如同流水般通過這些乘加器時,就不需要為了每一次運算重新去外部 DRAM 讀取相同的權重。
  • 透過這種巧妙的資料排程,NPU 將外部記憶體存取的頻率降到了最低,從根本上解決了功耗問題。

三、硬體電路固化:極致能效比的秘密

除了打破記憶體牆,NPU 還在硬體層面上進行了「斷捨離」。在 NPU 眼中,神經網路模型就是一堆矩陣乘法、加法,以及非線性啟動函數的組合。

因此,NPU 放棄了 CPU 內部為了處理複雜作業系統而設計的控制邏輯(如分支預測、亂序執行)。相反地,NPU 直接將神經網路中常見的數學操作,例如 ReLU 啟動函數(Activation Functions)池化層(Pooling),直接燒錄成了專屬的「硬體電路」。

這種毫不妥協的特定領域架構設計,讓 NPU 能夠在毫瓦(mW)至 15 瓦(W)的極低功耗信封內,提供驚人的每秒兆次運算能力(TOPS),實現了極致的能效比。

四、NPU 在邊緣運算的實務應用

今日,NPU 已經悄悄地潛入我們生活的各個角落,成為了「邊緣 AI(Edge AI)」的中樞神經:

  1. 智慧型手機: 現代手機 SoC(如 Apple A 系列、Snapdragon)內建的 NPU 負責了極其複雜的計算攝影(如即時夜景降噪、人像景深運算),以及完全斷網下的本地端自然語言處理與語音辨識。
  2. 無人機與自駕車系統: 在高速移動的環境中,無人機必須依賴 NPU 在幾毫秒內處理多鏡頭影像,進行即時的深度估計與避障,因為將資料傳上雲端再等指令傳回,早已經來不及了。
  3. 工業機器視覺: 工廠流水線上的高速瑕疵檢測系統,利用 NPU 可以在不外接龐大耗電 GPU 主機的情況下,直接在攝影機終端(Smart Camera)完成推論。這不僅解決了頻寬限制,也保護了工廠的生產資料隱私。


結語

神經處理單元(NPU)透過「資料流架構」與「特定硬體固化」,完美解決了邊緣運算設備在處理 AI 推論時的功耗與記憶體存取瓶頸。然而,當我們將目光從「終端邊緣設備」轉向「雲端資料中心」,當面臨的是包含數千億參數的巨型大型語言模型(LLM)的訓練任務時,即便 NPU 也顯得微不足道。在下一篇文章中,我們將直擊 AI 運算的最頂點:一窺 Google 為雲端打造的脈動陣列巨獸 —— 張量處理單元(TPU)