顯示具有 AI晶片 標籤的文章。 顯示所有文章
顯示具有 AI晶片 標籤的文章。 顯示所有文章

2026年3月21日 星期六

運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

運算架構大解密 (五):神經處理單元 (NPU) — 突破記憶體牆的邊緣 AI 加速器

(本篇為系列文章第五篇。如果您還沒看過前一篇關於硬體重構與空間運算的文章,建議先閱讀:運算架構大解密 (四):現場可程式化邏輯閘陣列 (FPGA) — 空間運算與硬體的終極變色龍

在上一篇文章中,我們認識了 FPGA 這種能夠隨心所欲改變硬體電路型態的「變色龍」晶片。然而,當科技發展進入人工智慧(AI)與深度學習的爆發期,我們面對的是幾何級數增長、動輒數百萬甚至上億次的神經網路矩陣運算。在這樣的極端負載下,通用型 CPU 顯得無力,而圖形處理器(GPU)雖然算力驚人,卻伴隨著巨大的功耗,無法塞進手機或無人機等依靠電池運作的設備中。為了解決這個矛盾,專為邊緣運算量身打造的神經處理單元(Neural Processing Unit, 簡稱 NPU)應運而生。

一、AI 運算的致命傷:撞上「記憶體牆」

要理解 NPU 存在的必要性,我們必須先看見傳統架構在執行 AI 運算時的根本痛點:記憶體牆(Memory Wall)

什麼是記憶體牆?
在神經網路的推論過程中,需要頻繁地讀取龐大的「權重(Weights)」與「特徵圖(Feature Maps)」。研究指出,在傳統的馮紐曼架構下,高達 80% 到 90% 的能源並非消耗在「運算(乘加操作)」本身,而是浪費在「將資料從外部記憶體(DRAM)搬運到晶片內部」的傳輸過程中。

想像一下,為了解決一道簡單的數學題,您花費了 1 分鐘思考,卻花了 9 分鐘走到圖書館拿參考書。這就是 CPU 與 GPU 在處理邊緣 AI 任務時面臨的窘境。高昂的資料搬運功耗,直接扼殺了將複雜 AI 模型部署在低功耗設備上的可能性。




二、NPU 的破壁絕招:空間資料流架構 (Dataflow Architecture)

NPU 如何打破這面高聳的記憶體牆?它的核心武器是「空間資料流架構(Dataflow Architecture)」。與我們在上一篇提到的 FPGA 類似,NPU 也採用了空間運算的概念,但它是為了「矩陣乘加」這項單一任務而徹底固化的特製硬體。

  • 最大化晶片內部的資料重複利用率: NPU 內部佈滿了由乘加器(MAC)組成的巨大處理陣列,並且緊密結合了分散式的本地靜態記憶體(SRAM)。
  • 權重複用 (Weight Reuse): NPU 的資料流控制機制會將神經網路的權重載入到乘加器陣列中並「停留」在那裡。當連續的影像特徵資料如同流水般通過這些乘加器時,就不需要為了每一次運算重新去外部 DRAM 讀取相同的權重。
  • 透過這種巧妙的資料排程,NPU 將外部記憶體存取的頻率降到了最低,從根本上解決了功耗問題。

三、硬體電路固化:極致能效比的秘密

除了打破記憶體牆,NPU 還在硬體層面上進行了「斷捨離」。在 NPU 眼中,神經網路模型就是一堆矩陣乘法、加法,以及非線性啟動函數的組合。

因此,NPU 放棄了 CPU 內部為了處理複雜作業系統而設計的控制邏輯(如分支預測、亂序執行)。相反地,NPU 直接將神經網路中常見的數學操作,例如 ReLU 啟動函數(Activation Functions)池化層(Pooling),直接燒錄成了專屬的「硬體電路」。

這種毫不妥協的特定領域架構設計,讓 NPU 能夠在毫瓦(mW)至 15 瓦(W)的極低功耗信封內,提供驚人的每秒兆次運算能力(TOPS),實現了極致的能效比。

四、NPU 在邊緣運算的實務應用

今日,NPU 已經悄悄地潛入我們生活的各個角落,成為了「邊緣 AI(Edge AI)」的中樞神經:

  1. 智慧型手機: 現代手機 SoC(如 Apple A 系列、Snapdragon)內建的 NPU 負責了極其複雜的計算攝影(如即時夜景降噪、人像景深運算),以及完全斷網下的本地端自然語言處理與語音辨識。
  2. 無人機與自駕車系統: 在高速移動的環境中,無人機必須依賴 NPU 在幾毫秒內處理多鏡頭影像,進行即時的深度估計與避障,因為將資料傳上雲端再等指令傳回,早已經來不及了。
  3. 工業機器視覺: 工廠流水線上的高速瑕疵檢測系統,利用 NPU 可以在不外接龐大耗電 GPU 主機的情況下,直接在攝影機終端(Smart Camera)完成推論。這不僅解決了頻寬限制,也保護了工廠的生產資料隱私。


結語

神經處理單元(NPU)透過「資料流架構」與「特定硬體固化」,完美解決了邊緣運算設備在處理 AI 推論時的功耗與記憶體存取瓶頸。然而,當我們將目光從「終端邊緣設備」轉向「雲端資料中心」,當面臨的是包含數千億參數的巨型大型語言模型(LLM)的訓練任務時,即便 NPU 也顯得微不足道。在下一篇文章中,我們將直擊 AI 運算的最頂點:一窺 Google 為雲端打造的脈動陣列巨獸 —— 張量處理單元(TPU)

2026年1月25日 星期日

【半導體科普】破解迷思:為什麼最先進的 CoWoS 封裝,竟然拒絕使用 EUV 光刻機?

 


在 AI 浪潮下,NVIDIA 的 GPU 一卡難求,大家都知道瓶頸卡在台積電的 CoWoS 先進封裝產能。同時,新聞也不斷報導 ASML 的 EUV (極紫外光) 光刻機有多昂貴、多重要。


這導致了一個常見的邏輯誤區:

「既然 CoWoS 是現在最缺、最先進的技術,那它一定也是用最昂貴的 EUV 機器做出來的吧?」

答案可能會讓你大吃一驚:完全不是! 事實上,CoWoS 製程如果不小心用了 EUV,那才是真正的災難。今天我們就來聊聊,為什麼這項頂尖技術,骨子裡依賴的卻是「成熟」甚至被視為「舊世代」的光刻設備。

1. 先搞懂名詞:什麼是「光刻」?什麼是「曝光」?

在深入 CoWoS 之前,我們先釐清兩個常被混用的詞:

光刻 (Photolithography): 這是整個「製程」的統稱。它的原理就像是洗照片。我們在晶圓塗上感光材料,用光去照它,然後顯影、蝕刻,最後把電路圖案「刻」在晶圓上。

曝光 (Exposure): 這是光刻製程中最關鍵的一個動作。也就是「光線打在晶圓上」的那一瞬間。

先進製程(如 3nm)用的是波長極短的 EUV(極紫外光) 進行曝光。

成熟製程或封裝,通常使用波長較長的 DUV(深紫外光) 進行曝光。

簡單來說: 「光刻」是整套工藝,「曝光」是手上的那把雕刻刀。而 CoWoS 選擇了 DUV 這把刀。


2. CoWoS 的任務:它是「蓋橋」,不是「蓋樓」

為什麼 CoWoS 不需要 EUV?這要從它的任務說起。


先進製程 (3nm 晶片): 台積電在做 NVIDIA H100 的 GPU 核心時,是在方寸之間塞進數百億個電晶體。線路寬度只有幾奈米,這時候非用 EUV 這種「奈米級雷射刀」不可,否則刻不出來。


先進封裝 (CoWoS): CoWoS 的工作,是把做好的 GPU 和旁邊的 HBM (記憶體) 連接起來。 它需要在一個矽中介層 (Silicon Interposer) 上,畫出連接兩者的電路(RDL)。這些線路的寬度雖然比傳統電路板細很多,但通常是在 微米 (µm) 等級(例如 0.4µm ~ 10µm)。


關鍵差異就在這裡: 對於 3nm 的晶片來說,EUV 是必需品。 但對於微米級的 CoWoS 線路來說,EUV 的精度太高了,簡直是**「殺雞用牛刀」**。



3. 為什麼 CoWoS 偏愛 DUV?(三大理由)

台積電選擇使用 DUV(甚至更舊的 i-line 光刻機)來進行 CoWoS 的曝光製程,主要有三個考量:


A. 成本與效率 (Cost & Efficiency)

一台 EUV 造價超過 1.5 億美元,而且曝光速度相對慢(因為光線在真空中衰減很快)。 CoWoS 的線路比較「粗」,用成熟的 DUV 設備不僅跑得快,成本更是只有 EUV 的一小部分。如果硬用 EUV 做封裝,你的顯卡價格可能要再翻一倍。


B. 景深與對焦 (Depth of Focus)

這是一個物理學問題。EUV 的光學系統非常精密,對焦的深度(景深)很淺。這意味著被曝光的表面必須「超級平整」。 但在做封裝時,晶片堆疊後的表面難免會有一點點高低不平。DUV 的波長較長,對這種「不平整」的容忍度較高,更容易成功把電路圖案曝光在基板上。


C. 尺寸限制 (Reticle Size Limit) —— 最致命的原因

這是目前 AI 晶片最大的挑戰。 EUV 設備原本是為了做小巧精密的晶片設計的,它的單次曝光區域 (Reticle Field) 比較小(約 26mm x 33mm)。 但現在的 AI 晶片(如 NVIDIA Blackwell B200)加上封裝後的尺寸超級巨大,早就超過了 EUV 單次曝光的範圍。


相比之下,DUV 技術在處理**「拼接 (Stitching)」**(把多次曝光的圖案接在一起)方面非常成熟。台積電可以用 DUV 輕鬆做出比單一光罩大 3 倍、甚至 4 倍的超大面積中介層,來承載那些巨無霸 AI 晶片。


4. 結論:新舊技術的完美協奏

所以,當我們在談論 CoWoS 產能擴充時,台積電買的並不是 ASML 最貴的 EUV,而是大量的 DUV 曝光設備以及封裝用的貼合機。


這給了我們一個重要的啟示:半導體產業不只是追求「越細越好」,而是追求「最適化」。


大腦 (GPU): 需要 EUV 的極致精度。


身體 (CoWoS): 需要 DUV 的大面積與高效率連接。


下次看到 CoWoS 的新聞,別再以為它跟光刻技術無關,它可是把「阿公級」的光刻機發揮到極致的藝術品呢!

2026年1月24日 星期六

【半導體科普】CoWoS 是什麼?為何 NVIDIA、AMD 都在搶?一次看懂台積電的先進封裝秘密

 


前言:AI 時代的真正瓶頸不是晶片,而是「封裝」

在生成式 AI 爆發的現在,大家都在討論 GPU 的算力有多強,NVIDIA 的股價又漲了多少。但你有沒有發現,新聞常常提到「產能不足」?其實,卡住出貨的瓶頸往往不是核心晶片本身,而是將這些晶片組裝在一起的技術——先進封裝(Advanced Packaging)

而在這場封裝戰爭中,台積電的 CoWoS (Chip-on-Wafer-on-Substrate) 技術,就是那個讓 NVIDIA、AMD 甚至 Google 都排隊搶著要的「聖杯」。今天,我們就以自動化工程師的視角,深入淺出地拆解 CoWoS 到底是什麼?以及它旗下的 S、R、L 三種製程究竟有何不同。


一、 CoWoS 到底是什麼?五個字母的秘密

很多專有名詞看名字就能知道結構。CoWoS 也不例外,它的全名是 Chip-on-Wafer-on-Substrate。我們可以把它想像成一個「三層三明治」結構:

  1. 頂層 (Chip): 這是餡料。包含負責運算的邏輯晶片(如 GPU/CPU)以及負責存取資料的高頻寬記憶體(HBM)。

  2. 中層 (Wafer / Interposer): 這是夾層麵包,也是 CoWoS 的核心。我們稱為「中介層」。它負責提供超高密度的線路,讓頂層的 GPU 和 HBM 能夠像鄰居一樣快速溝通。

  3. 底層 (Substrate): 這是底層盤子。通常是 ABF載板,負責將封裝好的晶片連接到外部的電路板(PCB)上。

為什麼需要 CoWoS? 因為「摩爾定律」變慢了。要把晶片做得更小越來越難,成本也越來越高。於是工程師想出了一個辦法:「既然做不小,那我們就把它們『疊』起來,並且『拼』在一起。」 CoWoS 讓處理器和記憶體靠得非常近,大幅解決了傳輸速度(頻寬)的問題,這正是 AI 模型訓練最需要的。


二、 CoWoS 的三種型態:S、R、L 大解密

台積電的 CoWoS 並非只有一種,根據**「中介層(中間那層麵包)」的材質不同**,分為三種主要製程。這也是近期 NVIDIA 晶片世代交替的關鍵所在。



1. CoWoS-S (Silicon Interposer / 矽中介層)

  • 特點: 這是最經典、技術最成熟的版本。中間層使用一片完整的「矽晶圓」來製作。

  • 優勢: 矽的蝕刻技術非常成熟,線路可以做得極度細密,傳輸效能最好,散熱導熱性也佳。

  • 限制: 貴!而且受限於光罩尺寸(Reticle Limit)。簡單說,因為是用矽晶圓做的,它沒辦法做得太大,大概只能塞進一顆 GPU 加上 6 顆 HBM。

  • 代表產品: NVIDIA H100、AMD MI300。

2. CoWoS-R (RDL Interposer / 重佈線層)

  • 特點: 拿掉昂貴的矽中介層,改用有機材料的 RDL(重佈線層)來連接。

  • 優勢: 成本較低,且因為是有機材料,比較有彈性,不容易因為熱脹冷縮而破裂(可靠度高)。

  • 定位: 適合對成本敏感,但仍需要先進封裝的網通或邊緣運算產品。

3. CoWoS-L (Local Silicon Interconnect / 局部矽互連)

  • 特點: 它是 S 和 R 的混血兒,也是未來的主流。主體是有機載板(便宜、可做大),但在晶片與晶片需要高速溝通的「關鍵路口」,埋入小塊的矽橋(LSI)。

  • 優勢: 結合了有機載板「可做超大尺寸」的優點,與矽橋「高密度傳輸」的特性。這突破了 CoWoS-S 的光罩尺寸限制,可以把封裝面積做得比手掌還大!

  • 代表產品: NVIDIA Blackwell B200、GB200。


三、 從 H100 到 B200:為何 NVIDIA 轉向 CoWoS-L?

這是一個非常精彩的技術轉折。

H100 時代,NVIDIA 追求極致的穩定與成熟,選擇了 CoWoS-S。這也是為什麼 H100 的效能這麼強,但產能卻一直受限於台積電矽中介層產能的原因之一。

到了 Blackwell (B200) 時代,單一顆晶片已經不夠快了。NVIDIA 決定把兩顆大晶片「拼」在一起,變成一顆超級晶片。 這時候,傳統的 CoWoS-S 就遇到瓶頸了——它塞不下這麼大的面積!

於是,NVIDIA 轉向擁抱 CoWoS-L。透過 CoWoS-L 技術,台積電成功將兩顆運算晶片和 8 顆 HBM3e 記憶體封裝在同一個基板上,實現了 10 TB/s 的驚人傳輸速度。雖然 CoWoS-L 的製程複雜度更高、良率挑戰更大,但這是通往下一代 AI 算力的唯一道路。


結語:封裝工程師的黃金時代

看完這篇,你應該對 CoWoS 有了更深一層的認識。未來的晶片戰爭,不再只是比誰的奈米製程更先進(那是前段製程的事),更要比誰能把這些晶片封裝得更巧妙、更緊密(這是後段封裝的事)。

下一代,我們即將迎來 3nm 製程HBM4 的結合,屆時 CoWoS-L 將會進化得更巨大、更複雜。作為一名自動化工程師,看著這些物理極限被一步步突破,實在是令人熱血沸騰!