2026年3月21日 星期六

揭秘 AI 的大腦:LLM 運作原理與 Token 機制全圖解

 

揭秘 AI 的大腦:LLM 運作原理與 Token 機制全圖解

簡報:















影片:

歡迎來到 AI 的底層世界。作為 AI 基礎教育架構師,我的目標是為你建立一套穩固的底層認知框架。當我們在談論 ChatGPT、Claude 或 Gemini 時,我們其實是在與一個極其複雜的「大語言模型」(LLM)交互。要精準掌握 AI 工具,你必須先理解它的「大腦」是如何運作的。

--------------------------------------------------------------------------------

1. 核心隱喻:大語言模型其實是在玩「文字接龍」

大語言模型(Large Language Model)在本質上並不像人類那樣具有「思考能力」,它更像是一個精密的數學函數。當你輸入一段話,模型內部的矩陣運算會計算出下一個「詞」出現的機率。

這個過程可以被理解為一場極致的「文字接龍」。模型不是一次性生成整段答案,而是一個詞、一個詞地預測。每輸出一個詞,它會利用**「循環回填」(Recursive Backfilling)**機制,將新產生的詞抓回到輸入序列的末尾,重新進行下一次運算。這正是為什麼你在使用 AI 時,會看到文字如同流水般逐一跳出的原因。

文字接龍與循環回填的動態過程:

  1. 初始輸入: 「馬克的視頻怎麼樣?」
  2. 第一輪預測: 模型根據數學機率,預測下一個最可能的詞是「特別」。
  3. 循環回填: 模型將「特別」追加到原句子後方,輸入變為:「馬克的視頻怎麼樣?特別」。
  4. 第二輪預測: 基於更新後的序列,預測下一個字是「」。
  5. 接續運算: 重複上述動作,接連預測出「」。
  6. 識別終點: 當模型判斷邏輯已完整,會輸出一個特殊結束標示符,宣告生成任務徹底結束。

學習過渡: 既然模型本質上是處理矩陣運算的數字機器,它又是如何與人類感性的文字溝通的?這就需要一位專業的「翻譯官」。

--------------------------------------------------------------------------------

2. 翻譯官登場:Tokenizer 的編碼與解碼

模型並不認識文字,它只處理數字。Tokenizer(分詞器) 扮演了人類與模型之間的中間人,負責將文字轉譯為數字,或將數字還原為文字。

階段

動作重點

具體步驟

編碼 (Encoding)

將感性文字轉譯為理性數字

1. 切分 (Segmentation):將句子拆解成最小處理單位(Token)。<br>2. 映射 (Mapping):將每個 Token 對應到唯一的 Token ID(數字)。

解碼 (Decoding)

將模型計算結果還原為文字

1. 直接映射:將模型產出的 Token ID 對照回文字。<br>2. 高效輸出:因模型每次僅噴出一個 Token,解碼無需再次切分,效率極高。

學習過渡: 雖然我們習慣稱之為「詞」,但 Token 並不完全等同於我們語言學中的單詞,它是模型理解世界的最小單位。

--------------------------------------------------------------------------------

3. 深入理解 Token:大模型處理的基本單位

Token 是大模型處理文本的最小處理單位。理解 Token 的切分規律,是掌握模型能力邊界與成本控制的關鍵。

  • 中文切分案例: 中文詞彙常被拆分為更小的單位。例如「工作坊」會被拆為 工作 + ;而「程序員」則被拆為 程序 +
  • 英文切分案例: 常見單詞如 hello 佔用 1 個 Token,但不常見的組合如 hful 則會被拆分為 h + ful
  • 特殊符號案例: 特殊符號的成本極高,例如一個「對勾符號」在底層可能需要 3 個 Token 才能完整表示。

核心換算規律: 為了精準估算模型的處理負荷與成本,請記住以下工程經驗法則:

  • 1 個 Token ≈ 0.75 個英文單詞
  • 1 個 Token ≈ 1.5 到 2 個漢字
  • 換算後果:40 萬個 Token ≈ 60 萬到 80 萬個漢字(這直接決定了你輸入資料的長度極限)。

學習過渡: 這些 Token 累積起來,不僅構成了對話,也定義了模型的「記憶空間」。

--------------------------------------------------------------------------------

4. 記憶的邊界:上下文 (Context) 與窗口 (Window)

LLM 本身並不具備生物學意義上的長效記憶。它之所以能「記得」你之前的提問,是因為後端程式在每次對話時,都會將「對話歷史」重新抓取並與當前問題一起傳送給模型。

  • Context (上下文): 模型每次處理任務時接收到的總信息量,包含:
    • 當前用戶問題 (User Prompt)
    • 對話歷史紀錄
    • 系統規則與角色設定 (System Prompt)
    • 正在生成的 Token
  • Context Window (上下文窗口): 這是模型能容納 Token 的物理上限。一旦對話總量超過窗口,模型就會被迫丟棄最早的資訊,產生「斷片」現象。

主流模型的窗口數據對比:

  • GPT 5.4:12.8 萬 Token。
  • GN 1.5 Pro / Claude Opus 4.6: 可達 100 萬 Token。

感性理解 100 萬 Token 的容量: 100 萬 Token 約等於 150 萬個漢字。這意味著你可以將整套《哈利波特》全集一次性塞進模型的上下文窗口中,它依然能精準地在整本書的範圍內回答你的問題。

學習過渡: 掌握了 Token 與窗口的邏輯,你就能理解 AI 協作的底層成本與記憶極限,從而更高效地設計你的 Prompt。

--------------------------------------------------------------------------------

5. 總結:LLM 底層運作邏輯心智圖

作為初學者,請務必內化以下三個核心底層認知,這將是你通往 AI 高階應用的基石:

  • [ ] LLM 本質是預測機: 它是一個基於矩陣運算與數學函數、不斷預測下一個 Token 的文字接龍高手。
  • [ ] Tokenizer 是轉譯核心: 所有的文字都必須經過編碼(切分與映射)才能被模型處理;而解碼則是高效的單向還原。
  • [ ] Token 是能力與成本的度量衡: Token 的數量決定了模型的計算成本,也限制了「上下文窗口」所能承載的記憶總量。

沒有留言: