語音大腦崛起：邁向讓機器聽懂你、用聲音回應你的時代

最近參加 Twinkle AI 舉辦的 Podcast，很有收穫就寫了下心得分享給沒聽到的大家，以下文章也同步發布在 AILogora，有興趣可以去那邊討論。

Posted Oct 20, 2025 Updated Oct 20, 2025

By ChiChieh Huang

19 min read

語音大腦崛起：邁向讓機器聽懂你、用聲音回應你的時代

最近參加 Twinkle AI 舉辦的 Podcast，很有收穫就寫了下心得分享給沒聽到的大家，以下文章也同步發布在 AILogora ，有興趣可以去那邊討論。

內容心得

本次訪談由主持人黃亮勳邀請 Ethan，深入探討語音模態的世界，特別是在 Vibe Voice 等模仿聲音的技術興起之後，機器如何真正實現「聽懂」並「回應」人類的聲音。Ethan講師擁有數學和統計學背景，曾擔任 9 年高中數學老師，並於 2023 年轉職成為 AI 工程師，現專注於 LLM 的相關應用。

I. 傳統語音流程的限制與 STS 模型的崛起

當我們聊到AI 語音對話的時候，很多人腦中浮現的畫面，可能是 Siri、Google 助理、或 ChatGPT 開口說話的樣子，但其實這些「會講話的 AI」其實大多都不是「端到端」的語音模型。

傳統的 AI 語音系統流程通常包含三個主要階段：

ASR (Automatic Speech Recognition，語音辨識)： 將語音轉換成文字。
LLM (大型語言模型)： 理解文字語意並生成文字回應。
TTS (Text-to-Speech，語音合成)： 將文字轉換成合成語音輸出。

然而，這種轉換流程會 忽略掉聲音中帶有的情緒、音色、節奏和語氣等重要資訊 。

想像你說一句：「你現在是認真的嗎?」這句的語氣可能是驚訝、懷疑、或生氣，這些細節都藏在聲音裡，傳統的語音系統只看到「你現在是認真的嗎」這幾個字，完全聽不出你可能其實是在翻白眼XD

為了解決這個問題，一種新型態的語音模型在去年開始興起，即 Speech-to-Speech (STS) Model 。

它的思維很簡單，就是 不要再經過文字這一關，語音直接對到語音。

這代表 STS 模型會有幾個的關鍵特徵 ：

模型能直接理解聲音的內容與情緒。
回覆也能帶著自然的語氣與節奏。
對話可以被打斷，就像真實聊天一樣自然。

在這個模式下，AI 不只是聽懂你說什麼，更能聽出你怎麼說的。

II. 核心技術：Token Base 的概念與優勢

問題是在以往聲音是連續的波形訊號，資料量大得可怕，以常見的 24kHz 為例，意思是電腦每秒鐘會量 24,000 次這條聲音波形的高度，也就是「取樣率」是每秒 24,000 筆資料，所以如果這段錄音有 10 秒，那就會有 24,000 × 10 = 240,000 筆資料 。

這麼龐大的資料如果直接丟進 Transformer 模型，計算量會像滾雪球一樣爆炸成平方級成長，近期研究者想到的妙招是，把連續的聲音 轉換成離散的符號，也就是 Speech Tokens ，這些 token 保留了音色、語氣等特徵，使模型能以 Transformer 架構進行訓練。

這個過程大致分為三個步驟：

語音編碼 (Speech Encoding)：
使用特製的編碼器 (如 SoundStream、EnCodec 等) 將連續音訊壓縮成一組固定長度的向量。這些向量會保留音色、節奏等關鍵訊息，但資料量大幅縮小。
特徵蒸餾 (Feature Distillation)：
編碼器通常透過從大型聲音模型 (如 WavLM、HuBERT) 中「蒸餾」學習，讓模型在壓縮訊號的同時仍能保留語音的語意與情感特徵。
Token 化 (Discretization)：
壓縮後的聲音片段被映射成一組離散 tokens，每個 token 代表一段特定的語音特徵，這使得語音資料可以被視為「聲音的語言」，從而能以類似文字 LLM 的方式進行訓練與生成。

如此一來就能將原本每秒 24,000 筆的訊號，壓縮成大約每秒 12.5 個 Token，這讓 STS 模型不只更輕量，也能以「文字模型的思維」學習聲音。

這種聲音 Token 化的方式帶來多項明顯優勢：

計算效率更高： 以 Moshi 模型為例，原本每秒 24,000 筆的語音訊號可以壓縮到每秒 12.5 筆，大幅降低了推理成本。
可被 Transformer 理解： 聲音被 Token 化後，可以被 Transformer 結構 (類似於訓練文字 LLM 的方式) 去理解和學習。
保留原始特徵： 能夠擷取並保留原本的音色、情緒和節奏。
低延遲 (Low Latency)： 延遲可低至 200 毫秒以下，使得使用者在體感上幾乎感受不到機器的思考停頓，實現自然的互動。

III. 代表性模型與架構

STS 模型雖然概念明確，但在實作上仍屬前沿研究，近兩年，數個關鍵模型逐漸奠定了這一領域的技術格局，不過現在商用 LLM 來說，還沒有原生的 STS 模型，Ethan 提到幾個著名的 STS 模型：

Moshi ：由法國 kyutai labs 提出
LFM2audio ：Liquid AI 提出，10/1 日剛推出 LFM2-Audio-1.5B，有興趣可以看以下觀點卡

而在 STS 模型中，編碼器被視為整個模型的耳朵跟嘴巴，Ethan 也介紹了幾個 代表性編碼器：

MIMI ：由法國 kyutai labs 在 2024 年開發，專門針對即時語音互動設計，許多最新的 STS 模型仍沿用此編碼器。
SoundStream (Google, 2021)： 利用殘差向量量化方式壓縮聲音。
Encodec (Meta, 2022)： 在音樂生成方面具有優勢。

詳細 STS 模型與編碼器可以參考下面的觀點卡：

VI. STS 模型的推論過程

滿多人好奇 STS 模型的推論過程是怎樣，主持人也很貼心幫我們問到，Ethan 以 Moshi 例子來說明，主要會分成 4 個步驟：

語音輸入： 使用者的語音經由 MIMI 編碼器 編碼，產生 Speech Token 。
LLM 處理： Speech Token 被送入一個客製化的 LLM ( 例如 Moshi 使用的 Helium 模型)。這個 LLM 與一般 LLM 的不同之處在於它能接收和吐出 Speech Token。
生成輸出： LLM 理解語意和上下文後，會生成兩種 Token， 語意 Token 和 聲學 Token 。
語音輸出： 聲學 Token 再送到 MIMI 解碼器 ，轉換成真實的語音波形。

V. STS 模型的訓練過程

STS 模型的訓練與文字模態類似，也經過 Pre-training 和 Supervised Fine-Tuning (SFT) 兩階段，並在結構上採用「聲學 Token 與語意 Token 結合」的多模態設計。

1. Pre-training：語音理解與模態對齊

在預訓練階段，模型需要學會「理解聲音」並建立與文字的對應關係，這通常包含兩部分：

語音自監督學習 (Speech Encoder)： 使用大量未標記的語音資料，讓模型學習聲音中的語音內容、節奏、音色與語調等特徵。
語音與文字對齊(Speech-Text Alignment)： 利用語音與文字配對資料，將語音表示投影到與語言模型相容的語義空間，透過對比損失或跨模態匹配訓練，使語音特徵與文字 embedding 能互相對應。

這個階段的目的是讓模型能「聽懂語音」並與語言模態建立共享語義基礎。

2. SFT (Supervised Fine-Tuning)：對話與情境適應

在微調階段，模型會以 雙人或多人的語音對話資料 進行監督訓練，使其學習更自然的互動與語音行為：

對話能力訓練： 學習語音輪替、回應策略、上下文理解。
打斷學習： 資料中包含插話或打斷標記，讓模型學會在語音被中斷時停止生成、切換話題或快速回應。
音色與情緒表達： 若資料中帶有情緒或音色標記，模型可學習在生成階段控制語氣與聲調，使對話更具表現力。

這一階段主要讓模型從「能理解語音」進一步進化為「能對話與互動」。

3. Token 對齊與融合機制

在模型結構中，STS 通常採用與 VLM (Vision-Language Model) 類似的多模態融合策略：

聲學 Token (Acoustic Tokens) 由語音編碼器產生，承載聲音的節奏、音色與語氣資訊。
語意 Token (Semantic Tokens) 由語言模型產生，負責理解與生成語義內容。
融合方式： 聲學 Token 通常作為前綴 (prefix) 輸入，並透過 cross-attention 或 adapter 層與語言 token 互動，而非單純拼接，如此能平衡不同模態間的資訊權重，降低長序列造成的干擾。

這樣的設計使模型能同時保留語音中的情感表現，又能維持語言層級的邏輯與語意連貫性。

VI. 打斷機制

大家都滿好奇打斷功能是如何實現了，主持人一樣很貼心幫我們問到。打斷功能是在 SFT 雙人對話訓練 中實現的，當對話中的 B 方說話時，新的聲學 Token 會不斷輸入。在 Transformer 中，基於長度限制， 新的 Token 會把舊的 Token 排擠掉 ，迫使模型去理解 B 方新說的內容，並準備回覆，這種機制有人也稱為 inner monologue 。

VII. 資料集收集的優勢

相較於收集文字或圖片描述的資料集，STS 模型的 SFT 資料集收集相對容易。只需要錄製對話的語音檔案，再進行整理即可。這不僅能保留對話的知識內容，還能將說話者的音色訓練進去。然而，訓練時對語音資料的品質有要求，需要考慮 清晰度 以及 發音咬字的標準程度 。

VIII. 繁體中文的技術挑戰

目前主流的 STS 模型 (如前述的 Moshi, LFM2audio) 多由外國實驗室開發，僅支援英文和法文，並沒有原生支援中文，因此若要應用在繁體中文，Ethan 提出兩個方法：

方法一 (高成本)： 為中文量身打造新的 Speech Encoder，重新定義中文語音的離散 Token，優點是效果最佳、語音保真度高；缺點是成本極高，需要龐大的中文語音語料與算力資源。
方法二(較經濟)： 使用原有的編碼器擷取聲音的聲學特徵 (音色、語調、速度)，再與對中文有一定掌握能力的 LLM (如 Gemini) 整合，相當於為中文 LLM 「加裝耳朵與嘴巴」， 在成本與可行性之間取得折衷

IX. 挑戰、應用與倫理議題

1. 幻覺問題

STS 模型的幻覺問題主要源自於 模型 Size 的限制 。為了達到低延遲的要求，STS 模型使用的 LLM 尺寸通常較小 (如 1.X B 或 3B，7B 就算大)，這限制了模型本身的能力，例如在進行數學運算時可能會算錯。如果 SFT 訓練過於集中，也可能出現 overfit 情況，導致模型在特定情境下一字不漏地重複訓練過的語句。

2. 情緒辨識

同一句話若使用不同情緒去問，會產生不同的聲學 Token ，而語意 Token 則相似。這證實了模型是利用離散 Token 來辨識情緒感受的。不過，對於複雜的語氣如 反諷或挖苦 ，僅靠聲音較難完全抓取，通常需要搭配語意一起理解。

特定族群服務： Moshi 實際應用於為 視障者 提供全語音操作服務。
情緒辨識應用： 由於能辨識語氣，未來可能應用在長照或醫療領域，偵測使用者的焦慮、悲傷等感受。
多模態發展： 在 Token 的世界中，語音技術可以融合視覺模態。例如，將影像也轉換成 Token，讓 Transformer 同時學習語音和影像，雖然實際效果和應用場景仍在發展中。

3. 倫理與資安挑戰

最後有觀眾問到資安方面的議題，Ethan 也分享幾個方向要注意：

聲音複製與濫用： 複製音色變得非常容易，模型可以直接模仿說話者的聲音與不同人對話，未來詐騙防治會是一大問題。
版權與隱私： 像文字和影像一樣，使用真人聲音進行模型訓練，會存在數據未經同意被使用的問題。

聽完這場分享，能感受到 STS 技術帶來的 AI 的新紀元，雖然在中文支援、複雜情感理解和倫理規範方面仍有待發展，但其應用潛力，特別是在提升人機互動自然度及服務特定族群方面，非常令人期待!

Follow me on Medium

ai speech-to-speech genai 中文 ailogora

This post is licensed under CC BY 4.0 by the author.