NVIDIA 釋出 0.6B Nemotron 3.5 ASR:純 CPU 即可即時轉錄 40 種語言
分類: AI 新品報導 發布時間:
NVIDIA 近日正式推出 Nemotron 3.5 ASR(全名:Nemotron 3.5 ASR Streaming Multilingual 0.6B),這是一款僅有 6 億參數的開源串流自動語音辨識(ASR)模型。它能以單一 checkpoint 即時轉錄 40 種語言/地區變體,且支援純 CPU 運作,適合本地部署與 AI Agent 應用。

Nemotron 3.5 ASR 採用 Cache-Aware FastConformer + RNNT 架構,具備以下亮點:
- 多語言支援:單一模型涵蓋 40 種語言/地區(包含英文、西班牙文、日文、繁體中文、簡體中文等),可透過語言 ID 提示(language prompt)或自動偵測切換。
- 低延遲串流:端點延遲可低至 80ms,適合即時語音互動場景。
- 內建功能:自動加上標點符號與大寫、支援 Word Boosting(特定詞彙優先辨識)、Speaker Diarization(說話者區分)。
- 輕量高效:模型體積小,純 CPU 即可流暢運作,也能在 Apple Silicon 上良好執行。
- 開源授權:採用 OpenMDW-1.1 授權,權重已上傳至 Hugging Face(nvidia/nemotron-3.5-asr-streaming-0.6b)。
安裝與使用方式
1. 使用 NVIDIA NeMo 框架(推薦)
# 安裝 NeMo(含 ASR 相關依賴)
pip install "git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr]" 載入模型並進行轉錄:
Pythonimport nemo.collections.asr as nemo_asr
# 載入模型
asr_model = nemo_asr.models.ASRModel.from_pretrained(
model_name="nvidia/nemotron-3.5-asr-streaming-0.6b"
)
# 進行轉錄(支援串流與批次模式)
transcriptions = asr_model.transcribe(["audio.wav"])
print(transcriptions)
2. 部署為 OpenAI 相容 API 伺服器
Nemotron 3.5 ASR 可透過 NeMo 輕易包裝成 OpenAI 相容的語音轉文字端點(/v1/audio/transcriptions),方便與現有應用程式整合。
3. NVIDIA NIM(即將推出)
NVIDIA 預計透過 NIM(NVIDIA Inference Microservices) 提供更完整的部署方案,支援 gRPC 串流與多種硬體平台。
Nemotron 3.5 ASR 特別適合以下應用:
- 本地語音 AI Agent:與 Nemotron 語言模型、TTS 模型結合,打造完整本地語音互動系統。
- 即時會議記錄與字幕:低延遲串流特性適合線上會議、直播字幕。
- 多語言客服與語音助理:單一模型支援多語言,降低部署複雜度。
- 隱私優先應用:所有語音處理都在本地進行,資料不離開裝置。
- 嵌入式與邊緣裝置:體積小、CPU 友好,適合部署在筆電或邊緣設備上。
NVIDIA Nemotron 3.5 ASR 的推出,進一步降低了本地部署高品質串流語音辨識的門檻。其輕量、多語言、低延遲的特性,使其成為開發本地 AI Agent、語音助理與即時轉錄應用的強力選擇。
目前模型已可在 Hugging Face 免費下載,搭配 NeMo 框架即可快速上手。NVIDIA 也正積極推動與 LiveKit 等即時通訊框架的整合,預計後續將有更多實際應用案例出現。
官方資源:
Hugging Face 模型頁面:
https://huggingface.co/nvidia/nemotron-3.5-asr-streaming-0.6b


