Google Gemini 3.5 Flash 整合電腦操作功能,簡化跨平台 AI Agent 開發
分類: AI 新品報導 發布時間:
Google 將「Computer Use」功能原生整合至 Gemini 3.5 Flash 單一模型即可打造跨平台 AI Agent
Google 近日宣布,將「Computer Use」(電腦使用)功能直接整合進 Gemini 3.5 Flash 模型中,讓開發者無需額外呼叫獨立模型,即可建立能操作瀏覽器、手機應用程式及桌面環境的 AI Agent。這項更新被視為 Google 在 Agentic AI 領域的重要進展。
Gemini 3.5 Flash 的 Computer Use 功能支援以下操作:
- 點擊、輸入文字、捲動畫面
- 填寫表單與多步驟工作流程
- 跨平台操作(瀏覽器、手機 App、桌面作業系統)
由於 Computer Use 涉及直接操作使用者介面,存在潛在的安全風險(例如提示注入攻擊)。Google 同步推出兩項企業安全機制:
- 提示注入偵測(Prompt Injection Detection):能即時辨識並阻擋惡意指令。
- 額外企業控管機制:包含更嚴格的權限管理與行為監控,特別針對企業環境設計。
開發者目前可透過以下方式立即試用:
- Gemini API:直接在 API 中啟用 Computer Use 工具。
- Gemini AI Studio 與示範環境:提供互動式測試介面。
- Gemini Enterprise Agent Platform:企業用戶可透過此平台進行部署與管理。
「Computer Use」能力是目前 Agentic AI 的熱門發展方向。此前 Anthropic 的 Claude 與 OpenAI 的 GPT 系列都已推出類似功能,讓 AI 能直接操作電腦介面。Google 將此功能原生整合進 Gemini 3.5 Flash,代表其在速度與易用性上做出差異化。
這項更新有助於加速企業自動化應用,例如:
- 自動化客服流程
- 跨系統資料處理
- 軟體測試與維運自動化
Google 將 Computer Use 功能原生整合至 Gemini 3.5 Flash,不僅提升了模型的實用性,也讓開發者能更快速地建構具備真實環境操作能力的 AI Agent。搭配企業級安全機制,這項更新有望加速 Agentic AI 在商業環境中的落地應用。


