| 創(chuàng)澤機(jī)器人 |
| CHUANGZE ROBOT |
聲網(wǎng)研究院聯(lián)合 RTE 開發(fā)者社區(qū)推出了《對(duì)話式 AI 發(fā)展白皮書》。該白皮書基于聲網(wǎng)對(duì)行業(yè)的深刻洞察和自身經(jīng)驗(yàn),從發(fā)展背景、技術(shù)模塊、產(chǎn)品方案及生態(tài)、對(duì)話體驗(yàn)質(zhì)量評(píng)估方法、應(yīng)用實(shí)踐落地等多個(gè)維度,系統(tǒng)地梳理了對(duì)話式 AI 的發(fā)展現(xiàn)狀與未來趨勢,為行業(yè)打造了一本可落地的實(shí)踐指南。
《白皮書》指出,隨著對(duì)話式 AI 技術(shù)的快速發(fā)展,VoiceAgent 是目前市場上極具代表性的產(chǎn)品形態(tài)。當(dāng)前,Voice Agent 主要有傳統(tǒng)的J聯(lián)模式(ASR+LLM+TTS) 與端到端模式兩種主流架構(gòu)。J聯(lián)模式以其高靈活度、成本優(yōu)良帶來的靈活性,仍是現(xiàn)階段大多數(shù)企業(yè)的選;而端到端模式則在高性能、快速部署方面潛力更大,代表著未來演進(jìn)方向。在聲網(wǎng)看來,成熟的生態(tài)協(xié)作已成為推動(dòng)對(duì)話式 AI 普及的關(guān)鍵。從 Deepgram、MiniMax、OpenAI 到國內(nèi)的通義千問、智譜清言、豆包等 LLM 廠商,從語音識(shí)別、語音合成到實(shí)時(shí)通信技術(shù)提供商,一個(gè)覆蓋技術(shù)鏈各環(huán)節(jié)的開放生態(tài)正在形成。
GPT-4o 的發(fā)布開創(chuàng)了 AI 實(shí)時(shí)語音交互的先河,推動(dòng)了 AI 語音交互進(jìn)入 對(duì)話延遲更低、互動(dòng)更流暢的 RTC 方案。同時(shí),在 10 月份,OpenAI 發(fā)布了與 Agora(聲網(wǎng) 兄弟公司)、Livekit、Twilio 共建的 RealtimeAPI 公開測試版,用于構(gòu)建基于 GPT-4o 語音 到語音的 AI 應(yīng)用和智能體,所有付費(fèi)的開發(fā)者都能在應(yīng)用程序中構(gòu)建低延遲、多模態(tài)的實(shí) 時(shí)互動(dòng)體驗(yàn)。
當(dāng)前對(duì)話式 AI 的應(yīng)用有兩個(gè)技術(shù)路線,分別是端到端模型方案和J聯(lián)模型方案,兩者 在性能、成本、靈活性、擴(kuò)展性以及集成部署等方面各有優(yōu)缺點(diǎn)。同時(shí),對(duì)話式 AI 的交互 體驗(yàn)伴隨著技術(shù)升J和應(yīng)用擴(kuò)展正在快速發(fā)展,對(duì)于開發(fā)者與 AI 創(chuàng)業(yè)者而言,如何選擇Z 適合自身業(yè)務(wù)的技術(shù)方案與產(chǎn)品供應(yīng)商顯得至關(guān)重要。
對(duì)此,聲網(wǎng)研究院聯(lián)合 RTE 開發(fā)者社區(qū)推出《對(duì)話式 AI 發(fā)展白皮書》,基于對(duì)行業(yè)的洞 察、調(diào)研,并結(jié)合自身的業(yè)務(wù)經(jīng)驗(yàn),從對(duì)話式 AI 發(fā)展的背景、技術(shù)方案與產(chǎn)品生態(tài)、對(duì)話 體驗(yàn)質(zhì)量評(píng)估方法、應(yīng)用實(shí)踐落地等多個(gè)維度系統(tǒng)的梳理對(duì)話式 AI 的發(fā)展現(xiàn)狀與未來的趨 勢方向,希望能為行業(yè)的從業(yè)者帶來更多的幫助。
對(duì)話式 AI 的爆發(fā)開啟了人與 AI 互動(dòng)的新紀(jì)元,硬件、教育、社交等各個(gè)領(lǐng)域的應(yīng)用場景也隨之而來加速裂變。聲網(wǎng)聯(lián)合 RTE 開發(fā)者社區(qū)發(fā)布了《2025 對(duì)話式 AI 應(yīng)用場景熱力榜單》,AI 語音助手、AI 社交與陪伴、AI 潮玩位列前三,充分說明對(duì)話式 AI 在個(gè)人助理與情感陪伴領(lǐng)域的強(qiáng)勁需求。緊隨其后的 AI 教育硬件、AI 硬件、AI 客服、口語訓(xùn)練、AI 招聘等多元場景,進(jìn)一步表明對(duì)話式 AI 技術(shù)正從消費(fèi)端向產(chǎn)業(yè)端加速滲透。
白皮書中還推薦了對(duì)話式 AI 模型評(píng)測平臺(tái),該平臺(tái)在基于聲網(wǎng)對(duì)話式 AI 引擎的基礎(chǔ)上,可以實(shí)時(shí)橫向評(píng)測J聯(lián)大模型中 ASR、LLM、TTS 的延遲數(shù)據(jù)、詞錯(cuò)誤率、字母數(shù)字性能以及價(jià)格估算等多項(xiàng)指標(biāo),并涵蓋了市場主流的模型供應(yīng)商,開發(fā)者可根據(jù)性能的數(shù)據(jù)表現(xiàn),選擇更適配自身業(yè)務(wù)的模型。

![]() |
| 機(jī)器人底盤 Disinfection Robot 消毒機(jī)器人 講解機(jī)器人 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 商用機(jī)器人 智能垃圾站 智能服務(wù)機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 展廳機(jī)器人 服務(wù)機(jī)器人底盤 具身智能教育機(jī)器人 智能配送機(jī)器人 導(dǎo)覽機(jī)器人 |