DoNews9月4日消息,8月27日,由機(jī)械工業(yè)出版社出版,聲網(wǎng)研究院組編的實(shí)時(shí)互動(dòng)行業(yè)書籍《讀懂實(shí)時(shí)互動(dòng)》正式上架發(fā)售。
全書詳細(xì)介紹了實(shí)時(shí)互動(dòng)發(fā)展的過去、現(xiàn)在與未來,涵蓋實(shí)時(shí)互動(dòng)的發(fā)展歷程、概念解析、技術(shù)原理、應(yīng)用場(chǎng)景、大數(shù)據(jù)觀察等。

所謂的實(shí)時(shí)互動(dòng)(RTE),是指在遠(yuǎn)程條件下讓溝通互動(dòng)雙方能夠?qū)崟r(shí)、真實(shí)地還原線下互動(dòng)的場(chǎng)景和信息傳遞體驗(yàn)。
實(shí)時(shí)互動(dòng)作為一種未來數(shù)字生活的基礎(chǔ)設(shè)施,已經(jīng)全面深入人們的社交、娛樂、工作、購(gòu)物等方方面面,在當(dāng)下的 AIGC 熱潮中,實(shí)時(shí)互動(dòng)也在扮演重要角色。
然而當(dāng)下行業(yè)還沒有一本書系統(tǒng)全面的去介紹這項(xiàng)新興技術(shù),很多人也不知道RTC(實(shí)時(shí)音視頻)與 RTE(實(shí)時(shí)互動(dòng))的關(guān)系與區(qū)別。
對(duì)此,聲網(wǎng)在成立10周年之際推出了這本書,從多個(gè)維度對(duì)實(shí)時(shí)互動(dòng)展開全面系統(tǒng)性講解。
據(jù)悉,本書獲得了五源資本創(chuàng)始合伙人劉芹、Granite Asia高級(jí)管理合伙人符績(jī)勛、CSDN創(chuàng)始人兼董事長(zhǎng)蔣濤、36氪創(chuàng)始人兼董事長(zhǎng)劉成城、清華大學(xué)教授李東紅、北京大學(xué)教授馬思偉、西北工業(yè)大學(xué)教授謝磊、IDC中國(guó)副總裁兼首席分析師武連峰等業(yè)界和學(xué)術(shù)界的聯(lián)合力薦。

本書還準(zhǔn)備了豐富且實(shí)用的配套資源,包括與實(shí)時(shí)互動(dòng)相關(guān)的圖表、圖譜、行業(yè)發(fā)展報(bào)告和白皮書等電子文檔供下載,能夠幫助讀者更好的理解和運(yùn)用。
借著新書上架的機(jī)會(huì),DoNews也就AIGC與RTE結(jié)合等熱點(diǎn)問題專門采訪了本書的編者聲網(wǎng)研究院。
聲網(wǎng)研究院認(rèn)為,當(dāng)下人工智能技術(shù)和大模型產(chǎn)業(yè)的飛速發(fā)展,進(jìn)一步拓展了實(shí)時(shí)互動(dòng)的技術(shù)邊界與場(chǎng)景邊界,從過去的人人交互到當(dāng)下的人機(jī)交互。
一方面,AIGC與RTE的結(jié)合,將為人與AI的交互帶來全新的改變,從普通的文本互動(dòng)升級(jí)為更加低延時(shí)的音頻、視頻互動(dòng),讓人與AI的交流更加自然、流暢。
另一方面,在RTE的加持下,AIGC 應(yīng)用場(chǎng)景也將迎來爆發(fā),RTC 技術(shù)的接入將推動(dòng)當(dāng)下較常見的 AI口語老師、AI客服、AI社交陪聊等場(chǎng)景的 AI 交互體驗(yàn)進(jìn)一步升級(jí),學(xué)生的學(xué)習(xí)效率更高,社交陪聊場(chǎng)景的娛樂性與沉浸感也進(jìn)一步增強(qiáng)。
同時(shí),在游戲社交、AI分身、實(shí)時(shí)語音翻譯等場(chǎng)景,對(duì)話式多模態(tài)大模型也大有可為。
例如,在《狼人殺》、《誰是臥底》等社交游戲場(chǎng)景,AI NPC 角色雖然已經(jīng)在應(yīng)用,但是 AI 的痕跡還是較為明顯。
在大模型具備實(shí)時(shí)語音交互能力后,《誰是臥底》中的 AI 角色可以做到快速的推理并發(fā)言,再搭配語音仿真技術(shù),有望做到 AI 角色的以假亂真。

在實(shí)時(shí)互動(dòng)中,不同的應(yīng)用場(chǎng)景的技術(shù)難點(diǎn)會(huì)有所不同,在《讀懂實(shí)時(shí)互動(dòng)》中聲網(wǎng)也對(duì)不同應(yīng)用場(chǎng)景如何解決卡頓率、延遲、畫質(zhì)這些技術(shù)難點(diǎn)進(jìn)行了介紹。
例如,在1v1視頻通話、賽事直播等場(chǎng)景中,用戶對(duì)音視頻卡頓率的容忍度很低,聲網(wǎng)通過引入 ABR 自適應(yīng)碼率能力,實(shí)現(xiàn)了觀眾端碼率多級(jí)、無縫、自適應(yīng)平滑切換,從而保證了低延遲的基礎(chǔ)上,為用戶提供0卡頓、流暢的視頻通話體驗(yàn)。
而在游戲語音等場(chǎng)景,聲網(wǎng)利用最前沿的技術(shù)來改進(jìn)語音通話體驗(yàn)。通過推出基于機(jī)器學(xué)習(xí)的語音編解碼器“聲網(wǎng) Silver”,聲網(wǎng)能夠在超低碼率下提供32KHz采樣率的超寬帶編碼音質(zhì)。
聲網(wǎng) Silver通過AI降噪算法進(jìn)一步優(yōu)化音質(zhì)與語音自然聽感,解決了在弱網(wǎng)環(huán)境下語音卡頓的問題。
這種技術(shù)在超低碼率下保持了語音的可懂度,同時(shí)盡量保持了音色等其他信息,從而在保證通話質(zhì)量的同時(shí),也適應(yīng)了不穩(wěn)定網(wǎng)絡(luò)環(huán)境下的通話需求?。
此外,《讀懂實(shí)時(shí)互動(dòng)》書中數(shù)據(jù)顯示,印度、中東、南美等區(qū)域RTC用戶使用低端機(jī)占比較高,針對(duì)這些硬件配置低的低端機(jī),聲網(wǎng)也專門進(jìn)行了技術(shù)優(yōu)化。

據(jù)介紹,以海外最常見的秀場(chǎng)直播為例,在主播開播后,聲網(wǎng)會(huì)通過機(jī)型設(shè)備性能打分、視頻大小流等機(jī)制為主播自動(dòng)調(diào)整視頻分辨率,讓高端設(shè)備用戶享受到1080P極致高清,中低端設(shè)備用戶也能實(shí)現(xiàn)720P高清直播。
在使用推薦的視頻分辨率設(shè)置后,若依然有部分觀眾反映視頻卡頓,可通過視頻大小流機(jī)制對(duì)視頻分辨率進(jìn)一步降級(jí)。
視頻卡頓的觀眾設(shè)置訂閱主播的視頻小流,主播通過開啟視頻雙流模式并設(shè)置視頻小流的視頻分辨率等屬性,以提供一路分辨率、幀率、碼率較低的視頻流給條件較差的觀眾觀看。
而這部分的內(nèi)容擴(kuò)展,你同樣可以在《讀懂實(shí)時(shí)互動(dòng)》這本書中的第四、第五章中找到。
聲網(wǎng)研究院向DoNews介紹,作為全球?qū)崟r(shí)互動(dòng)云行業(yè)的開創(chuàng)者,聲網(wǎng)一直致力于通過高質(zhì)量的實(shí)時(shí)音視頻技術(shù)服務(wù),全面提升人們的實(shí)時(shí)互動(dòng)體驗(yàn)。
希望讀者通過閱讀本書,能夠深入的讀懂實(shí)時(shí)互動(dòng),并掌握實(shí)時(shí)互動(dòng)相關(guān)的知識(shí),推動(dòng)更多的人群加入到這個(gè)行業(yè)中來,一起推動(dòng)行業(yè)的進(jìn)步。
目前,《讀懂實(shí)時(shí)互動(dòng)》已登陸京東、當(dāng)當(dāng)?shù)雀鞔箅娚唐脚_(tái)及實(shí)體書店。