10月25日,聚焦G景图由声网和 RTE 开发者社区联合主办的时代声网 RTE2024 第十届实时互联网大会在北京正式开幕,本届大会主题为“AI 爱”,发布%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91jump%20rope%20vs%20running覆盖AI、力全出海、聚焦G景图社交泛娱乐、时代声网IoT、发布Voice AI、力全空间计算等20+行业及技术分论坛。聚焦G景图 今年是时代声网声网成立的十周年,也是发布 RTE 大会的第十届。十年间,力全实时互动从“理念”发展成一个“行业”。聚焦G景图实时互动技术不仅助力社交泛娱乐、时代声网在线教育、发布IoT、企业服务等几十个行业、数百个场景实现了跨越式成长,也支撑了诸多互联网风口的进化,从过去的电商直播、互联网医疗、秀场直播到如今的大模型,都离不开 RTE 能力的参与。
在全新的生成式?AI 时代,RTE 与 AI 也将迎来更多可能性。25日上午的 RTE2024 主论坛中,声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、声网首席科学家、%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91jump%20rope%20vs%20runningCTO 钟声分别带来主题演讲。赵斌分享了声网十年以来专注实时互动行业的深刻洞察,以及他对 RTE 在生成式 AI 时代下未来发展的趋势判断。贾扬清则站在 AI 基础设施的视角下,分享了他对 AI 应用、云、和 GPU 算力云技术的独到观点。钟声的主题演讲聚焦在对实时 AI 基础设施的探讨上,并分享了 AI 与 RTE 结合的前沿技术实践。 ? 趙斌:生成式?AI 將驅動 IT 行業四大變革 生成式?AI 正在驅動 IT 行業發生大變革,趙斌認為,這一趨勢主要體現在四個層面:終端、軟件、云和人機界面。在終端上,大模型能力將驅動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上,所有的軟件都可以、也將會通過大模型重新實現,并從 Software with AI 發展至 AI Native Software 。在云的層面,所有云都需要具備對大模型訓練和推理的能力,AI Native Cloud 將成為主流。此外,人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。? 
隨著生成式?AI 成為下個時代 IT 行業進化的主題,RTE 也成為了多模態應用和基礎設施中一個關鍵的部分。10月初,聲網的兄弟公司 Agora 作為語音 API 合作者,出現在了OpenAI 發布的 Realtime API 公開測試版中。 在此次大會中,趙斌表示,聲網與 MiniMax?正在打磨中國第一個Realtime API。趙斌也展示了聲網基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中,人與智能體輕松流暢的進行實時語音對話。當人類打斷智能體并提出新的疑問時,智能體也能夠靈敏的快速反應,實現了與人類自然流暢的對話。 
在生成式?AI 的大潮下,RTE 將會提供更為廣闊的空間。趙斌也在分享中宣布,聲網正式發布了 RTE+AI 能力全景圖。在全景圖中,聲網從實時 AI 基礎設施、RTE+AI 生態能力、聲網 AI Agent、實時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度,清晰呈現了當下 RTE 與 AI 相結合的技術能力與應用方案。生成式 AI 與RTE 結合帶來的場景創新,將成為下一個十年的主題。 
過去十年,聲網不僅見證并推動了?RTE 從一個理念變成一個行業的過程,更身體力行的打破了國內實時音視頻領域的三無狀態。趙斌稱,10年前行業內沒有行業會議、專業書籍、以及專業媒體和社區。如今,RTE 大會邁入第10年,聲網也于今年8月正式出版行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》,同時,RTE開發者社區也持續繁榮,加速推動。 贾扬清:AI 是云的第三次浪潮 隨著?AI 技術的發展,AI 時代的大模型應用開發、AI 云、以及 GPU 等基礎設施建設逐漸成為熱門話題,也成為了支撐整個行業發展、催生新應用誕生、新商業價值實現的基本底座。Lepton AI 創始人兼 CEO 賈揚清在 RTE2024 主論壇上分別從 AI 應用、云、GPU 算力云技術以及企業大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。 針對?AI 應用,賈揚清指出,越是簡潔的 AI 模型思路越容易產生優秀的效果。AI 能力加持后,應用本身的開發范式也在從數據、模型、應用構建三個維度發生變化,未來的應用開發將從“以流程為中心” 轉化為“以模型為中心”。? 
除了?AI 應用層面,傳統的云架構也在大模型、GPU 優化等需求的催化下發生了翻天覆地的變化。賈揚清認為,AI 是云的第三次浪潮,繼 Web 云、數據云之后,AI 將成為第三朵云。AI 云有以下三個特征:算力會成為智能的基礎、AI 云需要大量計算與大規模的異構集群,以及少量但高質量的通訊。總體而言,云的產品形態,本質是計算和傳輸的平衡。賈揚清指出,在 AI 云的形態下,實時的交流和智能的結合在用戶體驗環節非常重要。毫不夸張的說,實時將直接與生產力劃上等號。 企业在构建自己的大模型自主性上,到底该如何决策?贾扬清强调,企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性,还有更低的成本以及更高的速度,开源+定制化能够达到比闭源模型更好的效果。 钟声:分布式端边云结合的AI系统将成为现代基础设施的基本形态 ?在已經到來的?AI 時代,現代化基礎設施應該是什么樣?聲網首席科學家、CTO鐘聲提到,大量用戶設備往往會先接入邊緣節點、并在需要的時候再接入云端,數據將在端設備、邊緣節點和云之間往返傳遞。AI 時代的數據中心會包含以大量異構算力組成的超級計算集群(SuperScaler)。但是,停留在僅依賴超級計算集群的系統是遠遠不夠的,萬億參數、多模態引入所造成的高昂計算成本、缺乏機制約束的數據隱私保護、幾秒鐘的延時都將阻礙大模型的普惠,極大地限制其在很多場景下的應用。 鐘聲認為,分布式端邊云結合的?AI 系統將有效解決這些痛點。這個系統將把計算和傳輸在各節點做合理地配置,系統會智能地以自適應的方式把任務編排到端與邊上執行,非常有效地降低了成本,同時提供了更低延時(低于1秒級的響應速度)、更高網絡抖動容忍度、優秀的抗噪聲能力,并且完整的用戶數據只會保留在端上。? 
分享过程中,钟声还在大会现场演示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体,这也是首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。大会现场观众规模超过千人,面临复杂的噪声、回声、麦克风延迟等困难,但智能体与钟声的互动仍然表现出了优秀的对话能力,在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话,对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。 正如钟声在最后分享的,随着端设备的多样化以及能力的提升,AI 基础设施会变得更优化合理,使得 AI 无处不在,AI助理、AI分身帮助我们有效缓解时间稀缺性,改善工作效率和生活体验。 圆桌:AI 的6000亿难题,从基础设施到商业化落地 AI 的6000亿美元难题,一直都是整个行业非常关心的话题,在圆桌讨论环节中,Lepton AI 創始人兼 CEO 賈揚清、MiniMax 合伙人魏偉、面壁智能聯合創始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯合創始人 Tony Wang?五位嘉賓一起探討了從?AI 基礎設施到 AI 商業化落地的機會與挑戰。 
针对商用大模型和开源大模型未来的发展趋势,贾扬清分享了两个核心观点:其一,同等质量模型的Size会变得越来越小,计算效率会越来越高,模型架构也会变得更加开放和标准。其二,除了极少数头部公司之外,越来越多的企业会采用开源架构来做下一代模型。因此,开源架构的应用会变的越来越普遍,通过开源架构训练出来的模型也都会有各自不同的风格。 王鐵震則表示,我們將在未來看到越來越多?Infra 和 Realtime 的工作,大家不僅需要關注開源模型本身,還需要重視開源模型的基礎設施和數據閉環,才能把開源模型跑得更好、更快。Realtime 需要TTS、也需要大模型,如果能夠通過一些方式放在一起,放在邊緣側、離用戶更近的地方,才能產生較好的效果。 關于如何看待音視頻多模態模型的實際應用潛力,魏偉表示,隨著多模態的出現,生成式人工智能的邊界一定會被繼續拓展,并加速這一產業的變革。從產品和用戶服務過程中魏偉發現,文本、語音、音樂、視頻這些模型可以幫助藝術、影視、音樂等領域的創作者極大地提高效率,并為他們提供新的思路和方法。? 針對大模型技術巨大的成本使用問題,曾國洋分享到,隨著技術的前進,算力一定會變得越來越便宜,相同能力的模型規模也會變得越來越小,但算力成本優化會最終轉化為訓練更強大的模型。真正達到?AGI 水平之前,我們只能感受到模型在變得越來越強,很難感受到成本的變化。雷峰網(公眾號:雷峰網)了解到,由于面壁智能是做端側模型的,所以很關注如何讓模型在端上跑得更快,在實際部署過程中,他們會用各種量化壓縮甚至是稀疏化方法去優化實際部署的開銷。 總結來說,Tony Wang 認為想要推動 AI Infra 到模型、再到商業化落地,技術驅動和成本是最核心的兩個點。此外,在產品真正走向市場的過程中,流量和口碑也是關鍵。? 過去十年,聲網不僅見證并推動了?RTE 從一個理念變成一個行業的過程,更身體力行的打破了國內實時音視頻領域無行業會議、無專業書籍、無專業媒體及社區的三無狀態。自此,RTE 大會邁入第10年,行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》于今年8月正式出版,RTE開發者社區也正在秉持著“開放、連接、共創” 的理念加速實時互動和 AI 的共生。 ?未來,聲網將繼續和大家一起,站在全新的起點、擁抱繁榮且充滿挑戰的?AI + RTE 新時代。
|