當前位置：首頁 >休閑 >RTE2024：聚焦Gen %E3%80%90WhatsApp%20+86%2015855158769%E3%80%91jump%20rope%20vs%20runningAI 时代的 RTE，声网发布 RTE+AI 能力全景图

RTE2024：聚焦Gen %E3%80%90WhatsApp%20+86%2015855158769%E3%80%91jump%20rope%20vs%20runningAI 时代的 RTE，声网发布 RTE+AI 能力全景图

發表于 2025-12-20 09:43:59 來源：呼來喝去網

10月25日，聚焦G景图由声网和 RTE 开发者社区联合主办的时代声网 RTE2024 第十届实时互联网大会在北京正式开幕，本届大会主题为“AI 爱”，发布%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91jump%20rope%20vs%20running覆盖AI、力全出海、聚焦G景图社交泛娱乐、时代声网IoT、发布Voice AI、力全空间计算等20+行业及技术分论坛。聚焦G景图

今年是时代声网声网成立的十周年，也是发布 RTE 大会的第十届。十年间，力全实时互动从“理念”发展成一个“行业”。聚焦G景图实时互动技术不仅助力社交泛娱乐、时代声网在线教育、发布IoT、企业服务等几十个行业、数百个场景实现了跨越式成长，也支撑了诸多互联网风口的进化，从过去的电商直播、互联网医疗、秀场直播到如今的大模型，都离不开 RTE 能力的参与。

在全新的生成式?AI 时代，RTE 与 AI 也将迎来更多可能性。25日上午的 RTE2024 主论坛中，声网创始人兼 CEO 赵斌、Lepton AI 创始人兼 CEO 贾扬清、声网首席科学家、%E3%80%90WhatsApp%20+86%2015855158769%E3%80%91jump%20rope%20vs%20runningCTO 钟声分别带来主题演讲。赵斌分享了声网十年以来专注实时互动行业的深刻洞察，以及他对 RTE 在生成式 AI 时代下未来发展的趋势判断。贾扬清则站在 AI 基础设施的视角下，分享了他对 AI 应用、云、和 GPU 算力云技术的独到观点。钟声的主题演讲聚焦在对实时 AI 基础设施的探讨上，并分享了 AI 与 RTE 结合的前沿技术实践。

? RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

趙斌：生成式?AI 將驅動 IT 行業四大變革

生成式?AI 正在驅動 IT 行業發生大變革，趙斌認為，這一趨勢主要體現在四個層面：終端、軟件、云和人機界面。在終端上，大模型能力將驅動 PC 和 Phone 往 AI PC 和 AI Phone 的方向進化。在軟件上，所有的軟件都可以、也將會通過大模型重新實現，并從 Software with AI 發展至 AI Native Software 。在云的層面，所有云都需要具備對大模型訓練和推理的能力，AI Native Cloud 將成為主流。此外，人機界面的主流交互方式也將從鍵盤、鼠標、觸屏變成自然語言對話界面（LUI）。?

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

隨著生成式?AI 成為下個時代 IT 行業進化的主題，RTE 也成為了多模態應用和基礎設施中一個關鍵的部分。10月初，聲網的兄弟公司 Agora 作為語音 API 合作者，出現在了OpenAI 發布的 Realtime API 公開測試版中。

在此次大會中，趙斌表示，聲網與 MiniMax?正在打磨中國第一個Realtime API。趙斌也展示了聲網基于 MiniMax Realtime API 打造的人工智能體。在演示視頻中，人與智能體輕松流暢的進行實時語音對話。當人類打斷智能體并提出新的疑問時，智能體也能夠靈敏的快速反應，實現了與人類自然流暢的對話。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

在生成式?AI 的大潮下，RTE 將會提供更為廣闊的空間。趙斌也在分享中宣布，聲網正式發布了 RTE+AI 能力全景圖。在全景圖中，聲網從實時 AI 基礎設施、RTE+AI 生態能力、聲網 AI Agent、實時多模態對話式 AI 解決方案、RTE+AI 應用場景五個維度，清晰呈現了當下 RTE 與 AI 相結合的技術能力與應用方案。生成式 AI 與RTE 結合帶來的場景創新，將成為下一個十年的主題。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

過去十年，聲網不僅見證并推動了?RTE 從一個理念變成一個行業的過程，更身體力行的打破了國內實時音視頻領域的三無狀態。趙斌稱，10年前行業內沒有行業會議、專業書籍、以及專業媒體和社區。如今，RTE 大會邁入第10年，聲網也于今年8月正式出版行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》，同時，RTE開發者社區也持續繁榮，加速推動。

贾扬清：AI 是云的第三次浪潮

隨著?AI 技術的發展，AI 時代的大模型應用開發、AI 云、以及 GPU 等基礎設施建設逐漸成為熱門話題，也成為了支撐整個行業發展、催生新應用誕生、新商業價值實現的基本底座。Lepton AI 創始人兼 CEO 賈揚清在 RTE2024 主論壇上分別從 AI 應用、云、GPU 算力云技術以及企業大模型自主性等層面帶來了他對 AI 基礎設施進化的解讀。

針對?AI 應用，賈揚清指出，越是簡潔的 AI 模型思路越容易產生優秀的效果。AI 能力加持后，應用本身的開發范式也在從數據、模型、應用構建三個維度發生變化，未來的應用開發將從“以流程為中心” 轉化為“以模型為中心”。?

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

除了?AI 應用層面，傳統的云架構也在大模型、GPU 優化等需求的催化下發生了翻天覆地的變化。賈揚清認為，AI 是云的第三次浪潮，繼 Web 云、數據云之后，AI 將成為第三朵云。AI 云有以下三個特征：算力會成為智能的基礎、AI 云需要大量計算與大規模的異構集群，以及少量但高質量的通訊。總體而言，云的產品形態，本質是計算和傳輸的平衡。賈揚清指出，在 AI 云的形態下，實時的交流和智能的結合在用戶體驗環節非常重要。毫不夸張的說，實時將直接與生產力劃上等號。

企业在构建自己的大模型自主性上，到底该如何决策？贾扬清强调，企业应该将开源和闭源大模型都纳入考虑范畴。采用开源模型+定制化的优势不仅仅是具备更强的可定制性，还有更低的成本以及更高的速度，开源+定制化能够达到比闭源模型更好的效果。

钟声：分布式端边云结合的AI系统将成为现代基础设施的基本形态

?在已經到來的?AI 時代，現代化基礎設施應該是什么樣？聲網首席科學家、CTO鐘聲提到，大量用戶設備往往會先接入邊緣節點、并在需要的時候再接入云端，數據將在端設備、邊緣節點和云之間往返傳遞。AI 時代的數據中心會包含以大量異構算力組成的超級計算集群（SuperScaler）。但是，停留在僅依賴超級計算集群的系統是遠遠不夠的，萬億參數、多模態引入所造成的高昂計算成本、缺乏機制約束的數據隱私保護、幾秒鐘的延時都將阻礙大模型的普惠，極大地限制其在很多場景下的應用。

鐘聲認為，分布式端邊云結合的?AI 系統將有效解決這些痛點。這個系統將把計算和傳輸在各節點做合理地配置，系統會智能地以自適應的方式把任務編排到端與邊上執行，非常有效地降低了成本，同時提供了更低延時（低于1秒級的響應速度）、更高網絡抖動容忍度、優秀的抗噪聲能力，并且完整的用戶數據只會保留在端上。?

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

分享过程中，钟声还在大会现场演示了一个由STT、LLM、TTS 、RTC四个模块组成的端边结合实时对话AI智能体，这也是首次有厂商在比日常实际场景更具挑战的环境下展示实时AI 对话能力。大会现场观众规模超过千人，面临复杂的噪声、回声、麦克风延迟等困难，但智能体与钟声的互动仍然表现出了优秀的对话能力，在普通5G网络环境下实现了流畅、自然、有趣的双向实时对话，对话模型的极快响应速度、及时打断与被打断的自然程度、对抗噪声能力、遵循语音指令做等待能力都非常突出。

正如钟声在最后分享的，随着端设备的多样化以及能力的提升，AI 基础设施会变得更优化合理，使得 AI 无处不在，AI助理、AI分身帮助我们有效缓解时间稀缺性，改善工作效率和生活体验。

圆桌：AI 的6000亿难题，从基础设施到商业化落地

AI 的6000亿美元难题，一直都是整个行业非常关心的话题，在圆桌讨论环节中，Lepton AI 創始人兼 CEO 賈揚清、MiniMax 合伙人魏偉、面壁智能聯合創始人＆CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯合創始人 Tony Wang?五位嘉賓一起探討了從?AI 基礎設施到 AI 商業化落地的機會與挑戰。

RTE2024：聚焦Gen AI 时代的 RTE，声网发布 RTE+AI 能力全景图

针对商用大模型和开源大模型未来的发展趋势，贾扬清分享了两个核心观点：其一，同等质量模型的Size会变得越来越小，计算效率会越来越高，模型架构也会变得更加开放和标准。其二，除了极少数头部公司之外，越来越多的企业会采用开源架构来做下一代模型。因此，开源架构的应用会变的越来越普遍，通过开源架构训练出来的模型也都会有各自不同的风格。

王鐵震則表示，我們將在未來看到越來越多?Infra 和 Realtime 的工作，大家不僅需要關注開源模型本身，還需要重視開源模型的基礎設施和數據閉環，才能把開源模型跑得更好、更快。Realtime 需要TTS、也需要大模型，如果能夠通過一些方式放在一起，放在邊緣側、離用戶更近的地方，才能產生較好的效果。

關于如何看待音視頻多模態模型的實際應用潛力，魏偉表示，隨著多模態的出現，生成式人工智能的邊界一定會被繼續拓展，并加速這一產業的變革。從產品和用戶服務過程中魏偉發現，文本、語音、音樂、視頻這些模型可以幫助藝術、影視、音樂等領域的創作者極大地提高效率，并為他們提供新的思路和方法。?

針對大模型技術巨大的成本使用問題，曾國洋分享到，隨著技術的前進，算力一定會變得越來越便宜，相同能力的模型規模也會變得越來越小，但算力成本優化會最終轉化為訓練更強大的模型。真正達到?AGI 水平之前，我們只能感受到模型在變得越來越強，很難感受到成本的變化。雷峰網(公眾號：雷峰網)了解到，由于面壁智能是做端側模型的，所以很關注如何讓模型在端上跑得更快，在實際部署過程中，他們會用各種量化壓縮甚至是稀疏化方法去優化實際部署的開銷。

總結來說，Tony Wang 認為想要推動 AI Infra 到模型、再到商業化落地，技術驅動和成本是最核心的兩個點。此外，在產品真正走向市場的過程中，流量和口碑也是關鍵。?

過去十年，聲網不僅見證并推動了?RTE 從一個理念變成一個行業的過程，更身體力行的打破了國內實時音視頻領域無行業會議、無專業書籍、無專業媒體及社區的三無狀態。自此，RTE 大會邁入第10年，行業首本系統介紹實時互動的技術型科普圖書《讀懂實時互動》于今年8月正式出版，RTE開發者社區也正在秉持著“開放、連接、共創” 的理念加速實時互動和 AI 的共生。

?未來，聲網將繼續和大家一起，站在全新的起點、擁抱繁榮且充滿挑戰的?AI + RTE 新時代。