国产Agent进入“NL2SQL全球最难榜单”前三。腾讯
?7月4日,云登据国际权威评测基准BIRD-Bench官网消息,上国刷新WhatsApp%E3%80%90+86%2015855158769%E3%80%91how%20to%20make%20a%20origami%20crane%20step%20by%20step腾讯云自研的际B佳成绩数据分析智能体TCDataAgent斩获全球第三的成绩,超越IBM、单前Meta等众多国际厂商,国内同时也是腾讯目前国内在该榜单上排名最高的排名。
?
来源:BIRD-Bench官网
?BIRD-Bench以其嚴苛性被譽為“NL2SQL全球最難榜單”。它不僅要求系統(tǒng)將自然語言問題(如“找出未通過質檢的際B佳成績訂單”)準確翻譯成SQL語句,更要求生成的單前WhatsApp%E3%80%90+86%2015855158769%E3%80%91how%20to%20make%20a%20origami%20crane%20step%20by%20stepSQL在真实、庞大且含“脏数据”的国内企业级数据库上执行结果精准且运行高效,对模型的腾讯深层语义理解和数据库真实内容感知能力提出了极高挑战。
?在這個以真實業(yè)務數(shù)據(jù)庫為基礎的云登測試中,覆蓋金融、上國刷新醫(yī)療、體育等37個行業(yè)場景,數(shù)據(jù)庫總容量達33GB,查詢問題超過1萬條。TCDataAgent在官方不公開數(shù)據(jù)集的封閉測試環(huán)境下,最終獲得了75.74分,位居全球第三, 國內第一。
?相比于傳統(tǒng)NL2SQL方案往往只能依賴有限信息“猜測”用戶意圖,易因數(shù)據(jù)結構復雜或語義模糊出錯。TCDataAgent登榜的技術創(chuàng)新來源于引入了數(shù)據(jù)庫約束驗證機制,能夠自動識別并修正SQL中潛在的結構性或語義性錯誤(如錯誤連接、冗余條件)。
?更重要的是,它緊密結合數(shù)據(jù)庫的真實內容對生成的SQL進行優(yōu)化,顯著提升了用戶意圖識別的準確率和翻譯結果的可靠性。值得一提的是,TCDataAgent還引入了后訓練(post-training)技術,通過優(yōu)先篩選并復用效果最優(yōu)的SQL樣本進行模型迭代訓練,有效提升了訓練樣本的質量和模型學習的穩(wěn)定性。
?騰訊云TCDataAgent在NL2SQL領域的技術研究成果也獲得了國際學術界的認可,相關論文已被今年的數(shù)據(jù)庫領域頂級國際會議VLDB接收。論文中的實驗表明,TCDataAgent的“數(shù)據(jù)庫內容感知”核心技術模塊,可以無縫集成到其他NL2SQL系統(tǒng)中,最高能將查詢執(zhí)行準確率提升18.3%,并在多個主流方法上實現(xiàn)了超過5%的性能提升。
?作為騰訊云新一代企業(yè)級智能分析Agent,TCDataAgent致力于讓用戶直接使用自然語言對結構化和非結構化數(shù)據(jù)進行復雜的數(shù)據(jù)查詢、報表生成和趨勢分析等任務,目前已開啟內測。
?
(責任編輯:探索)