11月 19 日下午,行業(yè)大模型、具身智能、算力、芯片、數(shù)據(jù)合成等10 項首發(fā)成果在烏鎮(zhèn)峰會登臺路演, 其中 AI 數(shù)據(jù)合成與生產(chǎn)平臺AIGD(AI Generated Data)因聚焦“數(shù)據(jù)合成”獲廣泛關(guān)注。“未來的AI應(yīng)用需要大量稀缺且難以獲取的長尾數(shù)據(jù),如自動駕駛中的極端天氣與極端路況數(shù)據(jù),具身智能訓(xùn)練所需要的復(fù)雜場景數(shù)據(jù)。在此背景下,數(shù)據(jù)合成成為關(guān)鍵。”螞蟻數(shù)科AI科技技術(shù)負(fù)責(zé)人、螞蟻天璣實驗室主任李哲現(xiàn)場說道。
AI 發(fā)展正面臨著高質(zhì)量數(shù)據(jù)短缺的問題。近年來,伴隨著大模型技術(shù)的快速發(fā)展,機器學(xué)習(xí)也正從“以模型為中心”轉(zhuǎn)向“以數(shù)據(jù)為中心”,高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,提升模型的準(zhǔn)確性和穩(wěn)定性,但是“到 2026 年,現(xiàn)存的用于 AI 模型訓(xùn)練的高質(zhì)量語言數(shù)據(jù)將耗盡”,據(jù)Epoch AI Research研究團隊預(yù)測。Gartner 表示,到 2030 年,合成數(shù)據(jù)將成為 AI 模型的主要訓(xùn)練數(shù)據(jù)來源;2024 年, 60% 的 AI 數(shù)據(jù)將是合成數(shù)據(jù),被用于模擬、預(yù)測場景和降低風(fēng)險。
記者在2024年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會了解到,AIGD平臺是由螞蟻數(shù)科申報的首發(fā)成果,平臺可通過大規(guī)模合成互聯(lián)網(wǎng)所不覆蓋的高質(zhì)量、高價值垂直語料數(shù)據(jù),幫助科技廠商進(jìn)行 AI 模型訓(xùn)練。記者了解到,AIGD具備 PB 級數(shù)據(jù)生產(chǎn)能力,支持?jǐn)?shù)據(jù)從生成到訓(xùn)練全流程自動化處理,自動化率達(dá)到 80%,這極大提高了數(shù)據(jù)處理的效率和質(zhì)量。此外,平臺自研15 余種數(shù)據(jù)合成工具,目前可以合成圖片、視頻、3D模型、多模態(tài)圖文視頻對、多輪對話、語音信號、心率腦電信號、結(jié)構(gòu)化交易數(shù)據(jù)等多模態(tài)數(shù)據(jù),以滿足多種應(yīng)用場景下的 AI 模型訓(xùn)練需求。
業(yè)內(nèi)人士普遍認(rèn)為,“高質(zhì)量數(shù)據(jù)”是 AI 大模型深入到產(chǎn)業(yè)的重要基礎(chǔ),沒有好的數(shù)據(jù)做支撐,一切 AI 應(yīng)用都是空中樓閣。近日,OpenAI員工爆料說,“新模型‘沒有那么大飛躍’”,主要原因之一便是高質(zhì)量數(shù)據(jù)不足所導(dǎo)致的。今年 9 月份, OpenAI 發(fā)布推理模型o1,帶來了強化學(xué)習(xí)訓(xùn)練新范式,通過自博弈強化學(xué)習(xí),將合成數(shù)據(jù)的形式訓(xùn)練給大模型,從而大幅增加大模型邏輯推理能力。
“數(shù)據(jù)合成”是螞蟻數(shù)科 AIGD 平臺的主要功能之一,此外還包括數(shù)據(jù)標(biāo)注、質(zhì)檢等能力。在數(shù)據(jù)標(biāo)注方面,通過人機協(xié)同進(jìn)行標(biāo)注,人工智能算法能夠自動識別和預(yù)處理大部分基礎(chǔ)信息,預(yù)標(biāo)注模型依賴人工標(biāo)注量降低了 70%以上。在數(shù)據(jù)質(zhì)檢方面,平臺會根據(jù)元信息支持不同粒度的數(shù)據(jù)質(zhì)量統(tǒng)計,最大程度理解數(shù)據(jù),保證合成及標(biāo)注后的數(shù)據(jù)符合預(yù)期質(zhì)量要求。
記者注意到,螞蟻數(shù)科今年陸續(xù)迭代發(fā)布了多款 AI 產(chǎn)品,包括大模型安全評測與防御產(chǎn)品“蟻天鑒”、反深偽造產(chǎn)品 ZOLOZ Deeper 等。作為一家面向 ToB 服務(wù)的科技公司,螞蟻數(shù)科旗下主要包含“企業(yè)用云服務(wù)”“企業(yè)區(qū)塊鏈服務(wù)”“企業(yè)AI服務(wù)”三大核心業(yè)務(wù),李哲在烏鎮(zhèn)峰會上表示,“我們即將迎來 AI 服務(wù)產(chǎn)業(yè)的黃金年代,螞蟻數(shù)科將會堅定在 AI ToB 領(lǐng)域投入,讓 AI 深入千行百業(yè)。”
本網(wǎng)站所有內(nèi)容屬北京商報社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報總機:010-64101978 媒體合作:010-64101871
商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務(wù)所(010-82011988)
網(wǎng)上有害信息舉報 違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn
ICP備案編號:京ICP備08003726號-1 京公網(wǎng)安備11010502045556號 互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號