您的位置: 首頁 > 推薦

高質(zhì)量數(shù)據(jù):大模型競爭的下一站

出處:北京商報 作者:魏蔚 網(wǎng)編:王巍 2024-12-03

盡管OpenAI下一代旗艦模型的上線時間還是未知數(shù),但多方消息指向同一個可能性:性能沒那么大飛躍了。來自O(shè)penAI的員工和研究人員表示,高質(zhì)量文本和其他數(shù)據(jù)的供應不足是GPT模型性能減速的原因之一。

國內(nèi)有關(guān)數(shù)據(jù)的討論也從未降溫,僅這半個月,月之暗面創(chuàng)始人楊植麟說,“當Scale(規(guī)模)差不多時,更多算力可能并不一定能直接解決問題,核心是高質(zhì)量的數(shù)據(jù)沒那么多了”,螞蟻數(shù)科索性上線了全新的AI數(shù)據(jù)合成品與生產(chǎn)平臺。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛更直白,他要捅破窗戶紙,“大模型行業(yè)競爭,真正的競爭壁壘來自于數(shù)據(jù)”,獵豹移動則聯(lián)合旗下的聚云科技于近日推出數(shù)據(jù)服務產(chǎn)品“AI數(shù)據(jù)寶AirDS”。頂級模型成長放緩是好是壞?怎么平衡人工和機器做數(shù)據(jù)標注成本?獵豹移動高管團隊向北京商報記者開誠布公。

卡在數(shù)據(jù)上

開發(fā)過程中,OpenAI的最新模型Orion(獵戶座)未能達到預期的性能,谷歌的Gemini模型以及Anthropic的Claude3.5 Opus也都遇到了瓶頸,在業(yè)內(nèi)人士看來,三家似乎都面臨相似的問題:越來越難以獲得高質(zhì)量數(shù)據(jù)。

有關(guān)Scaling law(規(guī)模定律)是否失效的問題又一次被拋給大模型從業(yè)者。

用OpenAI一篇論文中的定義,所謂Scaling law,是指大模型的最終性能主要與計算量、模型參數(shù)量和訓練數(shù)據(jù)量三者的大小相關(guān),而與模型的具體結(jié)構(gòu)(層數(shù)/深度/寬度)基本無關(guān)。換言之,僅僅增加模型規(guī)模和訓練數(shù)據(jù),就能顯著提升人工智能能力,而無需取得根本性的算法突破。

“沒人能下這個結(jié)論,”傅盛話鋒一轉(zhuǎn),“從客觀事實看,頂級模型的能力和成長,肯定是放緩的,Scaling law不一定放緩了,但受限于數(shù)據(jù)的容量,不是說芯片和算法不重要,而是大家在這兩點上很難作出差異化。”

一種解決方案是合成數(shù)據(jù),Epoch AI Research研究團隊預測,“到2026年,現(xiàn)存的用于AI模型訓練的高質(zhì)量語言數(shù)據(jù)將耗盡”。

“未來的AI應用需要大量稀缺且難以獲取的長尾數(shù)據(jù),如自動駕駛中的極端天氣與極端路況數(shù)據(jù),具身智能訓練所需要的復雜場景數(shù)據(jù)。在此背景下,數(shù)據(jù)合成將成為關(guān)鍵”,螞蟻數(shù)科AI科技技術(shù)負責人、螞蟻天璣實驗室主任李哲持以上觀點。

“合成數(shù)據(jù)確實是一個很重要的補充,但僅僅使用合成數(shù)據(jù)肯定是不夠的”,獵戶星空首席科學家韓堃告訴北京商報記者。獵豹移動將重點放在大模型數(shù)據(jù)服務上,AI數(shù)據(jù)寶AirDS提供數(shù)據(jù)收集、清洗、標準、提示詞工程及評估等服務。

只會“拉框”遠遠不夠

以數(shù)據(jù)標注為例,“上一代數(shù)據(jù)標注趨向于常見的檢測、識別和固定化、規(guī)則化的任務,這些標注相對來說比較明確,比如依照視頻找物體,根據(jù)語音找文字。但在大模型時代,企業(yè)應用是多種多樣的”,獵豹移動高級副總裁孫明焱向北京商報記者舉例,“比如客戶希望用大模型查數(shù)據(jù)庫,希望讓大模型畫組織架構(gòu)圖,這種需求找一個標注人員來做是挺難的”。

用傅盛的話說,大模型讓數(shù)據(jù)標注和服務走向一體化,“光雇人標人臉的時代已經(jīng)適應不了現(xiàn)在的需求了。沒有做過大模型、大模型應用的企業(yè),要構(gòu)建這套體系需要時間”。

人工和機器間的平衡,也沒有特定的套路。

“數(shù)據(jù)服務肯定是需要人工的,但大模型時代會大量借鑒AI模型和工具來提高數(shù)據(jù)標注的效率,”韓堃進一步說,“如果所有的數(shù)據(jù)服務都通過人工服務,標注或清理的速度肯定跟不上,成本也非常大,但要產(chǎn)出高質(zhì)量的數(shù)據(jù),僅通過模型肯定是不夠的。我們在自己訓練模型的過程中發(fā)現(xiàn),數(shù)量和質(zhì)量的平衡點非常微妙,要通過大量實踐才能找到,一個既保證數(shù)量,質(zhì)量又非常高的點。而這個點跟企業(yè)的目標相關(guān),做預訓練、微調(diào)或者應用,對于數(shù)量和質(zhì)量的要求是不太一樣的。”

2025年應用會繁榮

除了獵豹移動,螞蟻數(shù)科也采用人機協(xié)同模式。北京商報記者了解到,在數(shù)據(jù)標注方面,螞蟻數(shù)科AIGD平臺通過人機協(xié)同進行標注,人工智能算法能夠自動識別和預處理大部分基礎(chǔ)信息,預標注模型依賴人工標注量降低了70%以上。

客戶需求決定市場,市場永遠是動態(tài)的。站在客戶的角度,“大模型標注更多是在應用層發(fā)揮大模型的能力”,獵豹移動副總裁童寧透露。

他分享了一個有關(guān)讀取PDF信息的案例,“因為合同的種類有很多種,最初客戶認為大模型讀取PDF形式合同的正確率到80%就上不去了。后來我們做了POC(概念驗證),通過一個智能體理解上下文,調(diào)整成一些更優(yōu)質(zhì)的提示詞。這個流程中,標注團隊的能力體現(xiàn)在根據(jù)場景設(shè)計一套智能體系中間的工作流,并對應成能夠輸出的高精度的提示詞”。

這些都是大模型應用落地需要解決的問題,即大模型商業(yè)化的“最后一公里”。

“獵豹移動不靠大模型掙錢,也不靠模型接口調(diào)取量掙錢,而是通過應用去賺錢,”傅盛認為,“現(xiàn)在可能沒有特別頂級的應用出來,2025年大模型應用的繁榮是可見的。”

他以O(shè)penAI為例,“最近薩姆·奧爾特曼(OpenAI CEO)接受采訪,人家問他OpenAI最缺什么,他說我們最缺產(chǎn)品。OpenAI也是把產(chǎn)品能力、應用能力加強了,最近半年內(nèi)推出的功能都是應用在做的。所以我認為,2025年應該是大模型大繁榮的一年”。

北京商報記者 魏蔚

右側(cè)廣告
新聞排行

本網(wǎng)站所有內(nèi)容屬北京商報社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報總機:010-64101978 媒體合作:010-64101871

商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務所(010-82011988)

網(wǎng)上有害信息舉報  違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn

ICP備案編號:京ICP備08003726號-1  京公網(wǎng)安備11010502045556號  互聯(lián)網(wǎng)新聞信息服務許可證11120220001號