国产隔着超薄丝袜进入在线,欧美韩国人成网站中文字幕

您的位置：首頁 > 推薦

高質(zhì)量數(shù)據(jù)：大模型競爭的下一站

出處：北京商報作者：魏蔚網(wǎng)編：王巍 2024-12-03

大中小
收藏
分享
打印
手機網(wǎng)頁版

X 分享到微信朋友圈

打開微信，點擊底部的“發(fā)現(xiàn)”，

使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

盡管OpenAI下一代旗艦模型的上線時間還是未知數(shù)，但多方消息指向同一個可能性：性能沒那么大飛躍了。來自O(shè)penAI的員工和研究人員表示，高質(zhì)量文本和其他數(shù)據(jù)的供應不足是GPT模型性能減速的原因之一。

國內(nèi)有關(guān)數(shù)據(jù)的討論也從未降溫，僅這半個月，月之暗面創(chuàng)始人楊植麟說，“當Scale（規(guī)模）差不多時，更多算力可能并不一定能直接解決問題，核心是高質(zhì)量的數(shù)據(jù)沒那么多了”，螞蟻數(shù)科索性上線了全新的AI數(shù)據(jù)合成品與生產(chǎn)平臺。

獵豹移動董事長兼CEO、獵戶星空董事長傅盛更直白，他要捅破窗戶紙，“大模型行業(yè)競爭，真正的競爭壁壘來自于數(shù)據(jù)”，獵豹移動則聯(lián)合旗下的聚云科技于近日推出數(shù)據(jù)服務產(chǎn)品“AI數(shù)據(jù)寶AirDS”。頂級模型成長放緩是好是壞？怎么平衡人工和機器做數(shù)據(jù)標注成本？獵豹移動高管團隊向北京商報記者開誠布公。

卡在數(shù)據(jù)上

開發(fā)過程中，OpenAI的最新模型Orion（獵戶座）未能達到預期的性能，谷歌的Gemini模型以及Anthropic的Claude3.5 Opus也都遇到了瓶頸，在業(yè)內(nèi)人士看來，三家似乎都面臨相似的問題：越來越難以獲得高質(zhì)量數(shù)據(jù)。

有關(guān)Scaling law（規(guī)模定律）是否失效的問題又一次被拋給大模型從業(yè)者。

用OpenAI一篇論文中的定義，所謂Scaling law,是指大模型的最終性能主要與計算量、模型參數(shù)量和訓練數(shù)據(jù)量三者的大小相關(guān)，而與模型的具體結(jié)構(gòu)（層數(shù)/深度/寬度）基本無關(guān)。換言之，僅僅增加模型規(guī)模和訓練數(shù)據(jù)，就能顯著提升人工智能能力，而無需取得根本性的算法突破。

“沒人能下這個結(jié)論，”傅盛話鋒一轉(zhuǎn)，“從客觀事實看，頂級模型的能力和成長，肯定是放緩的，Scaling law不一定放緩了，但受限于數(shù)據(jù)的容量，不是說芯片和算法不重要，而是大家在這兩點上很難作出差異化。”

一種解決方案是合成數(shù)據(jù)，Epoch AI Research研究團隊預測，“到2026年，現(xiàn)存的用于AI模型訓練的高質(zhì)量語言數(shù)據(jù)將耗盡”。

“未來的AI應用需要大量稀缺且難以獲取的長尾數(shù)據(jù)，如自動駕駛中的極端天氣與極端路況數(shù)據(jù)，具身智能訓練所需要的復雜場景數(shù)據(jù)。在此背景下，數(shù)據(jù)合成將成為關(guān)鍵”，螞蟻數(shù)科AI科技技術(shù)負責人、螞蟻天璣實驗室主任李哲持以上觀點。

“合成數(shù)據(jù)確實是一個很重要的補充，但僅僅使用合成數(shù)據(jù)肯定是不夠的”，獵戶星空首席科學家韓堃告訴北京商報記者。獵豹移動將重點放在大模型數(shù)據(jù)服務上，AI數(shù)據(jù)寶AirDS提供數(shù)據(jù)收集、清洗、標準、提示詞工程及評估等服務。

只會“拉框”遠遠不夠

以數(shù)據(jù)標注為例，“上一代數(shù)據(jù)標注趨向于常見的檢測、識別和固定化、規(guī)則化的任務，這些標注相對來說比較明確，比如依照視頻找物體，根據(jù)語音找文字。但在大模型時代，企業(yè)應用是多種多樣的”，獵豹移動高級副總裁孫明焱向北京商報記者舉例，“比如客戶希望用大模型查數(shù)據(jù)庫，希望讓大模型畫組織架構(gòu)圖，這種需求找一個標注人員來做是挺難的”。

用傅盛的話說，大模型讓數(shù)據(jù)標注和服務走向一體化，“光雇人標人臉的時代已經(jīng)適應不了現(xiàn)在的需求了。沒有做過大模型、大模型應用的企業(yè)，要構(gòu)建這套體系需要時間”。

人工和機器間的平衡，也沒有特定的套路。

“數(shù)據(jù)服務肯定是需要人工的，但大模型時代會大量借鑒AI模型和工具來提高數(shù)據(jù)標注的效率,”韓堃進一步說，“如果所有的數(shù)據(jù)服務都通過人工服務，標注或清理的速度肯定跟不上，成本也非常大，但要產(chǎn)出高質(zhì)量的數(shù)據(jù)，僅通過模型肯定是不夠的。我們在自己訓練模型的過程中發(fā)現(xiàn)，數(shù)量和質(zhì)量的平衡點非常微妙，要通過大量實踐才能找到，一個既保證數(shù)量，質(zhì)量又非常高的點。而這個點跟企業(yè)的目標相關(guān)，做預訓練、微調(diào)或者應用，對于數(shù)量和質(zhì)量的要求是不太一樣的。”

2025年應用會繁榮

除了獵豹移動，螞蟻數(shù)科也采用人機協(xié)同模式。北京商報記者了解到，在數(shù)據(jù)標注方面，螞蟻數(shù)科AIGD平臺通過人機協(xié)同進行標注，人工智能算法能夠自動識別和預處理大部分基礎(chǔ)信息，預標注模型依賴人工標注量降低了70%以上。

客戶需求決定市場，市場永遠是動態(tài)的。站在客戶的角度，“大模型標注更多是在應用層發(fā)揮大模型的能力”，獵豹移動副總裁童寧透露。

他分享了一個有關(guān)讀取PDF信息的案例，“因為合同的種類有很多種，最初客戶認為大模型讀取PDF形式合同的正確率到80%就上不去了。后來我們做了POC（概念驗證），通過一個智能體理解上下文，調(diào)整成一些更優(yōu)質(zhì)的提示詞。這個流程中，標注團隊的能力體現(xiàn)在根據(jù)場景設(shè)計一套智能體系中間的工作流，并對應成能夠輸出的高精度的提示詞”。

這些都是大模型應用落地需要解決的問題，即大模型商業(yè)化的“最后一公里”。

“獵豹移動不靠大模型掙錢，也不靠模型接口調(diào)取量掙錢，而是通過應用去賺錢，”傅盛認為，“現(xiàn)在可能沒有特別頂級的應用出來，2025年大模型應用的繁榮是可見的。”

他以O(shè)penAI為例，“最近薩姆·奧爾特曼（OpenAI CEO）接受采訪，人家問他OpenAI最缺什么，他說我們最缺產(chǎn)品。OpenAI也是把產(chǎn)品能力、應用能力加強了，最近半年內(nèi)推出的功能都是應用在做的。所以我認為，2025年應該是大模型大繁榮的一年”。

北京商報記者魏蔚

深藍智庫企業(yè)社會責任峰會智慧康養(yǎng)論壇十大商業(yè)品牌商業(yè)高峰論壇金融業(yè)十大品牌酒業(yè)價值榜餐飲十大品牌

@北京商報

新聞排行