北京商報(bào)訊(記者 魏蔚)12月19日,智源研究院發(fā)布并解讀國內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評(píng)測結(jié)果。本次評(píng)測依托智源研究院自2023年6月上線的大模型評(píng)測平臺(tái)FlagEval,經(jīng)過數(shù)次迭代,目前已覆蓋全球800多個(gè)開閉源模型,包含20多種任務(wù),90多個(gè)評(píng)測數(shù)據(jù)集,超200萬條評(píng)測題目。
在評(píng)測方法與工具上,智源研究院聯(lián)合全國10余家高校和機(jī)構(gòu)合作共建,探索基于AI的輔助評(píng)測模型 FlagJudge和靈活全面的多模態(tài)評(píng)測框架FlagEvalMM,并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評(píng)測集,包括與北京大學(xué)共建的HalluDial幻覺評(píng)測集、與北師大共建的CMMU多模態(tài)評(píng)測集、多語言跨模態(tài)評(píng)測集MG18、復(fù)雜代碼評(píng)測集TACO以及長視頻理解評(píng)測MLVU等,其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對(duì)話場景下的幻覺評(píng)測集,有18000多個(gè)輪次對(duì)話,和14萬多個(gè)回答。
以語言模型為例,評(píng)測重點(diǎn)考察模型中文能力,結(jié)果顯示字節(jié)跳動(dòng)Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語言模型客觀評(píng)測中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節(jié)跳動(dòng)Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。
本網(wǎng)站所有內(nèi)容屬北京商報(bào)社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報(bào)總機(jī):010-64101978 媒體合作:010-64101871
商報(bào)地址:北京市朝陽區(qū)和平里西街21號(hào) 郵編:100013 法律顧問:北京市中同律師事務(wù)所(010-82011988)
網(wǎng)上有害信息舉報(bào) 違法和不良信息舉報(bào)電話:010-84276691 舉報(bào)郵箱:bjsb@bbtnews.com.cn
ICP備案編號(hào):京ICP備08003726號(hào)-1 京公網(wǎng)安備11010502045556號(hào) 互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號(hào)