亚洲欧美日韩国产综合久,久久综合九色综合色鬼狠狠色,欧洲熟妇色XXXX欧美老妇软件

您的位置：首頁 > 科技頻道

智源公布FlagEval“百?！痹u(píng)測結(jié)果

出處：北京商報(bào) 作者：魏蔚網(wǎng)編：陶鳳 2024-12-19

大中小
收藏
分享
打印
手機(jī)網(wǎng)頁版

X 分享到微信朋友圈

打開微信，點(diǎn)擊底部的“發(fā)現(xiàn)”，

使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

北京商報(bào)訊（記者魏蔚）12月19日，智源研究院發(fā)布并解讀國內(nèi)外100余個(gè)開源和商業(yè)閉源的語言、視覺語言、文生圖、文生視頻、語音語言大模型綜合及專項(xiàng)評(píng)測結(jié)果。本次評(píng)測依托智源研究院自2023年6月上線的大模型評(píng)測平臺(tái)FlagEval，經(jīng)過數(shù)次迭代，目前已覆蓋全球800多個(gè)開閉源模型，包含20多種任務(wù)，90多個(gè)評(píng)測數(shù)據(jù)集，超200萬條評(píng)測題目。

在評(píng)測方法與工具上，智源研究院聯(lián)合全國10余家高校和機(jī)構(gòu)合作共建，探索基于AI的輔助評(píng)測模型 FlagJudge和靈活全面的多模態(tài)評(píng)測框架FlagEvalMM，并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評(píng)測集，包括與北京大學(xué)共建的HalluDial幻覺評(píng)測集、與北師大共建的CMMU多模態(tài)評(píng)測集、多語言跨模態(tài)評(píng)測集MG18、復(fù)雜代碼評(píng)測集TACO以及長視頻理解評(píng)測MLVU等，其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對(duì)話場景下的幻覺評(píng)測集，有18000多個(gè)輪次對(duì)話，和14萬多個(gè)回答。

以語言模型為例，評(píng)測重點(diǎn)考察模型中文能力，結(jié)果顯示字節(jié)跳動(dòng)Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五；在語言模型客觀評(píng)測中，OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二，阿里巴巴Qwen-max-0919、字節(jié)跳動(dòng)Doubao-pro-32k-preview位居第三、第四，Meta Llama-3.3-70B-Instruct排名前五。

深藍(lán)智庫企業(yè)社會(huì)責(zé)任峰會(huì) 智慧康養(yǎng)論壇十大商業(yè)品牌商業(yè)高峰論壇金融業(yè)十大品牌酒業(yè)價(jià)值榜餐飲十大品牌

@北京商報(bào)

新聞排行

智源公布FlagEval“百?！痹u(píng)測結(jié)果

智源公布FlagEval“百?！痹u(píng)測結(jié)果