亚洲天堂av网_久久精品欧美一区二区三区不卡_亚洲欧美一级_欧美成人合集magnet

知名百科 >> 書生通用大模型 >> 歷史版本
編輯時間歷史版本內(nèi)容長度圖片數(shù)目錄數(shù)修改原因
2024-04-29 14:23 最新歷史版本 13306 1 4
  返回詞條

書生通用大模型

“書生通用大模型”是上海人工智能實驗室、商湯科技商湯科技、香港中文大學(xué)和上海交通大學(xué)于2021年11月17日聯(lián)合發(fā)布的新一代通用視覺技術(shù)系統(tǒng)。該系統(tǒng)旨在系統(tǒng)解決人工智能視覺領(lǐng)域的任務(wù)通用化、場景通用化、數(shù)據(jù)高效化等一系列瓶頸問題。《書生》自2021年發(fā)布以來,經(jīng)過多次升級,從國內(nèi)首個覆蓋各種視覺任務(wù)的通用大型模型,到包含視覺、語言和三個維度的大型模型體系。基于學(xué)者模型,上海人工智能實驗室的聯(lián)合團(tuán)隊獲得了CVPR 2023年最佳論文獎,這是近40年來中國學(xué)術(shù)機構(gòu)首次簽署論文。

在2023世界人工智能大會全會上,“學(xué)者號”升級為“學(xué)者號通用大模型系統(tǒng)”,包括“學(xué)者號多模態(tài)”、“學(xué)者號普宇”和“學(xué)者號天際線”三個基礎(chǔ)模型,以及首個面向大模型開發(fā)應(yīng)用的全鏈條開源系統(tǒng)。此后,上海人工智能實驗室聯(lián)合中國大模型語料庫數(shù)據(jù)聯(lián)盟成員單位,開源發(fā)布了“學(xué)者萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料庫。

目錄

發(fā)展歷史

2021年11月17日,上海人工智能實驗室攜手商湯科技商湯科技、香港中文大學(xué)、上海交通大學(xué)共同發(fā)布了新一代通用視覺技術(shù)系統(tǒng)“書生通用大模型”,旨在系統(tǒng)解決人工智能視覺領(lǐng)域的任務(wù)通用化、場景通用化、數(shù)據(jù)高效化等一系列瓶頸問題。其技術(shù)報告《書生通用大模型:一種新的學(xué)習(xí)范式塔一般愿景》在arXiv平臺上發(fā)布。

2022年9月,在世界人工智能大會(WAIC)科學(xué)前沿全體會議期間,上海人工智能實驗室發(fā)布了更通用的人工智能模型“學(xué)者2.0”。“學(xué)者2.0”的通用圖像模型基于動態(tài)稀疏卷積網(wǎng)絡(luò),可根據(jù)不同的視覺任務(wù)自適應(yīng)調(diào)整卷積位置和組合方式,從而靈活、準(zhǔn)確地適應(yīng)不同的視覺任務(wù)。“學(xué)者2.0”積累了大量以中文為核心的翻譯數(shù)據(jù),提出了異步多分支訓(xùn)練技術(shù),構(gòu)建了以中文為核心的通用翻譯模型,支持161種語言。

2023年3月14日,商湯科技發(fā)布了多模態(tài)多任務(wù)通用大型模型“書生通用大模型(INTERN)2.5”。“學(xué)者2.5”擁有30億個參數(shù),通用可視化開源平臺OpenGVLab已開放“學(xué)者2.5”的多模態(tài)通用模型。

2023年6月7日,商湯科技、上海AI Lab聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)發(fā)布千億級參數(shù)化大語言模型“學(xué)者普語”(InternLM)。“學(xué)者普宇”擁有1040億個參數(shù),并在包含1.6萬億token的多語言高質(zhì)量數(shù)據(jù)集上進(jìn)行訓(xùn)練。綜合評價結(jié)果顯示,“學(xué)者普語”不僅在知識掌握、閱讀理解、數(shù)學(xué)推理、多語種翻譯等多項測試任務(wù)中表現(xiàn)出色,而且綜合能力較強,因此在綜合考試中表現(xiàn)突出,并在多項中國考試中超過ChatGPT,包括中國高考各科目數(shù)據(jù)集(高考)。

2023年7月6日,在2023世界人工智能大會暨科學(xué)前沿全會開幕式上,上海人工智能實驗室攜手商湯科技、香港中文大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、清華大學(xué)發(fā)布了全新升級的“學(xué)者通用大模型系統(tǒng)”,包括學(xué)者多模態(tài)、學(xué)者普宇、學(xué)者天際線三個基礎(chǔ)模型,以及首個面向大模型開發(fā)應(yīng)用的全鏈條開源系統(tǒng)。

2023年8月14日,上海人工智能實驗室宣布與中國大模型語料庫數(shù)據(jù)聯(lián)盟成員單位合作,共同發(fā)布“學(xué)者萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料庫。目前(截至2023年12月18日)分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分。開源數(shù)據(jù)總量超過2TB,包括5億多文本、2200萬圖文文檔和1000個視頻節(jié)目,涵蓋科技、文學(xué)、媒體、教育和法律等領(lǐng)域。

基礎(chǔ)原理

通用視覺技術(shù)系統(tǒng)INTERN由七個模塊組成,包括三個基礎(chǔ)設(shè)施模塊:通用視覺數(shù)據(jù)系統(tǒng)、通用視覺網(wǎng)絡(luò)結(jié)構(gòu)和通用視覺評估基準(zhǔn),以及四個用于區(qū)分上游和下游的訓(xùn)練階段模塊。

在“書生通用大模型”的四個訓(xùn)練階段中,前三個階段位于技術(shù)鏈上游,在模型的表示普適性上下足了功夫;第四級位于下游,可用于解決各種下游任務(wù)。

第一階段重點培養(yǎng)“基本能力”,即讓他們廣泛學(xué)習(xí)基本常識,為后續(xù)學(xué)習(xí)階段打好基礎(chǔ);第二階段是培養(yǎng)“專家能力”,即多個專家模型學(xué)習(xí)某一領(lǐng)域的專業(yè)知識,使每個專家模型都能掌握該領(lǐng)域的技能并成為專家;第三階段是培養(yǎng)“通用能力”。隨著各種能力的整合,“學(xué)者”在所有技能領(lǐng)域都表現(xiàn)出出色的水平,并具有快速學(xué)習(xí)新技能的能力。

在循序漸進(jìn)的前三個培訓(xùn)階段中,“學(xué)者”在循序漸進(jìn)的學(xué)習(xí)過程中具有高度的通用性。當(dāng)它進(jìn)化到第四階段時,系統(tǒng)將具有“遷移能力”。此時,“學(xué)者”所學(xué)的通用知識可以應(yīng)用于特定領(lǐng)域的不同任務(wù),如智慧城市、智慧醫(yī)療、自動駕駛等。,實現(xiàn)廣泛賦能。

“學(xué)者”在圖文跨模態(tài)領(lǐng)域的突出表現(xiàn)來自于視覺、語音和多任務(wù)建模能力的有效整合,即Intermage-G通用視覺模型、用于文本理解的超大規(guī)模語言預(yù)訓(xùn)練模型(LLM)和用于多任務(wù)的Uni-epider模型。

其中,Intermage-G通用視覺宏大模型可以基于動態(tài)稀疏卷積算子自適應(yīng)地調(diào)整卷積的位置和組合,從而為多功能視覺感知提供了有力的表示。超大型語言模型通過在超大型富文本語料庫上進(jìn)行預(yù)訓(xùn)練來提供強大而可靠的文本特征。uni-epider通用任務(wù)解碼建模通過將不同模式的數(shù)據(jù)編碼到統(tǒng)一的表示空間中,將不同的任務(wù)統(tǒng)一到同一任務(wù)范式中,從而可以使用相同的架構(gòu)和共享的模型參數(shù)同時處理各種模式和任務(wù)。

此外,《書生》創(chuàng)新性地引入了任務(wù)級稀疏激活機制,使其具備高效的多任務(wù)協(xié)同能力。在主流視覺圖像分類數(shù)據(jù)集ImageNet上,僅基于公開數(shù)據(jù),該模型就達(dá)到了90.1%的Top-1準(zhǔn)確率。

“學(xué)者”模型可以全面覆蓋四個視覺核心任務(wù):分類、對象檢測、語義分割和深度估計。在ImageNet等26個下游場景中,學(xué)者模型具有普適性,提高了這些長尾小樣本可視化場景的性能。借助“學(xué)者”通用視覺技術(shù)系統(tǒng),行業(yè)能夠以極低的下游數(shù)據(jù)獲取成本快速驗證多個新場景,有利于解鎖和實現(xiàn)人工智能的長尾應(yīng)用。依托“學(xué)者”的特色表達(dá)能力,它還實現(xiàn)了多任務(wù)學(xué)習(xí)、小樣本學(xué)習(xí)和脫離分布檢測的能力。針對各類細(xì)分質(zhì)檢場景,準(zhǔn)確率可達(dá)99.5%以上,打破了AI技術(shù)在工業(yè)質(zhì)檢領(lǐng)域大規(guī)模應(yīng)用的壁壘。

功能特性

書生多式聯(lián)運:學(xué)者多模態(tài)將語言、圖像、視頻等多種模態(tài)無縫融合,首次通過自然語言實現(xiàn)視覺任務(wù)的定義,具備多模態(tài)交互和跨模態(tài)生成能力。多模態(tài)模型擁有200億個參數(shù),支持350萬個語義標(biāo)簽。學(xué)者多模態(tài)有三個核心能力:開放世界理解、跨模態(tài)生成和多模態(tài)交互。

書生2.5的多模態(tài)通用大模型具有AIGC“從文本創(chuàng)建圖片”的能力,可以根據(jù)用戶提出的文本創(chuàng)建需求,使用擴散模型生成算法生成高質(zhì)量、自然逼真的圖像。例如,在“學(xué)者2.5”的幫助下,它幫助自動駕駛技術(shù)的研發(fā),并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動駕駛系統(tǒng)對拐角情況場景的感知上限。

同時,它可以在自動駕駛和家用機器人等一般場景中輔助完成任務(wù):在自動駕駛和家用機器人等一般場景中,“學(xué)者”可以輔助處理各種復(fù)雜任務(wù)。例如,在自動駕駛場景中,它可以大大提高對場景的感知和理解能力,準(zhǔn)確輔助車輛判斷紅綠燈、路標(biāo)等信息的狀態(tài),為車輛的決策規(guī)劃提供有效的信息輸入。例如,在“學(xué)者2.5”的幫助下,它幫助自動駕駛技術(shù)的研發(fā),并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動駕駛系統(tǒng)對拐角情況場景的感知上限。

在自動駕駛和家用機器人等一般場景中,“書生”可以輔助完成任務(wù):在自動駕駛和家用機器人等一般場景中,“書生”可以輔助處理各種復(fù)雜任務(wù)。例如,在自動駕駛場景中,它可以大大提高對場景的感知和理解能力,準(zhǔn)確輔助車輛判斷紅綠燈、路標(biāo)等信息的狀態(tài),為車輛的決策規(guī)劃提供有效的信息輸入。例如,在“學(xué)者2.5”的幫助下,它幫助自動駕駛技術(shù)的研發(fā),并通過生成各種真實的道路交通場景(如繁忙的城市街道、雨天擁擠的車道、路上奔跑的狗等)來生成逼真的拐角案例訓(xùn)練數(shù)據(jù)。,然后訓(xùn)練自動駕駛系統(tǒng)對拐角情況場景的感知上限。

書圣璞玉:學(xué)者普語是國內(nèi)首個支持8K上下文長度的官方語言模型。學(xué)者Pu Yu擁有1040億個參數(shù),并在包含1.8萬億token的高質(zhì)量語料庫上進(jìn)行訓(xùn)練。

學(xué)者普宇開發(fā)了具有70億個參數(shù)的輕量級版本InternLM-7B,以及貫穿數(shù)據(jù)、預(yù)訓(xùn)練、微調(diào)、部署和評估五個環(huán)節(jié)的全鏈工具系統(tǒng)。在40個評估集的全維評估中,InternLM-7B表現(xiàn)出出色而均衡的性能,創(chuàng)造了7B級模型的新世界紀(jì)錄。上海人工智能實驗室教授林達(dá)華表示:“通過開源開放,我們希望助力大模型的創(chuàng)新和應(yīng)用,讓更多領(lǐng)域和行業(yè)在大模型變革的浪潮中受益。”

在數(shù)據(jù)鏈路方面,通過OpenDataLab開放了包含30多種模態(tài)的5500個公共數(shù)據(jù)集,其中以自然語言開放了超過10000億token的高質(zhì)量語料庫。在預(yù)訓(xùn)練中,面向輕量級語言模型的訓(xùn)練框架InternLM-Train開源,支持從8張卡到1024張卡的并行訓(xùn)練,并提出了Hybrid-Zero的獨特技術(shù)。在微調(diào)階段,全流程微調(diào)工具開源,支持SFT和RLHF,還支持訓(xùn)練模型進(jìn)行復(fù)雜符號計算和工具調(diào)用,通過代碼解決復(fù)雜的數(shù)學(xué)計算問題。在部署過程中,部署推理工具鏈LMDeploy是開源的。它支持10億到1000億個參數(shù)化語言模型的高效推理,其性能超越了HuggingFace、Deepspeed和vLLM等主流推理框架。在評測階段,開放評測平臺OpenCompass上線,支持大模型一站式全方位評測,包含40多個評測集和30萬個評測主題。通過全自動分布式評測,可以有效復(fù)現(xiàn)開源模型的性能。

蜀圣天記:“學(xué)者天空”是全球首個城市級NeRF(神經(jīng)輻射場)三維大規(guī)模模型,擁有千億級參數(shù),并在全球首次實現(xiàn)100平方公里城市實景的4K高精度建模和編輯。

同時支持全范圍高精度實時渲染,首次實現(xiàn)城市級NeRF百平方公里全范圍1k分辨率、30幀實時渲染、4k分辨率離線渲染。此外,它還支持城市級編輯、風(fēng)格轉(zhuǎn)換等功能,并提供豐富的超越和重建功能,包括城市編輯功能,如移除、構(gòu)建和旋轉(zhuǎn)城市建筑,以及調(diào)整城市風(fēng)格變化,如照明和季節(jié)。Scholar Sky提供了一個訓(xùn)練、渲染和交互的一體化系統(tǒng),并實現(xiàn)了一個覆蓋算法、算子、計算系統(tǒng)和用戶交互的城市級NeRF系統(tǒng),為訓(xùn)練、渲染、交互和應(yīng)用提供了基礎(chǔ)。

為滿足行業(yè)實際需求,上海AI Lab開放了學(xué)者天空的核心算法和訓(xùn)練策略,用戶可根據(jù)自身應(yīng)用場景復(fù)現(xiàn)大模型能力。核心算法和模型訓(xùn)練策略是學(xué)者天空實現(xiàn)當(dāng)前能力的關(guān)鍵。在本次開源中,學(xué)者Skyline首次公開了多分支GridNeRF模型的核心算法及其匹配訓(xùn)練策略。在特定的場景中,研究人員和從業(yè)者可以使用開源內(nèi)容來重現(xiàn)和實現(xiàn)學(xué)者Skyline相關(guān)的能力。

舒萬圣卷:學(xué)者萬卷語料數(shù)據(jù)聯(lián)盟成員的內(nèi)容積累和上海ai實驗室的數(shù)據(jù)處理能力,“學(xué)者萬卷”為學(xué)術(shù)界和產(chǎn)業(yè)界提供大規(guī)模多模態(tài)預(yù)訓(xùn)練語料。

“學(xué)者萬卷”1.0的多模態(tài)預(yù)訓(xùn)練語料分為文本數(shù)據(jù)集、圖形數(shù)據(jù)集和視頻數(shù)據(jù)集三部分,開源數(shù)據(jù)總量超過2TB。其中,文本數(shù)據(jù)是從不同來源(如網(wǎng)頁、百科全書、書籍、專利、教科書、試題等)清洗后的預(yù)訓(xùn)練語料。數(shù)據(jù)總量超過5億文檔,數(shù)據(jù)規(guī)模超過1TB,涵蓋科技、文學(xué)、傳媒、教育、法律等多個領(lǐng)域。圖形數(shù)據(jù)主要來自公共網(wǎng)頁,經(jīng)過處理后形成圖形交錯文檔。文檔總數(shù)超過2200萬,數(shù)據(jù)大小超過140GB(不含圖片),涵蓋新聞事件、人物、自然景觀、社會生活等多個領(lǐng)域。視頻數(shù)據(jù)主要來自中央廣播電視總臺和上海文光集團(tuán),包括新聞、電影和其他類型的節(jié)目圖像。視頻文件總數(shù)超過1000個,數(shù)據(jù)大小超過900GB,涵蓋軍事、文學(xué)、體育、自然、真實世界、知識、視頻藝術(shù)、媒體、食品、歷史、科教等。

交互特點 

跨模態(tài)生成:通過聯(lián)合學(xué)習(xí),學(xué)者多模態(tài)可以實現(xiàn)模式之間的相互轉(zhuǎn)換。研究人員試圖讓學(xué)者多模根據(jù)張大千的《湖山清夏圖》創(chuàng)作一首七言絕句。驗證結(jié)果表明,經(jīng)過聯(lián)合學(xué)習(xí),學(xué)者多模態(tài)具有良好的從圖像到文本的跨模態(tài)生成能力,在中國具有深厚的文化積淀。在生成文本的同時,書生多模也給出了創(chuàng)作思路:根據(jù)畫面,確定描繪美麗的自然風(fēng)光畫面;從畫面中尋找能表達(dá)詩人思想感情的元素,如畫中的巍峨山峰、云霧繚繞、蒼松蒼松;根據(jù)元素構(gòu)思一首詩;最后根據(jù)詩的節(jié)奏和格律加以完善。學(xué)者多模還特別描述了第四句的靈感來源:他借用了唐代詩人韋莊的名句“春水比天亮,畫船聽雨眠”。

多模態(tài)交互:學(xué)者多模態(tài)繼承了上一代學(xué)者在常規(guī)預(yù)定義視覺任務(wù)中的表現(xiàn),但也創(chuàng)新了人機交互的方式。用戶可以通過光標(biāo)點擊、聊天等方式準(zhǔn)確傳達(dá)指令。Scholar multimodal降低了人工智能任務(wù)的門檻,并使人工智能成為可供數(shù)千人使用的生產(chǎn)工具。多模態(tài)理解、生成和交互能力正成為大模型新一輪進(jìn)化的重要方向。

書圣璞玉:上下文窗口的長度很長:上下文窗口的長度從2K增加到8K,具有理解長輸入、擴展復(fù)雜推理和進(jìn)行長時間多輪對話的能力。

強大的多語言和結(jié)構(gòu)化表達(dá)能力:新模型支持20多種語言,還可以通過表格和圖表總結(jié)和呈現(xiàn)復(fù)雜信息。

多維度能力全面提升:在42個主流評測集上性能均有提升。

書生通用大模型書生通用大模型

數(shù)學(xué)邏輯能力強:提高數(shù)值計算、函數(shù)運算、方程求解等數(shù)學(xué)能力。2023年高考數(shù)學(xué)選擇題中,正確率提高了70%以上。

強大的安全性和對準(zhǔn)能力:它可以更可靠地遵循人類指令,安全性也明顯提高。

蜀圣天記:從單一渲染到使用GirdNeRF的自由擴展:

NeRF是一種新的三維重建和表征技術(shù),可以用少量數(shù)據(jù)實現(xiàn)三維重建,廣泛應(yīng)用于對象級三維建模。為實現(xiàn)城市級大規(guī)模實景建模,2021年12月,上海AI Lab首次提出CityNeRF,將不同高度的衛(wèi)星和近景影像有效融合,率先將NeRF建模技術(shù)從物體級擴展到城市級。通過采集單個建筑物的飛行圖像,可以實現(xiàn)一定規(guī)模的真實場景渲染和重建。在CityNeRF的基礎(chǔ)上,上海AI實驗室進(jìn)一步開發(fā)了第二代CityNeRF技術(shù),即GridNeRF。

基于網(wǎng)格表示和NeRF表示相結(jié)合的GridNeRF支持模型的多層次擴展,為大規(guī)模城市級建模奠定了技術(shù)基礎(chǔ)。第二代CityNeRF從捕捉單個建筑物擴展到收集整個區(qū)域的細(xì)節(jié)。與第一代CityNeRF技術(shù)只能在單個建筑物周圍進(jìn)行渲染不同,最新技術(shù)可以實現(xiàn)在整個區(qū)域內(nèi)上下飛行,平移和穿梭,建模效率更高。

真實三維建模的新范例:基于“算法+計算系統(tǒng)+算子”的系統(tǒng)化解決思路,并通過其采用的漸進(jìn)渲染、并行訓(xùn)練和多分支策略,在實際應(yīng)用中,Scholar Sky已成為集訓(xùn)練、渲染和交互于一體的系統(tǒng),開創(chuàng)了城市級真實場景三維建模的新范式。

雙枝模型結(jié)構(gòu),捕捉場景細(xì)節(jié);GirdNeRF由兩個分支組成,其中Grid分支將場景分解為地面特征平面和垂直特征軸,即將城市場景分解為更小的粒度,然后通過NeRF分支使用輕量級MLP網(wǎng)絡(luò)重構(gòu)訓(xùn)練視角,生成高質(zhì)量的渲染圖像。同時,通過一種化整為零的策略,采用漸進(jìn)渲染的方式更好地支持大規(guī)模場景渲染,為無限城市場景的重構(gòu)提供了可能。

合理化跳轉(zhuǎn)空白:Scholar Sky可以在算法的光線收集階段準(zhǔn)確預(yù)測對實際重建無效的采樣點,從而“合理化跳躍”。Scholar Sky擁有數(shù)千億個參數(shù),preamble的采樣數(shù)量和計算效率對模型的訓(xùn)練和渲染性能至關(guān)重要。而且算法模型會提前終止不必要的渲染,不僅可以更好地減少渲染計算量,提高計算效率,還可以將前導(dǎo)的采樣數(shù)量減少90%以上,降低計算復(fù)雜度和渲染成本。

平行培訓(xùn)和多分支戰(zhàn)略;在訓(xùn)練策略方面,學(xué)者天璣通過PlaneParallel和ChannelParallel模型的并行訓(xùn)練,將訓(xùn)練任務(wù)分成多個部分,并在多臺計算機上同時完成,提高了訓(xùn)練速度。同時設(shè)計了多分支模型和相應(yīng)的BranchParallel訓(xùn)練策略,將模型分成多個部分,每個部分負(fù)責(zé)處理圖像的一部分,以使模型適應(yīng)不同的場景和尺度。這些策略有助于減少訓(xùn)練時間和資源需求,使模型更好地理解和編輯城市場景,并將渲染效率提高1000倍。

舒萬圣卷:基于語料庫數(shù)據(jù)聯(lián)盟構(gòu)建的語料庫,上海AI Lab對部分?jǐn)?shù)據(jù)進(jìn)行了細(xì)粒度清洗、去重和對齊值處理,形成了多模態(tài)預(yù)訓(xùn)練語料庫“學(xué)者萬卷”1.0,具有多元融合、精細(xì)加工、值對齊、易用高效四大特點。

在多元融合方面,“學(xué)者萬卷”1.0包含文本、圖形、視頻等多模態(tài)數(shù)據(jù),涵蓋科技、文學(xué)、傳媒、教育、法律等多個領(lǐng)域,在訓(xùn)練和提升模型的知識內(nèi)容、邏輯推理和泛化能力方面效果顯著。

在精細(xì)化處理方面:學(xué)者萬卷1.0經(jīng)歷了語言篩選、文本抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則和模型的數(shù)據(jù)過濾和清洗、多尺度去重、數(shù)據(jù)質(zhì)量評估等多個精細(xì)化數(shù)據(jù)處理步驟。,因此可以更好地滿足后續(xù)模型預(yù)訓(xùn)練的需要。

在價值對齊方面:在“學(xué)者萬卷”1.0的建設(shè)過程中,研究人員重點關(guān)注內(nèi)容與中國主流價值觀之間的對齊,并通過算法和人工評估相結(jié)合的方式提高語料庫的純度。

在易用性和效率方面,研究人員在“學(xué)者萬卷”1.0中采用了統(tǒng)一的格式,并提供了詳細(xì)的領(lǐng)域描述和工具指導(dǎo),使其既易用又高效,可以快速應(yīng)用于語言和多模態(tài)模型等大型模型的預(yù)訓(xùn)練。

標(biāo)簽

亚洲天堂av网_久久精品欧美一区二区三区不卡_亚洲欧美一级_欧美成人合集magnet
欧美大片在线观看一区| 激情国产一区二区| 悠悠色在线精品| 色域天天综合网| 国产精品国产三级国产三级人妇 | 91丝袜高跟美女视频| 2023国产一二三区日本精品2022| 亚洲一区av在线| 欧美日韩国产综合一区二区 | 欧美日产国产精品| 亚洲综合久久av| 国产激情一区二区三区四区| 欧美在线观看一区二区| 亚洲精品视频在线观看网站| 国产在线精品一区在线观看麻豆| 欧美一区二区三区成人| 国产制服丝袜一区| 国产精品久线观看视频| 欧美日韩高清影院| 国产精品自拍在线| 亚洲精选视频在线| 欧美成人综合网站| 国产成人午夜99999| 樱桃视频在线观看一区| 欧美群妇大交群中文字幕| 国产美女精品在线| 亚洲bt欧美bt精品| 精品福利在线导航| 国产精品77777| 天天色图综合网| 亚洲精品日韩专区silk| 国产精品久久久久久久久图文区| 91精品国产综合久久国产大片| 成人高清视频免费观看| 成人永久免费视频| 国产成人免费9x9x人网站视频| 麻豆成人av在线| 午夜激情一区二区| 午夜激情久久久| 蜜臀av性久久久久蜜臀aⅴ流畅| 一区二区三区四区激情| 国产日韩av一区二区| 一本到不卡精品视频在线观看| 成人美女视频在线看| 精品在线免费观看| 日韩极品在线观看| 麻豆91小视频| 色婷婷亚洲一区二区三区| 91精品国产品国语在线不卡| 精品美女被调教视频大全网站| 一区视频在线播放| 久久精品久久综合| 色综合天天性综合| 欧美精品一区二区高清在线观看 | 欧美日韩国产高清一区二区三区 | 欧美一区二区三区四区在线观看| 日韩一区二区在线免费观看| 中文字幕一区三区| 欧美bbbbb| 欧美美女直播网站| 亚洲欧美影音先锋| 国产成人av电影在线观看| 制服丝袜在线91| 亚洲一区在线播放| 色综合欧美在线视频区| 欧美成人三级在线| 久久国产精品区| 日韩精品一区国产麻豆| 天天综合天天综合色| 在线中文字幕不卡| 国产精品国产三级国产有无不卡 | 日韩高清一区二区| 色婷婷亚洲综合| 精品区一区二区| 色噜噜狠狠成人中文综合| 五月激情综合婷婷| 久久久亚洲高清| 5566中文字幕一区二区电影| 8x8x8国产精品| 3d成人h动漫网站入口| 欧美肥妇bbw| 亚洲国产精品激情在线观看| 亚洲色图在线看| 在线不卡免费欧美| 欧美成人伊人久久综合网| 国产亚洲综合av| 亚洲成a人在线观看| 国产精品一区一区| 色婷婷av一区二区三区大白胸 | 韩国中文字幕2020精品| 国产精品视频九色porn| 69久久99精品久久久久婷婷| 欧美日韩一区二区三区四区| 成人福利视频网站| 欧美日韩精品一区二区三区四区 | 国产精品美女久久久久aⅴ | 福利一区二区在线| 一本一本大道香蕉久在线精品| 91丨国产丨九色丨pron| 在线观看免费亚洲| 欧美mv日韩mv亚洲| 亚洲图片有声小说| 精品系列免费在线观看| 欧美在线色视频| 国产欧美视频一区二区| 蜜臀av性久久久久蜜臀aⅴ流畅| 成人福利在线看| 欧美精品一区二区三区四区| 丝袜美腿亚洲综合| 在线视频你懂得一区二区三区| 久久精品在线观看| 韩国欧美国产一区| 精品卡一卡二卡三卡四在线| 亚洲h在线观看| 在线这里只有精品| 亚洲一区二区精品3399| eeuss影院一区二区三区| 国产日韩av一区二区| 国产精品一区二区三区99| 91麻豆精品国产综合久久久久久| 亚洲综合免费观看高清完整版在线 | www.亚洲色图.com| 日本一区二区三区四区在线视频| 免费观看成人av| 日韩欧美亚洲一区二区| 日日夜夜精品免费视频| 欧美老人xxxx18| 日精品一区二区三区| 在线成人免费视频| 免费观看久久久4p| 精品999久久久| 国产剧情一区二区三区| 国产日产欧美一区二区三区| 国产另类ts人妖一区二区| 精品国精品国产| 久久成人久久鬼色| 国产精品午夜电影| 色999日韩国产欧美一区二区| 亚洲最色的网站| 日韩欧美一区中文| 国产高清不卡一区| 一区二区三区在线视频免费观看| 日本高清视频一区二区| 亚洲va国产va欧美va观看| 日韩欧美国产成人一区二区| 国产福利精品一区| 亚洲综合一二三区| 精品国内二区三区| 91免费精品国自产拍在线不卡 | 国产黄色精品视频| 综合欧美亚洲日本| 欧美老年两性高潮| 丰满亚洲少妇av| 亚洲成人免费影院| 久久婷婷一区二区三区| 91免费看`日韩一区二区| 日韩精品乱码av一区二区| 日韩免费视频一区| 91丨porny丨首页| 另类欧美日韩国产在线| 国产精品入口麻豆原神| 精品视频全国免费看| 国产一区二区影院| 亚洲激情成人在线| 精品国产凹凸成av人导航| 91麻豆精品视频| 麻豆成人91精品二区三区| 亚洲免费视频中文字幕| 欧美三级韩国三级日本一级| 国产麻豆精品95视频| 亚洲成年人网站在线观看| 欧美极品美女视频| 91精品国产综合久久蜜臀| 成人国产精品视频| 免费观看在线色综合| 亚洲欧美激情插| 久久精品免视看| 欧美一区二区精美| 色av成人天堂桃色av| 成人深夜视频在线观看| 久久99国产精品尤物| 亚洲成人先锋电影| 亚洲日本电影在线| 国产色婷婷亚洲99精品小说| 制服丝袜av成人在线看| 欧美视频在线一区| 色先锋资源久久综合| 国产91在线观看| 国产一区二区三区四区在线观看| 日韩一区精品字幕| 亚洲一级不卡视频| 一区二区国产盗摄色噜噜| 日本一区二区在线不卡| 久久日韩精品一区二区五区| 欧美一区二区女人| 91精品国产91久久综合桃花 | 国产精品久久一卡二卡| 久久久久久久电影| 国产欧美一区二区在线| 精品入口麻豆88视频|