通義千問
“通義千問”(英文名:Tongyi Qianwen)是阿里云開發的大型語言模型,旨在通過自然語言處理技術為用戶提供跨領域的智能服務。該模型具備文本創作、代碼編寫、多語言翻譯以及角色扮演對話等功能。
阿里云于2023年逐步推進通義千問大模型的發展。4月初開始邀請測試,隨后在當月中旬的阿里云峰會上正式發布,并宣布阿里巴巴所有產品將接入該模型。同年9月,通義千問通過備案并向公眾開放。10月底,阿里云在云棲大會上發布了通義千問2.0版本,模型參數提升至千億級別。進入2024年,6月初發布Qwen2大模型,并在開源平臺上線。最終,在2025年初,阿里云推出了旗艦版模型Qwen2.5-Max。
除了基礎大模型,阿里云還基于通義大模型開發了多個行業應用模型,包括通義靈碼、通義智文等多個領域特定的應用,以滿足不同行業的需求。
自2019年起,阿里巴巴集團便啟動了大模型的研發工作。到了2023年4月7日,阿里云宣布“通義千問”大模型開始邀請企業用戶進行測試。緊接著在4月11日的阿里云峰會上,阿里云智能首席技術官周靖人正式發布了這一大模型。發布會上,阿里巴巴集團董事會主席兼CEO、阿里云智能集團CEO張勇宣布,阿里巴巴旗下的所有產品,包括天貓、釘釘、高德地圖、淘寶、優酷、盒馬等,都將接入“通義千問”大模型進行全面升級改造。
一周后的4月18日,釘釘總裁葉軍宣布釘釘正式接入通義千問大模型。他現場演示了接入后的功能,用戶通過在釘釘中輸入“/”,即可喚起10余項AI能力,如使用AI生成推廣文案、繪圖創建應用、視頻會議中生成摘要等。
在2023年4月27日舉行的第六屆數字中國建設峰會上,阿里巴巴董事會主席兼CEO、阿里云智能集團CEO張勇透露,阿里云工程師正在實驗將通義千問大模型接入工業機器人。通過這項技術,用戶只需在釘釘對話框輸入一句人類語言,即可遠程指揮機器人工作。隨后,在8月3日,通義千問宣布旗下70億參數通用模型Qwen-7B和對話模型Qwen-7B-Chat正式上架魔搭平臺。這兩款模型不僅開源且免費,還可以用于商業用途。同時,它們支持在消費級顯卡上部署和運行模型。用戶可以從魔搭社區下載這些模型到本地進行部署,也可以直接在魔搭平臺上一鍵啟動阿里云機器學習平臺PAI,在云端對模型進行微調、部署和推理操作。
通義千問在模型開源方面持續取得顯著進展:2023年8月25日,發布了大規模視覺語言模型Qwen-VL及其視覺AI助手Qwen-VL-Chat,并宣布開源。隨后的9月25日,通義千問140億參數模型Qwen-14B及其對話模型Qwen-14B-Chat也宣布開源。同年12月1日,阿里云通義千問進一步推出了720億參數模型Qwen-72B、18億參數模型Qwen-1.8B以及音頻大模型Qwen-Audio的開源計劃。至此,通義千問已經開源了涵蓋18億、70億、140億和720億參數的四款大型語言模型,以及視覺理解和音頻理解兩款多模態大模型。這一系列舉措實現了“全尺寸、全模態”的開源策略,累計下載量已超過150萬次,激發了150多款新模型和新應用的開發。
2023年9月,通義千問大模型成功通過備案并向公眾開放。用戶可通過通義千問官網進行體驗,企業用戶則可以通過阿里云調用相關API。同時,阿里旗下的網絡零售平臺淘寶也推出了內測應用“淘寶問問”,接入通義千問服務。
2023年10月,在云棲大會上,阿里云正式發布了升級版的通義千問2.0,其模型參數達到了千億級別。與此同時,通義千問APP也在各大手機應用市場上線。此外,基于通義大模型訓練的8大行業模型組團上線發布,涵蓋了多個領域。
2023年11月7日,通義千問App在蘋果App Store上架,安裝包大小為25.9MB。此前,通義千問2.0發布時已同步在各大安卓應用市場上架。
2023年11月16日,阿里巴巴集團公布了截至9月30日的2024財年第二季度財務報告。報告顯示,釘釘的17條產品線已全面集成了大模型技術,并且開放了其人工智能平臺AI PaaS給客戶和生態系統合作伙伴,以支持生態系統參與者的產品創新。
2024年5月21日,阿里云宣布通義千問GPT-4級主力模型Qwen-Long的API輸入價格從0.02元/千tokens降至0.0005元/千tokens,降幅達97%。6月7日,阿里發布了通義千問Qwen2大模型,并在Hugging Face和ModelScope上同步開源。Qwen2系列包括五個尺寸的預訓練和指令微調模型,上下文長度支持進一步擴展至最高128K tokens。6月19日,OpenCompass發布了首個大模型高考全卷評測結果,其中阿里通義千問2-72B排名第一,得分303分(滿分420分)。12月31日,阿里云宣布2024年度第三輪大模型降價。通義千問Qwen-VL-Plus直降81%,輸入價格為0.0015元/千tokens;而更高性能的Qwen-VL-Max則降至0.003元/千tokens,降幅為85%。
2025年1月29日,阿里云正式發布了通義千問旗艦版模型Qwen2.5-Max。該模型的預訓練數據超過20萬億tokens。開發者可在Qwen Chat平臺免費體驗此模型,企業和機構也可通過阿里云百煉平臺直接調用新模型API服務。
產品功能 編輯本段
AI對話作為通義千問的核心功能,利用通義大模型,通過自然語言理解和語義分析,在多個領域和任務中為用戶提供服務。其包含10項基本能力:語義理解與抽取、閑聊、上下文對話、生成與創作、知識與百科、代碼、邏輯與推理、計算及角色扮演。
通義千問2.0版本增加了文本回答、圖片理解、文檔解析三種模式。用戶可以在網頁端上傳圖片和文檔,并就相關內容提出問題,實現文字以外的互動方式。
特色功能
包括“百寶袋”,這是預先提供的小應用集合,方便用戶快速上手。百寶袋的功能分為四類:
AI 應用服務概述
一、創意文案服務
通義千問具備強大的創意文案生成能力。無論用戶身處何種場景,它都能快速響應需求,精準創作多種類型的優質文案。在內容創作領域,無論是短視頻劇本的構思與撰寫,還是溫馨動人的祝福語創作;無論是專業電影劇本的打造,還是對已有內容的擴寫輔助;從商品評價的客觀分析,到情書的深情表達;從直播文案的巧妙設計,到評論的機智回復;從小紅書文案的潮流撰寫,到回憶錄的細膩生成;從七言詩的創作,到人物傳記的詳實記錄,通義千問都能為用戶提供全方位的創意支持,助力其在各類內容創作中展現出獨特魅力與專業水準。
二、辦公助理服務
在辦公場景中,通義千問發揮著高效的輔助作用。通過提供營銷文案撰寫服務,幫助用戶精準傳達產品或服務的核心價值,提升市場營銷效果。周報助理能夠協助用戶梳理一周工作要點與成果,確保匯報工作的條理清晰與高效性。PPT 大綱助手為用戶構建演示文稿的邏輯框架,助力其制作出專業且富有吸引力的 PPT。日報助手方便用戶每日總結工作情況,促進工作的及時復盤與改進。簡歷幫手和求職助手則能在職業發展道路上給予有力支持,幫助用戶優化簡歷內容,提升求職競爭力,從而全方位提升用戶的辦公效率與質量。
三、學習助手服務
通義千問在學習過程中扮演著貼心助手的角色。針對開學規劃這一重要階段,它能為用戶提供合理的學習計劃建議,助力學生在新學期伊始就明確學習目標與方向。詩歌分析家功能有助于深入剖析詩歌的內涵與藝術手法,提升學生對詩歌的鑒賞能力。讀后感生成器能夠幫助學生在閱讀后快速整理思緒,形成有深度的讀后感悟。知識鞏固助手通過對知識點的梳理與強化練習,幫助學生更好地掌握所學內容。文言文翻譯則解決了學生在古文學習中的語言障礙,使其更順暢地領略古代文化的博大精深,全方位提升學生的學習體驗與學習效果。
四、趣味生活服務
通義千問還積極融入日常生活,為用戶解答各類生活問題或提供有趣的互動話題。當面臨社交場合時,高情商回復功能能幫助用戶以恰當的方式應對各種情況,增進人際關系。吹彩虹屁這一有趣的功能則能為用戶在輕松氛圍中增添歡樂元素。健身計劃服務根據用戶的身體狀況與目標制定個性化的健身方案,助力健康生活。怎么辦助手為用戶提供生活中的各類難題解決思路,如海底撈食譜等生活小竅門分享,讓用戶的生活更加豐富多彩與便捷高效。
五、AI 語音對話服務
通義千問還具備先進的 AI 語音對話功能,為用戶提供更加便捷的交互體驗。用戶可以通過語音輸入的方式提出問題或獲取信息,系統能夠快速準確地識別并給出相應的回答,進一步提升了服務的便捷性與高效性。
通義千問App具備獨特的語音交互功能,允許用戶通過語音向AI提問并接收語音回答。用戶可隨時開啟新的話題,并能為AI語音選擇溫柔、幽默、嚴謹或親切的音色。
模型訓練 編輯本段
截至2023年9月,通義千問模型的預訓練數據達到了3萬億tokens。這些數據主要來源于公共網絡文檔、百科全書、書籍和代碼等,覆蓋多種語言,但以中文和英文為主。為確保數據質量,開發團隊設計了一套全面的預處理流程:
針對公共Web數據,從HTML中提取文本內容,并通過語言識別工具確定語種。
為了增強數據的多樣性,采用了重復數據刪除技術,包括規范化后的精確匹配刪除方法,以及基于MinHash和LSH算法的模糊匹配刪除方法。
在數據收集階段,開發團隊運用規則與機器學習方法相結合的方式篩選高質量數據。具體而言,通過多種模型對內容進行綜合評分,包括語言模型、文本質量評分模型以及用于檢測潛在攻擊性或不當內容的模型。此外,開發團隊手動審查來自不同來源的樣本數據,進一步確保其質量。
對于數據選擇,開發團隊有針對性地從特定來源采樣,以提升整體數據質量,保證模型在多樣化且高質量的數據集上進行訓練。
在分詞器設計方面,Qwen采用了開源快速BPE分詞器tiktoken,基于cl100k基礎詞匯庫進行構建。為了增強模型在多語言下游任務中的表現,尤其是針對中文場景,開發團隊擴充了常用中文字詞及其他語言詞匯,并將數字字符串分割成單個數字,最終詞表大小達到152K。這些優化措施旨在提高模型的訓練效率和任務執行效果,特別是在處理多語言數據時。
開發團隊展示了Qwen模型與其他模型在不同語言壓縮率上的對比結果。Qwen在大多數語言上表現出更高的壓縮效率,這有助于降低模型服務的成本。
Qwen模型基于Transformer框架,并采用了開源大語言模型訓練方法LLaMA。為了優化性能,開發團隊對模型架構進行了以下關鍵修改:
嵌入和輸出投影:Qwen選擇了無限制的嵌入方法,而非綁定輸入嵌入和輸出投影的權重。這種改動以增加內存成本為代價,提升了模型的性能。
位置編碼:模型采用Rotary Positional Embedding(RoPE)進行位置編碼,并選用FP32精度而非BF16或FP16的逆頻率矩陣,以此提高模型的性能表現和精確度。
偏差(Bias):開發團隊在模型中移除了大部分層的偏差,僅在QKV注意力層中添加了偏差,以提高模型的外推能力。
預規范化和RMSNorm:為了提升訓練穩定性,模型采用了預規范化方法,并用RMSNorm替代了傳統的層歸一化方法。
激活函數:模型引入了SwiGLU作為激活函數,并減小了前饋網絡(FFN)的維度,從原來的4倍隱藏大小調整為8/3倍。
外推能力的擴展:Transformer模型的注意力機制在處理長上下文時面臨計算成本和內存消耗急劇增加的問題。為此,千問模型采用了無需額外訓練的技術,在推理過程中有效擴展上下文長度,從而提升了模型處理長序列的能力。
NTK感知插值技術通過免訓練的方式調整尺度,以防止高頻信息丟失,從而提升性能。為了進一步優化性能,開發團隊還實現了動態NTK感知插值技術,該技術按塊動態改變規模,避免嚴重的性能下降。這些技術有效地擴展了Transformer模型的上下文長度,同時不影響其計算效率或準確性。
LogN-Scaling技術通過一個取決于上下文長度與訓練長度之比的因子重新調整查詢和值的點積,確保注意力值的熵隨著上下文長度的增長保持穩定。
Window attention技術將注意力限制在一個上下文窗口內,防止模型關注到太遠的內容。基于千問模型的長上下文建模能力在不同層之間有所不同,與較高層相比,較低層對上下文長度擴展更加敏感。因此,開發團隊為每一層分配不同的窗口大小:較低的層使用較短的窗口,而較高的層使用較長的窗口。
千問模型在訓練過程中嚴格遵循了自回歸語言建模的規范方法,即通過預測下一個Token的內容來進行訓練。具體來說,模型的最大訓練長度限制為2048個Token。在數據預處理階段,為確保批次數據的多樣性,開發團隊對原始文本內容進行了隨機打亂和合并處理,隨后將處理后的文本截斷至指定的長度。為了提升計算效率,模型在注意力機制部分采用了先進的Flash Attention技術。優化方面,選擇了AdamW作為主要的優化器,并設置了超參數β1、β2以及?分別為0.9、0.95和10^-8以實現更精細的控制。此外,學習率策略上采取了余弦調度方案,針對不同規模的模型設定了相應的峰值學習率,并且允許學習率降至最低峰值的10%。最后,為了增強訓練過程的穩定性,引入了BFloat16格式進行混合精度訓練。
通義產品 編輯本段
2023年6月1日,阿里云在廣州舉辦粵港澳大灣區峰會。在此次峰會上,阿里云發布了其通義大模型的最新進展,推出了專注于音視頻的AI新品“通義聽悟”。這款產品標志著中國首個開放公測的大模型應用產品的誕生。“通義聽悟”融合了通義千問大模型的理解與摘要能力,旨在為用戶提供一個強大的AI助手,以提升音視頻內容的轉寫、檢索、摘要和整理效率。
阿里云還介紹了“通義靈碼”,這是一款智能編碼助手,它依托于阿里云的通義代碼大模型。通過利用海量的優秀開源代碼數據集和編程教科書進行訓練,該助手能夠根據現有代碼文件及其上下文,自動生成行級或函數級的代碼、單元測試以及代碼注釋。它還具備代碼解釋、智能研發問答、異常報錯排查等功能,并對阿里云SDK/OpenAPI的使用場景進行了優化,為開發者提供了高效流暢的編碼體驗。
通義星塵是一個創新的個性化角色創作系統,它通過利用大規模的高質量對話數據,采用階段性的個性化訓練方法。這種策略不僅使模型保持了廣泛的通用能力,還增強了其擬人化、情感表達和獨特的語言風格的能力。在遵循特定角色的個性和風格方面,該系統展現出卓越的指令遵從性。相較于傳統的通用模型,通義星塵能夠更深入地定制化人物設定,與用戶建立深層次的聯系,支持多種形式的對話交互,并且可以基于特定的事件背景進行討論。這使得它在情感陪伴、游戲NPC設計、IP再現等領域具有廣泛的應用潛力。
通義曉蜜是阿里云推出的一款智能客服機器人,集成了智能對話平臺、全渠道聯絡中心以及智能坐席助理等多項功能。它利用自然語言處理和機器學習技術,能夠與用戶進行高效智能的對話,并提供多樣化的信息和服務。該機器人具備智能問答、自動回復、多輪對話和情感分析等功能,能夠理解用戶的問題并提供相應的答案和解決方案,從而極大地提升了客戶服務的效率和響應速度。
通義點金:大模型驅動的智能金融助手,提供深度財報解讀、金融事件分析、實時市場數據等功能。
通義法睿:基于通義大模型的AI法律顧問,提供法律智能對話、文書生成、知識檢索、文本閱讀等功能。
通義仁心:阿里云推出的醫療領域人工智能產品,結合技術與專業知識,解答醫療健康問題。
通義智文:基于通義大模型的AI閱讀助手,支持多種閱讀形式,提高閱讀效率。
相關合作
無錫政務服務APP“靈錫”成功接入“通義千問”并進入測試階段。通義點金作為一款由大模型驅動的智能金融助手,致力于為用戶提供全方位的金融服務體驗。其具備深度解讀財報研報的能力,通過精準分析金融事件,為用戶揭示隱藏在數據背后的價值。此外,它還支持自動繪制圖表和表格,以及進行實時市場數據分析,助力用戶更好地理解金融世界的動態變化。通義點金的功能包括智能投研機器人、文檔分析機器人、金融信息搜索引擎、智能資訊機器人等,旨在為用戶提供便捷、高效的金融信息服務。
通義法睿是一款基于通義大模型的AI法律顧問,它能夠提供全面的法律服務功能。無論是智能對話、法律文書生成,還是法律知識檢索、法律文本閱讀,通義法睿都能夠以高效、準確的方式滿足用戶的需求。通過深度學習和大數據分析,這款AI法律顧問能夠為用戶提供專業的法律建議和支持。
通義仁心是阿里云推出的專注于醫療領域的人工智能產品。它融合了阿里云的先進技術和醫療行業的專業知識,為用戶提供全面的醫療健康管理解決方案。無論是對于疾病的診斷、癥狀的解讀,還是藥品的選擇、報告指標的理解,通義仁心都能夠給出專業的解答和建議。它的出現,無疑為醫療領域帶來了新的變革和發展。
通義智文則是一款基于通義大模型的AI閱讀助手,它支持網頁閱讀、論文閱讀、圖書閱讀和自由閱讀等多種閱讀形式。通過智能化的文本分析和處理技術,通義智文能夠幫助用戶提高閱讀效率和質量,讓用戶在海量的信息中快速找到自己所需的內容。同時,它還具備輔助用戶深入理解文本內容的能力,使用戶能夠讀得更多、更快、更懂。
值得一提的是,通義系列的產品已經在多個領域得到了廣泛的應用和認可。例如,在2023年4月,無錫政務服務和城市服務的移動端總入口“靈錫”APP就成功接入了“通義千問”,并進入了全面測試階段。這一合作不僅展示了通義系列產品的強大實力和廣泛應用前景,也為推動相關領域的發展注入了新的動力。
2023年4月26日,阿里云在合作伙伴大會上發布了“通義千問合作伙伴計劃”,旨在促進大模型技術在各行業的廣泛應用。昆侖數智、朗新科技、千方科技、中金財富、石基集團、用友網絡及亞信科技等七家數字化服務商被選為首批合作伙伴。
緊接著,在2023年5月19日,北京市經濟和信息化局聯合市科委中關村管委會和市發改委共同啟動了“北京市通用人工智能產業創新伙伴計劃”。阿里云及其通義大模型被納入為該計劃的首批算力和模型合作伙伴。
2023年6月27日,在山東曲阜舉辦的“世界互聯網大會數字文明尼山對話”上,阿里云智能集團董事長兼首席執行官張勇宣布,阿里云的“通義千問”大模型自4月份對外測試以來,已吸引超過20萬企業申請接入。這一模型幾乎覆蓋了所有新興和傳統行業。此外,阿里云還啟動了“千問伙伴計劃”,旨在與各行業合作伙伴共建創新生態。該計劃已在油氣、電力、交通、金融等多個行業取得進展,并計劃進一步打造更多企業專屬模型,以促進各行業更快速地分享智能化帶來的紅利。
相關評價 編輯本段
2023年7月14日,巨人網絡與阿里云宣布達成全面合作,在上海簽署了合作備忘錄。雙方計劃共同建設一個基于巨人網絡游戲研發平臺、阿里云通義千問大模型以及AIGC產品能力的“游戲+AI”智算平臺。通過此次合作,兩家公司將致力于推動AI技術在游戲領域的應用和發展,特別是在云游戲、云計算、網絡安全、AR/VR以及游戲全球化等方面展開全方位的合作。這一舉措標志著雙方對于未來技術創新和應用前景的共同承諾。
2023年7月,IDC發布的最新AI大模型評估報告中顯示,通義千問在11項測試中的6項獲得滿分。同年8月15日,新華社研究院發布《人工智能大模型體驗報告2.0》,對中國主流AI大模型進行橫向測評。該榜單評測了中國8款主流AI大模型的基礎、智商、情商和工具提效表現,訊飛星火以總分1014分排名第一,阿里通義千問以總分935分排名倒數第二。同年12月,全球最大的開源大模型社區HuggingFace和OpenCompass分別公布開源大模型排行榜,阿里云通義千問(Qwen-72B)在兩個排行榜上均登頂榜首。
附件列表
詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。
如果您認為本詞條還有待完善,請 編輯
上一篇 硝酸鉀 下一篇 PlayStation