百川大模型
百川大模型是百川智能推出的一款大模型產品。它結合了意圖理解、信息檢索和強化學習技術,將監督微調與人類意圖對齊相結合,支持多輪對話、內容生成、文章摘要、知識問答、代碼生成、指令跟隨、數學和邏輯推理等多種場景。百川智能是中國擁有大型模型的獨角獸公司。截至2023年12月,其已發布7款大型機型,包括4款開源機型百川-7B/13B和兩款閉源機型百川-53b、百川-53B和百川2-192K-192k。
百川系列是世界上下載量最多的開源模型之一。截至2023年12月,百川模型的下載量已超過500萬次。自百川-53B模型發布以來,已有200多家企業申請部署和試用百川開源模型。
發展歷史 編輯本段
2023年4月10日,搜狗創始人兼前CEO王小川在社交媒體上發布消息稱,大型語言模型公司百川智能成立,主要業務方向是開發和提供通用人工智能服務。
2023年6月15日,百川智能發布了一款名為百川-7B的大型開源車型。基于Transformer結構,該模型已在約1.2萬億個代幣上進行訓練,其中包含70億個參數。它還支持中文和英文,上下文窗口長度為4096。
2023年7月11日,百川智能正式發布了兩個量化版本,分別是通用大語言模型百川-13B-Base、對話模型百川-13B-Chat及其參數為130億的INT4/INT8。
2023年8月31日凌晨,百川智能宣布其大模型已通過《生成式人工智能服務管理暫行辦法》備案,并向公眾開放。9月20日,百川智能大模型API上線。
2023年9月6日,百川智能舉辦了以“百川會海,開源共贏”為主題的大模型發布會。會上,百川智能宣布百川2-7B、百川2-13B、百川2-13B-Chat及其4-4bit量化版本正式開源并進行微調,它們均可免費商用。
2023年9月25日,百川智能發布了百川2-53B閉源大模型,該模型顯著提升了數學和邏輯推理能力,并通過建立高質量數據系統和增強搜索功能成功減少了模型錯覺的發生。此外,百川智能還開放了百川2-53B的API接口。通過開放API,百川智能將為各界合作伙伴提供大規模模型能力,推動企業智能化發展。
2023年10月17日,百川智能宣布完成3億美元A1輪戰略融資。阿里巴巴、騰訊、小米等知名科技公司和多家頂級投資機構均參與了本輪融資。加上此前的5000萬美元天使輪投資,百川智能累計融資金額已達3.5億美元(約25.43億元人民幣)。目前,百川智能的團隊規模超過170人,其中R&D人員占80%以上。
2023年10月30日,百川智能宣布推出百川2-192K大機型。該模型具有很長的上下文窗口,長度為192K,可以處理大約350,000個漢字。百川2-192K的發布不僅在大模型技術領域取得了重要突破,還驗證了長上下文窗口的可行性,為提升大模型性能開辟了新的研究路徑。
基礎設施 編輯本段
百川2系列是一個大規模多語言模型,其模型架構基于主流的Transformer。百川2有兩個獨立的模型:百川2-7B有70億個參數,百川2-13B有130億個參數。
分詞器單詞分隔符:在分詞設計中,需要平衡兩個關鍵因素:一是高效推理所需的高壓縮率,二是大小合適的詞匯量。為了充分訓練每個單詞的嵌入,百川團隊采用了來自SentencePiece的字節對編碼,并且沒有對輸入文本進行歸一化處理。為了更好地對數字數據進行編碼,并對包含額外空格的數據進行編碼,百川團隊還在單詞分隔符中添加了僅包含空格的標記,并將數字分成單個數字。此外,為了考慮到中文中存在一些長短語,百川團隊將最大token長度設置為32。在位置編碼上,百川2-7B采用繩索,而百川2-13B采用不在場證明。
激活功能和標準化:百川2在激活功能和標準化方面采用了SwiGLU+xFormers(注意力和偏離能力結合ALiBi以減少內存開銷)+RMSNorm(層歸一化變壓器塊的輸入)。
激活功能:百川2使用SwiGLU激活功能。SwiGLU具有“雙線性”層并包含三個參數矩陣,這與包含兩個矩陣的傳統變壓器前饋層不同。因此,百川團隊將隱藏大小從4倍減少到了8倍,并進行了適當調整。
注意層:百川2采用xFormers2實現記憶高效注意。通過利用xFormers優化注意力和偏差的能力,我們可以將ALiBi基于偏差的位置編碼集成到模型中,并減少內存開銷。這為百川2的大規模訓練提供了性能和效率優勢。
歸一化:百川2將層歸一化應用于Transformer block的輸入,這對于預熱更加魯棒。此外,該模型由RMSNorm實現,該模型僅計算輸入特征的方差以提高效率。
功能服務 編輯本段
百川模型目前處于開發階段,部分功能尚未完善。普通用戶可以通過百城2-53b機型體驗知識問答、文字創作等功能。百川智能表示,百川-53B在文本創作的創意、風格模仿和實用性方面都可以做到足夠出色,并且可以對大多數任務給出良好的響應。但大模型似乎不認為它有能力獲得實時消息。
數據概述
培訓數據源:百川2模型訓練是在通用、法律、醫療、數學、代碼和多語種翻譯六個領域的權威中英和多語種數據集上對模型進行全面測試。百川智能團隊通過各種渠道收集數據,包括互聯網頁面、書籍、研究論文、代碼庫等。,以建立全面的世界知識體系。
數據規模:百川2的數據是基于數萬億的互聯網數據,它也是從健康和法律等垂直行業中選擇和采用的。此外,該模型建立在世界知識體系之上。在數據處理階段,《百川2》利用超大規模內容聚類系統對千億級數據進行清洗和過濾,并對章節、段落和句子進行多粒度的質量評估。《百川2》使用2.6TB的超大規模語料庫進行訓練,支持中文、英語、西班牙語和法語等數十種語言。這些技術手段和數據資源的采用,為“百川2號”的訓練提供了有力支撐。
數據處理:百川團隊在數據處理中注重數據的頻率和質量。為了確保數據頻率的高效率和準確性,他們設計了一個大規模重復數據刪除和聚類系統,該系統支持類LSH特征和密集嵌入特征。該系統可以在短時間內對數萬億數據進行群集和重復數據消除。基于聚類結果,系統還可以復制文檔、段落和句子,并計算用于采樣預訓練數據的分數。
應用領域 編輯本段
截至2023年9月,已有超過200家企業申請部署百川模式,覆蓋云廠商、科技行業、制造、消費等多個行業的企業。
相關合作 編輯本段
AI黑客馬拉松:2023年8月28日,百川智能、亞馬遜云科技、上海ai客廳聯合舉辦AI黑客馬拉松。本次大賽以“AGI更美好”為主題,開辟了醫療健康和游戲娛樂的雙軌賽道,為所有技術精英提供了一個同場競技的平臺,共同探索大模型在醫療健康和游戲娛樂領域的前沿應用。
百川英博基金:2023年9月,百川智能攜手中國計算機聯合會、北京英博數學科技有限公司共同成立CCF-百川英博榜樣基金,旨在支持高校和科研院所的青年學者,為他們提供產學研合作和學術交流的優質平臺。基金擬設置大規模模型基礎能力和創新應用兩大專題:大規模模型基礎能力專題涵蓋大規模模型預訓練、對齊、安全、架構、Agent等;創新應用主題涵蓋垂直和跨學科應用(如醫療和游戲等垂直領域)。
與鵬城實驗室合作:2023年11月16日,百川智能與鵬城實驗室宣布將共同探索大規模模型的訓練與應用,并基于國內算力聯合開發128K大規模模型“鵬城-百川心智33B”。百川智能表示,希望通過與合作伙伴的開源共創,助力中國大模型創新,繁榮本土大模型生態。
附件列表
詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。