Gemini
Gemini是谷歌開發的人工智能AI模型。2023年12月6日,該機型推出Gemini1.0版本,包括GeminiUltra、GeminiPro、GeminiNano三種不同規格。谷歌在2023年4月啟動了OpenAI的研究計劃,并合并了兩個大型人工智能團隊。2023年8月,谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具,并于同年9月向少數公司開放了其交互式人工智能軟件Gemini的早期版本。2023年12月6日,谷歌正式推出Gemini1.0,包括GeminiUltar、GeminiPro、GeminiNano三種不同規格。
Gemini內置了Google自主研發的AI超級計算機芯片Cloud TPU V5P,這是首款在MMLU基準測試上優于人類專家的模型。基于從無到有構建的多模型,可同時識別文本、圖像、音頻、視頻、代碼等五類信息,理解并生成流行編程語言(如Python、Java、C++)的高質量代碼,具有全面的安全評估。
2023年12月13日開始,開發者和企業用戶可以通過Google AI Studio或Google Cloud Vertex AI中的Gemini API獲取Gemini Pro。Gemini還會應用到谷歌更多產品和服務中,如搜索、廣告、Chrome和Duet AI。
2024年2月15日,谷歌發布Gemini1.5版本。
發展歷史 編輯本段
2023年4月,Alphabet(谷歌母公司)首席執行官桑達爾·皮查(Sandahl Pichat)合并了兩個大型人工智能團隊,啟動了OpenAI項目。2023年5月,谷歌在開發者大會上透露,正在開發大AI模型Gemini。2023年8月,谷歌將生成式人工智能引入其面向印度和日本用戶的搜索工具,該工具將以暗示性語言和摘要的形式顯示文本或視覺結果。同時,它還以每個用戶每月30美元的價格向企業客戶提供其人工智能工具。2023年9月15日,The Information報道稱,谷歌已經向少數公司開放了其交互式人工智能軟件Gemini的早期版本。2023年11月16日,谷歌表示將推遲發布AI模型Gemini。
2023年12月6日,Gemini的初始版本在谷歌的聊天機器人Bard推出。同時優化推出了Gemini1.0版本,包含Gemini Ultar、Gemini Pro、Gemini Nano三個不同規格的套件。Gemini是一種新的AI模型,可以處理文本、圖像和視頻,它內置了谷歌自研的AI超級計算機芯片CloudTPU V5 P. Demis Hassabls說:“Gemini是谷歌團隊大規模協作的結果。它是從零開始構建的多模型,這意味著它可以總結并無縫理解、操縱和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻。”此外,Pixel引入了Gemini,搭載了Gemini Nano的Pixel 8 Pro,在“記錄器”應用中支持“摘要”等新功能,在Gboard中引入了“智能回復”功能。Gemini是第一個在MMLU(大規模多任務語言理解)方面優于人類專家的模型。
2024年2月15日,谷歌發布Gemini1.5。Gemini 1.5中的第一個多模態通用模型Gemini 1.5 Pro,可以將穩定處理上下文的上限擴展到100萬個tokens,在Kalamang到英語的翻譯測試中是最好的模型。
功能服務 編輯本段
復雜推理能力:Gemini1.0具有復雜多模態推理能力,可以幫助理解復雜的書面和視覺信息,可以在海量數據中發現難以分辨的知識。在學習上,它能更好地理解微妙的信息,回答與復雜話題相關的內容,從而能夠對數學、物理等復雜學科進行推理。Gemini1.0具備通過閱讀、過濾、理解信息,從數十萬文檔中提取知識的能力,有助于在科學、金融等諸多領域取得新突破。
認識和理解:Gemini1.0采用Transformer架構和高效的注意力機制,可以識別和理解文本、圖像、音頻等。同時。它能充分理解輸入中的信息細節并生成任務。在圖像參考方面,Gemini Ultra可以在不借助對象字符識別(OCR)系統的情況下從圖像中提取文本。在視頻理解方面,Gemini模型是通過將視頻編碼成大上下文窗口中的一系列幀來完成的。視頻幀或圖形可以自然地與文本或音頻交織在一起,并且可以處理可變的輸入分辨率。作為Gemini中最強大的規范,Gemini Ultra在MMLU(大規模多任務語言理解數據集)中的評分高達90.0%,首次超過人類專家。MMLU數據集包含數學、物理、歷史、法律、醫學、倫理學等57個學科。Gemini Ultra結合考慮模型不確定性的思維鏈提示方法,生成包含k個樣本的思維鏈。如果有高于預設閾值的共識,則選擇這個答案,否則將返回到基于無思維鏈的最大似然選擇的樣本。
高級編碼能力:Gemini可以理解、解釋和生成流行編程語言(如Python、Java、C++和Go)的高質量代碼,可以跨語言工作和推理復雜信息,也可以作為高級編碼系統的引擎。比如AlphaCode團隊打造的AlphaCode2,將Gemini座的推理能力與搜索、工具使用相結合,解決競爭性編程問題。在Codeforces的競技編程平臺上,AlphaCode 2排名進入者前15%。
安全功能:Gemini有全面的安全評估,包括偏差和病毒。Google應用Google Research的對抗性測試技術,根據Google AI原理和嚴格的產品安全政策添加新的保護措施,綜合考慮潛在風險,在開發的每個階段都進行測試和風險降低。此外,谷歌還與外部專家合作進行壓力測試,以確保內容的安全性,并建立了專門的安全分類器來識別和過濾有害內容,以確保Gemini更加安全和包容。此外,Gemini Nano可以在使用特殊芯片的終端設備上運行,這種模式也可以在沒有網絡連接的情況下使用,不會造成個人數據的丟失。例如,Pixel 8 Pro在錄音機應用中使用Gemini Nano來總結會議音頻,即使沒有網絡連接。
關鍵技術 編輯本段
Gemini最大的亮點之一是獨創的多模態大模型,從一開始就對不同的模態進行預訓練,并使用額外的多模態數據進行微調,以提高其有效性。Gemini1.0系列內置自研AI超級計算機芯片云TPU v5p,這是谷歌為神經網絡設計的專用芯片。優化后可以加快機器學習模型的訓練和推理。與TPU v4相比,TPU v5p的浮點運算性能提高了2倍,高帶寬內存提高了3倍。TPU v5p可提供459萬億次浮點運算(每秒執行459萬億次浮點運算)的bfloat16(16位浮點數格式)性能或918萬億次浮點運算(每秒執行918萬億次整數運算)的Int8(執行8位整數運算)性能,支持95GB高帶寬內存,可以2.76 TB/s的速度傳輸數據
模特培訓:Gemini模型建立在Transfomer解碼器上,這些解碼器通過架構的改進和模型優化得到增強,從而在Google的張量處理單元上實現大規模穩定訓練和優化推理。它們被訓練成支持32k的上下文長度并采用有效的注意機制。R&D團隊使用TPUv5e和TPUv4來訓練Gemini模型。TPU是谷歌為神經網絡設計的專用芯片,經過優化后可以加快機器學習模型的訓練和推理速度。TPUv4加速器部署在4096芯片“SuperPods”中,每個芯片都連接到一個專用的光開關,4×4×4芯片立方體可以在大約10秒內動態重新配置為任何3D環形拓撲。
Gemini接受了多模態和多語言數據集的訓練。預訓練數據集使用來自網絡文檔、書籍和代碼的數據,包括圖像、音頻和視頻數據。使用句子標記來提高推理詞匯。R&D團隊使用啟發式規則和基于模型的分類器對所有數據集應用質量過濾器,并執行安全過濾以消除有害內容。為了實現高效的模型訓練,Gemini使用了冗余內存復制和快速故障恢復機制。這提高了總吞吐量并縮短了訓練時間。在開發過程中遵循負責任的部署原則,通過影響評估、模型策略制定、評估和風險緩解來降低潛在的負面影響。
模型評估
文本:在文本方面,R&D團隊將Gemini Pro和Gemini Ultra與一組外部大規模語言模型和谷歌推出的多模態模型PaLM2在一系列基于文本的學術基準上進行比較,涵蓋推理、閱讀理解、Stem和編碼,并做出了報告。報告分別展示了Gemini Pro和Gemini Ultra在MMLU、編碼和數學運算方面的數據。得出結論,GeminiPro的性能優于GPT-3.5等推理優化模型,而GeminiUltra優于目前所有模型。
多路模式:在圖像理解方面,研究小組在四個不同的功能中評估了Gemini模型:使用字幕或問答任務的高級對象識別(如vqa v2);使用TextVQA和DocVQA等任務進行細粒度轉錄;圖表理解需要使用ChartQA和InfographicVQA任務在空間上理解輸入布局;并使用Ai2D、MathVista、MMMU等任務進行多模態推理。在視頻理解中,研究團隊從每個視頻片段中采樣了16個等距幀,用于理解和推理。在音頻理解方面,研究小組在各種基準上評估了Gemini Nano-1和Gemini Pro模型,并與通用語言模型(USM)、Whisper和large-v3進行了比較,并將不同的語言翻譯成英語。評測結果顯示,在所有ASR(自動語言識別)和AST(自動語音翻譯)任務中,Gemini Pro模型明顯優于USM和Whisper模型。
相關影響 編輯本段
作為谷歌和全球發布的第一款多模態模型,Gemini模型是第一款在MMLU上性能超越人類專家的模型。與此同時,谷歌同步發布了最新版本的計算芯片TPU v5p,其性價比是上一代TPU v4的2.3倍。多模態Gemini模型的正式發布,不僅可以拓寬應用場景,還可以帶來計算能力需求的不斷升級。皮查伊表示,人工智能將增強創造力,擴展知識,促進科學發展,改變全球數十億人的生活和工作方式。
隨著AI創作工具相關技術迭代的不斷升級,生產力將迎來更新迭代,AI技術與內容創作的結合將進入實質性階段,因此內容市場將進入長期繁榮趨勢,產業鏈可能全面受益。同時,Gemini的推出也對人工智能領域產生了影響。a股市場,人工智能板塊早盤明顯獲得主力資金流入,凈流入超過11億元。
Gemini的發布也對芯片廠商造成了一定的影響。2023年12月7日凌晨,AMD CEO宣布推出Instinct MI300X AI加速芯片,并量產MI300A芯片。到12月6日美股收盤時,AMD的股價已經下跌了1.32%,英偉達的股價也下跌了2.28%。
相關爭議 編輯本段
濫用風險:2023年7月,Anthropic首席執行官阿莫迪和人工智能先驅Yoshua Bengio等人工智能專家表示,不受控制的人工智能發展將帶來嚴重的社會風險。阿迪莫說:“我特別擔心人工智能系統可能在網絡安全、核技術、化學尤其是生物領域被大規模濫用。”專家對Gemini功能的評價并不全面和穩定。新墨西哥圣達菲研究所的人工智能研究員梅拉妮·米切爾(Melanie Mitchell)說:Gemini是一個復雜的人工智能系統,但它的能力實際上并沒有明顯高于GPT-4,它在不同基準上的表現也沒有那么穩定。在語言和代碼上的表現遠好于圖像和視頻,不符合多模態基本模型在很多任務中發揮普遍而強大作用的標準。斯坦福大學基本模型研究中心主任珀西·梁(Percy Liang)和華盛頓大學計算語言學教授艾米麗·本德(Emily Bender)表示:谷歌用來評估其預計用于這些不同目的的模型的基準無法得到徹底評估。
造假糾紛:2023年12月8日,有外媒公開質疑Gemini“業績”造假。谷歌在線展示的Gemini可以像人一樣快速判斷圖片中的實物并進行語音反饋,突出了令人驚嘆的多模態功能,但從實際情況來看,很難達到這樣的效果。Gemini負責人對此回應,否認故意造假,稱只是為了簡潔而縮短反應時間,并承認這段視頻并非實時,而是使用了原鏡頭中的靜止圖像幀,然后寫了文字提示。
2023年12月18日,微博大V@蘭和艾研究局自媒體爆發。在測試Google Gemini的時候,如果你用中文問它的身份,它會堅持說是“百度”。如果輸入“小杜”或“蕭艾同學”等提示詞,可以直接喚醒Gemini,不僅承認自己是小杜或蕭艾,還可以詢問用戶需要什么幫助。12月20日,科技媒體Quantum Bit對Gemini進行了測試。它在Google Vertex AI平臺上使用Gemini進行中文對話,發現Gemini-Pro完全帶入了百度文心一言模型的身份,Gemini直接表明是百度語言模型。12月18日下午,界面新聞也對Gemini-Pro進行類似身份測試時,發現其已經優化了型號,不再承認與百度有關。
人工智能圖像生成器引發爭議:AI模型Gemini有根據人物生成圖像的功能,但是有用戶發現這個功能生成的人物大部分不是白人,而是有色人種。這一功能被批評淡化了白人的代表性,并產生了歷史上不準確的形象。2024年2月23日,谷歌高級副總裁普拉巴卡爾·拉加萬(Prabhakar Raghavan)就用戶反饋在Gemini生成人物圖像時出現的問題道歉。Raghavan說,“顯然,這個功能沒能達到預期的效果。一些生成的圖像不準確,甚至令人不愉快。我們感謝用戶的反饋,并對該功能未能很好地發揮作用感到抱歉。”對此,谷歌表示,正在采取讓Gemini暫時停止運行生成人物形象功能的做法。
附件列表
詞條內容僅供參考,如果您需要解決具體問題
(尤其在法律、醫學等領域),建議您咨詢相關領域專業人士。