歡迎光臨消費電子實驗室!

請登錄后使用快捷導航
沒有帳號？立即注冊

新聞資訊

品牌中心

電商展示

數字時尚

互動交流

消費電子實驗室 - 大中華區最具商業價值的消費電子專業網站 - The most valuable and professional Consumer electronics business website in Greater China › 消電電子實驗室 ›新聞中心› 行業動態 › 查看內容

最強大：谷歌發布多模態模型Gemini

2023-12-7 18:23| 發布者: bicq| 查看: 1913| 評論: 0

摘要: 谷歌Gemini所強調的原生多模態，是指從一開始就對不同的模態進行預訓練，然后用額外的多模態數據對其進行微調，以此來進一步完善大模型的有效性。

【消費電子實驗室-2023/12/7】北京時間今天凌晨，谷歌CEO皮猜和哈薩比斯在谷歌官網聯名發文，宣布推出這一萬眾矚目的多模態大模型。標題寫著“最大”、“最強”。

此次谷歌一共帶來了Gemini的三個版本：

Gemini Ultra：谷歌最大、最強模型，適用于高度復雜的任務

Gemini Pro：可擴展至各種任務的Gemini模型

Gemini Nano：適用于端側設備的高效Gemini版本（1.8B/3.25B）

其中Gemini Ultra一上來就在32個基準測試中拿下30個SOTA，并且第一個在MMLU基準上達到人類專家水平。

而Gemini Pro從今天起，就會在Bard中實裝上線。

谷歌Gemini背后的技術

谷歌Gemini背后技術的殺手锏，便是原生多模態（natively multimodal）。因為以往創建多模態大模型的方法，通常是為不同的模態訓練單獨的組件，然后將它們拼接在一起，大致模擬其中的一些功能。

這樣訓練出來的模型雖然有時可以很好地執行某些任務（比如描述圖像），但在面對更具概念性和復雜推理的情況下，就會出現表現不佳的結果。

而谷歌Gemini所強調的原生多模態，是指從一開始就對不同的模態進行預訓練，然后用額外的多模態數據對其進行微調，以此來進一步完善大模型的有效性。

谷歌對此表示：這樣的訓練方法，有助于Gemini從頭開始無縫地理解和推理各種輸入，遠遠優于現有的多模態模型；而且它的功能在幾乎每個領域都是最先進的。

具體到模型架構方面，Gemini基于增強的Transformer decoder打造，采用了高效attention機制（如multi-query attention），支持32k上下文長度。

盡管沒有透露Ultra和Pro版本的具體參數規模，但技術報告中提到，谷歌使用TPUv5e和TPUv4來訓練Gemini。

訓練Gemini Ultra使用了跨多個數據中心的大量TPUv4。這意味著與谷歌此前的主力大模型PaLM-2相比，Gemini在規模上顯著增大。

此前，PaLM-2被曝參數規模為3400億。

Pixel 8 Pro將是第一款運行Gemini Nano的智能手機

競爭對手那邊，OpenAI的GPTs驚艷全世界，微軟的Copilot更是先一步滲透進全線產品。

因此Gemini一出，谷歌也當即強調：Gemini將通過谷歌產品推向數十億用戶。

率先上線的是Gemini Pro。從今天起，谷歌的聊天機器人Bard將由Gemini Pro微調版本驅動。谷歌表示：這是Bard自推出以來的最大升級。

谷歌還打算把Gemini引入手機：Pixel 8 Pro將是第一款運行Gemini Nano的智能手機。

另外，谷歌計劃在接下來幾個月中，將Gemini全面推向搜索、廣告、Chrome和Duet AI等產品線。

根據官方數據，Gemini能使用戶的搜索生成體驗（SGE）速度更快、質量更高，比如在美國使用英語搜索延遲能減少40%。

值得關注還有，就在Gemini正式亮相的同時，谷歌還推出了專為大模型而設計的新一代TPU——Cloud TPU v5p。

參考鏈接：

[1]https://blog.google/technology/ai/google-gemini-ai

[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT

鮮花

握手

雷人

路過

雞蛋

收藏分享