快轉到主要內容

[新聞] Google 公布 Gemini 1.5 -- 多型態的生成模型

Google 在 2024 二月 15 日公布了新一代的生成模型: Gemini 1.5: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

可能 剛好 OpenAI 緊接著發表 Sora所以風采有點被搶走,不過仍值得注意

賣點

  • 是多型態 multi-modal, 也就是不光能處理文字,也能處理影片、聲音等等
  • 能一次處理一百萬個 token (context window),是目前 LLM 裡面最長的。估計是 70 萬字,或一小時的影片,或 11 小時的聲音,或三萬行的程式碼(而在他們的研究過程有測試到一千萬個 token context)
  • 利用了「混合專家」Mixture-of-Experts, MoE 架構(之前 Mistral AI 的 “Mixtral 8x7B” 也是),模型是由多個類神經網路組成,再加上一個決策者的網路 (gating network) 綜合學習要綜合哪幾個網路的答案

目前 1M token 版本的只有部分的開發者與企業能使用

長 context 又怎麼樣? #

長 context 代表處理大量知識的時候,比較不需要額外的知識庫,不需要間接用 embedding 相似度的方式篩選知識給語言模型;直接把知識全部餵進去就對了,也就是 in-context learning (omg is RAG overrated now?)

他們的部落格有三個示範,不過我最喜歡的是下面這個:他們把所有 Three.js (一個 3D JavaScript 函式庫) 的範例程式都餵給 Gemini 1.5 Pro,有大概十萬行、八十萬個 token

接著用人話問「有沒有關於 xxx 的範例」、「如果要加功能要怎麼改」,甚至因為 multi-modal 還能「以圖找 code」

跟 Gemini 1.0 “Ultra” 的比較 #

在 benchmark 表現上,綜合來說 Gemini 1.5 Pro 在文字的表現比較好,但在影片跟聲音相比之下比較差

不過訓練上需要的計算資源則比 Gemini 1.0 Ultra 少。在論文裡面似乎沒有提到 inference 速度的比較。也沒提到參數的數量

什麼是 Needle in a Haystack? #

大海撈針,也就是在同一個 context 裡面灌給 LLM 一堆東西,在裡面藏著一個奇怪的知識,給模型考試看他記不記得曾經看過這段話。詳情可以看gkamradt 的這個 repo,裡面有 2023 年底他為 GPT4 測試的,當餵的東西太多,他可能會忘記前面 50% 所提到的(跟人一樣,讀了後面忘了前面)

而在 Google 的論文裡面宣稱,直到五十萬 token 都還能夠記得裡面塞的資訊,就算是一百萬個 token 也有 99.7% 的情況可以取得(詳細數字請見論文)

若您覺得有趣, 請 追蹤我的Facebook 或  Linkedin, 讓你獲得更多資訊!