[新聞] Google 公布 Gemini 1.5 -- 多型態的生成模型

Google 在 2024 二月 15 日公布了新一代的生成模型: Gemini 1.5: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

可能剛好 OpenAI 緊接著發表 Sora所以風采有點被搶走，不過仍值得注意

賣點

是多型態 multi-modal, 也就是不光能處理文字，也能處理影片、聲音等等
能一次處理一百萬個 token (context window)，是目前 LLM 裡面最長的。估計是 70 萬字，或一小時的影片，或 11 小時的聲音，或三萬行的程式碼（而在他們的研究過程有測試到一千萬個 token context）
利用了「混合專家」Mixture-of-Experts, MoE 架構（之前 Mistral AI 的 “Mixtral 8x7B” 也是），模型是由多個類神經網路組成，再加上一個決策者的網路 (gating network) 綜合學習要綜合哪幾個網路的答案

目前 1M token 版本的只有部分的開發者與企業能使用

長 context 又怎麼樣？ #

長 context 代表處理大量知識的時候，比較不需要額外的知識庫，不需要間接用 embedding 相似度的方式篩選知識給語言模型；直接把知識全部餵進去就對了，也就是 in-context learning (omg is RAG overrated now?)

他們的部落格有三個示範，不過我最喜歡的是下面這個：他們把所有 Three.js (一個 3D JavaScript 函式庫) 的範例程式都餵給 Gemini 1.5 Pro，有大概十萬行、八十萬個 token

接著用人話問「有沒有關於 xxx 的範例」、「如果要加功能要怎麼改」，甚至因為 multi-modal 還能「以圖找 code」

跟 Gemini 1.0 “Ultra” 的比較 #

在 benchmark 表現上，綜合來說 Gemini 1.5 Pro 在文字的表現比較好，但在影片跟聲音相比之下比較差

不過訓練上需要的計算資源則比 Gemini 1.0 Ultra 少。在論文裡面似乎沒有提到 inference 速度的比較。也沒提到參數的數量

什麼是 Needle in a Haystack? #

大海撈針，也就是在同一個 context 裡面灌給 LLM 一堆東西，在裡面藏著一個奇怪的知識，給模型考試看他記不記得曾經看過這段話。詳情可以看gkamradt 的這個 repo，裡面有 2023 年底他為 GPT4 測試的，當餵的東西太多，他可能會忘記前面 50% 所提到的（跟人一樣，讀了後面忘了前面）

而在 Google 的論文裡面宣稱，直到五十萬 token 都還能夠記得裡面塞的資訊，就算是一百萬個 token 也有 99.7% 的情況可以取得（詳細數字請見論文）

若您覺得有趣, 請追蹤我的Facebook 或 Linkedin, 讓你獲得更多資訊！