快轉到主要內容

Claude 新模型 3.5 Sonnet 真的好嗎?實測

最近 Claude 推出新版本 3.5。原本 3 有三個模型,目前升上 3.5 的是中階模型 Sonnet

這次的升級除了更強的模型,還有新功能 Artifact – 預覽生成並即時互動,這個很酷。重點是,免費

與其聽宣傳詞不如看下面的實測:

Artifact #

Artifact 是他們新的輔助功能,讓你能在螢幕右邊即時看到生成結果

「不就是把輸出從聊天室搬到右邊?」不不,這樣想就太天真了

  1. 輸出的 HTML / Javascript / SVG 等等, 可以即時看到 render 後的頁面結果,並且互動!
  2. UX 比較自然,你不用一直捲就能看到輸出的不同版本

像上面影片所示,我讓 Claude 3.5 Sonnet 產生 todo list 的網頁 + Javascript。我不需要把它生出來的程式碼 copy 到另一個地方執行;我能直接在 Claude 裡面預覽而且即時互動,檢查他有沒有做錯

只要右側的右上角有 Preview / Code 可以選,就表示能切到 Preview 直接看頁面結果

預覽好,但是 #

不是每次產生的結果都能「預覽」,甚至是能「互動」

  • 實測感覺他傾向產生給 React.js 的版本。React 的話他只有 render 前端,不會有跟後端的互動
  • 可以讓他產生 Vanilla JS 的,上面影片就是這個版本,能實際玩
  • 但也不是每次都能產生預覽

然而,自己要釐清使用的目的,下面是畫折線圖的例子

Line chart of a csv using React in Claude
從 CSV 直接產生折線圖給你看

我給他 csv 檔請他產生折線圖,他真的能在右側預覽產生:只不過,不只是折線「圖」,他是 React.js ,可以直接在右側 hover 互動看值

也就是,Claude 新模型 + Artifact 的概念是「當場滿足你的問題」讓你不加工。但這也表示問問題的時候要精確

… 例如這個圖不能下載(他不是靜態圖片檔)

你當初並沒有說要產生能下載的圖(Claude 也沒辦法生圖),也沒說要圖片檔,只是說要看折線圖,所以 Claude 直接在 Artifact 上給你看了折線圖:是由 LLM 產稱文字(程式碼)+ 外掛 Artifact 去預覽的

所以如果你要折線圖的圖片檔,你要主動叫他生成能把折線圖存成檔案的 python 程式碼,而且自己 copy 到別的地方額外去執行

這點 ChatGPT 4o 倒是很厲害,生成的折線圖能直接讓你下載成 png

Line chart of a csv in ChatGPT 4o, and is downloadable
ChatGPT 4o 的折線圖能下載成 png, 也能互動 hover 換線顏色

理解力強 #

我在另一個請他畫實測類神經網路的圖示 – Claude 本質上不會生圖片,但是以這個例子他能生出 SVG 的指令,產生幾何線條圖

Preview the SVG of a neural network illustration Preview the SVG of a neural network illustration SVG code of a neural network illustration
Sonnet 畫圖示,用 SVG,從很奇怪的圖到逐步改進

重點是,我沒有指定說用 SVG,而 Claude 用他覺得能「當場滿足我的問題」的方式回應(在這個例子是好的)

而且他的理解力很高,讓我能迭代更改我的需求,跟他一來一回的對話即時觀看結果然後改進,就像是跟設計師聊天一樣

以畫圖示的例子,這反而比 ChatGPT 厲害(ChatGPT 無法畫出 SVG )。有可能是 Claude 特別為了 Artifact 呈現方式,去微調模型善用 SVG ,來滿足這一類的需求

理解圖片 #

最後,實測 Sonnet 能否看懂圖片

Give Sonnet a flowchart and let it describe
Sonnet 能看懂我畫的流程圖

Claude 3.5 Sonnet 能流程圖,包括裡面的流程,文字,以及我在流程關聯出去的 LLM 他也理解

不過這例子 ChatGPT 4o 也能做得到

總結 #

Claude 3.5 的升級不僅是看起來很炫的 Artifact,而是

  • 更強的大腦 (LLM, Sonnet 3.5)
  • 更好的呈現 + 工具 (Artifact)

兩者搭配就地滿足使用者的需求,不只是個 input/output 問答黑盒子了


若您覺得有趣, 請 追蹤我的Facebook 或  Linkedin, 讓你獲得更多資訊!