昨晚,OpenAI 突然上線(xiàn)新模型 GPT-4o mini, 聲稱(chēng)要全面取代 GPT-3.5Turbo。
在性能方面,GPT-4o mini 在 MMLU 上的得分為82%,在 LMSYS 排行榜的聊天方面分?jǐn)?shù)優(yōu)于 GPT-4。
在價(jià)格方面,GPT-4o mini 比之前的 SOTA 模型便宜一個(gè)數(shù)量級(jí),商用價(jià)格是每百萬(wàn)輸入 token15美分,每百萬(wàn)輸出 token60美分,比 GPT-3.5Turbo 便宜60% 以上。
OpenAI 表示,ChatGPT 的免費(fèi)版、Plus 版和 Team 用戶(hù)將能夠從周四開(kāi)始訪問(wèn) GPT-4o mini(其知識(shí)截至2023年10月),以代替 GPT-3.5Turbo,企業(yè)用戶(hù)可以從下周開(kāi)始訪問(wèn)。
目前,GPT-4o mini 在 WildBench 測(cè)試上排名第九,優(yōu)于谷歌的 Gemini-flash 以及 Anthropic 的 Claude3Haiku。
在今天的凌晨的文章中,我們已經(jīng)介紹了 GPT-4o mini 的一些基本情況(參見(jiàn)《GPT-4o Mini 深夜突發(fā):即刻免費(fèi)上線(xiàn),API 降價(jià)60%》)。在這篇文章中,我們將補(bǔ)充介紹模型的實(shí)際使用體驗(yàn)以及這份工作背后的研究者。
GPT-4o mini 一手評(píng)測(cè)
在 GPT-4o mini 開(kāi)放測(cè)試的第一時(shí)間,我們問(wèn)了它一個(gè)最近比較熱門(mén)的話(huà)題,9.11和9.9哪個(gè)大,很遺憾,GPT-4o mini 依然沒(méi)有答對(duì),還一本正經(jīng)地回答0.11>0.9。
接著我們?cè)?Poe(Quora 開(kāi)發(fā)的應(yīng)用程序,已經(jīng)集成了 GPT-4o mini)中輸入人物傳記電影《Eno》的設(shè)計(jì)封面,讓兩個(gè)模型解讀,結(jié)果 mini 翻車(chē)了。GPT-4o mini 直接表示「自己認(rèn)不出照片上的人。」
與之相對(duì)的,GPT-4o 的回答就比較準(zhǔn)確。「這張圖片看起來(lái)像是一幅拼貼畫(huà),由一張照片的多個(gè)碎片組成,照片中是一位留著白胡子、身穿亮粉色襯衫的老人。這幅圖由同一張照片的不同部分創(chuàng)造性地排列而成,產(chǎn)生了馬賽克或拼圖般的效果。照片中的男子表情若有所思,手撫摸著臉。」
接著我們又測(cè)試了另一個(gè)問(wèn)題:在客廳的桌子上放著一個(gè)杯子,杯子里有一個(gè)戒指。這個(gè)杯子被移到了書(shū)房的桌子上,然后移到了臥室的床上。在那里,杯子被翻倒了一次,然后又恢復(fù)了原樣。之后,杯子被放回了客廳的桌子上。那么,現(xiàn)在戒指在哪里呢?如果我們分開(kāi)問(wèn),答案不一樣,GPT-4o 似乎更聰明點(diǎn)。
但是,如果我們一起發(fā)問(wèn),它們的答案又會(huì)變得雷同:
GPT-4o mini 回答數(shù)學(xué)題的表現(xiàn)如何呢?機(jī)器之心用丘成桐少年班2024年選拔試題測(cè)試了一下它解決數(shù)學(xué)問(wèn)題的能力。
雖然 GPT-4o mini 對(duì)問(wèn)題的解讀都比較清晰,但在分析過(guò)程中出現(xiàn)「胡言亂語(yǔ)」的邏輯錯(cuò)誤,像極了上數(shù)學(xué)課根本聽(tīng)不懂但硬答的學(xué)生。
不過(guò)也不必著急,畢竟 GPT-4o 的回答更不理想,它甚至沒(méi)有看懂?dāng)?shù)字表示的是正方形的邊長(zhǎng)。
在文字的總結(jié)能力上,GPT-4o mini 與 GPT-4o 的能力不相上下。都能將重點(diǎn)信息進(jìn)行抓取,但 GPT-4o 的回答更顯條理。
不過(guò)主打「Faster for everyday tasks」的 GPT-4o mini,響應(yīng)速度確實(shí)對(duì)得起「Faster」之稱(chēng)。和它對(duì)話(huà),幾乎無(wú)需等待,輸出速度也是快得離譜。
日本網(wǎng)友用 GPT-4o mini 搭建了一款 AI 聊天機(jī)器人,響應(yīng)速度依然快得驚人。
還有網(wǎng)友將 GPT-4o 和 GPT-4o mini 輸出速度進(jìn)行了對(duì)比,GPT-4o mini 明顯更快:
從大家體驗(yàn)效果上來(lái)看,GPT-4o mini 主打一個(gè)字「快」,但實(shí)際使用體驗(yàn)可能還是差了一些。
責(zé)任編輯 :
[聲明]本網(wǎng)轉(zhuǎn)載的作品目的在于傳遞更多信息,此稿件并不代表本網(wǎng)的觀點(diǎn),本網(wǎng)不承擔(dān)此類(lèi)稿件侵權(quán)行為的連帶責(zé)任。如果你認(rèn)為此類(lèi)稿件侵犯了您的合法權(quán)益,請(qǐng)將相關(guān)資質(zhì)證明發(fā)送至mingyou360kf@sina.com,名優(yōu)資源網(wǎng)工作人員會(huì)及時(shí)回復(fù)并處理!