谷歌正在不断更新其Gemini模型,每隔几周就会发布新版本。而最新版本表现如此优秀,一举登上Imarena Chatbot Arena排行榜榜首,击败了OpenAI最新版本的GPT-4o。
Gemini模型的最新成果
Imarena(前身为LMSys)是一种平台,允许各AI实验室将其最佳模型进行盲测对决。用户投票时无法知道具体的模型名称,直到投票后才揭晓。
谷歌DeepMind推出的最新模型名为Gemini-Exp-1114,不仅与OpenAI最新版本的GPT-4o持平,还超越了OpenAI的o1-preview推理模型。
排行榜前五名的模型全部由OpenAI或Google开发。前五名之外第一个由其他公司推出的模型是xAI的Grok 2。
新模型的实际表现
根据Chatbot Arena的数据显示,Gemini-Exp-1114在数学和视觉任务上的表现尤为出色,这符合所有Gemini模型的强项。
不过,目前该模型尚未在Gemini应用程序或官网中提供,用户只能通过注册免费的Google AI Studio账户访问。这一平台主要面向开发者,用于尝试新创意。
目前尚不清楚该模型是否属于Gemini 1.5版本的改进,或者是Gemini 2的早期版本。如果是后者,其性能相较上一代的提升可能没有某些预期中的那么大。不过,根据基准测试,它在技术和创意领域表现出色,尤其擅长数学、解决复杂问题、创意写作以及视觉任务。
Chatbot Arena与其他基准测试不同,它基于人类对性能和输出质量的主观感受,而不是通过数据进行严格测试。
未来展望
无论这是Gemini 1.5 Pro的改进版本,还是Gemini 2能力的早期展现,未来几个月的AI领域将会非常有趣。