Grok获得“视觉”能力——基于X平台的聊天机器人现可分析图像

埃隆·马斯克的AI公司xAI发布了其AI助手Grok的重大更新。最新版本中加入了视觉功能,使Grok不仅能够处理文本,还能够分析和理解图像内容。Grok此前已能够利用Black Forest Labs的Flux模型生成图像,但一直缺少图像分析(即AI视觉)功能。

Grok获得“视觉”能力——基于X平台的聊天机器人现可分析图像

视觉功能带来的新用途

通过这项新功能,Grok现在可以分析X平台上与帖子链接的图像,解读文件、图表、照片等视觉内容,甚至能够理解图像中的空间关系,从而更好地描述内容。比如,用户可以通过一张食材照片获得菜谱建议,识别照片中的地标位置,甚至解释图表的结果。这一功能在新闻内容丰富的平台上特别实用。

Grok的视觉功能如何运作

X平台上的图片帖子会出现一个新按钮。点击后,图片将被发送到Grok,用户可以就图片内容提出问题或请求分析。该功能还可以用于帮助视障用户描述图像。虽然xAI尚未发布官方基准测试数据,但据称Grok的视觉能力足以与OpenAI、Google和Anthropic等知名模型抗衡。为此,xAI引入了一个新的评估标准——RealWorldQA,用于测试模型对物理世界图像的理解和推理能力。

这一消息在AI社区和用户中引发了不同反响,有人对Grok的快速进展感到兴奋,也有人对此保持谨慎,质疑其与现有AI模型的竞争力。

Grok的未来展望

埃隆·马斯克旗下的xAI拥有一个由20万GPU组成的数据中心,专门用于训练Grok的未来版本。因此,Grok未来可能会有重大发展。尤其在视觉功能方面,Grok可能会逐步应用于机器人。马斯克拥有特斯拉,该公司本身也有自己的机器人部门。此外,未来Grok还可能具备视频和语音分析功能,这些特性在Gemini和ChatGPT等现有模型中已得到实现。

虽然此次更新对Grok来说是一个显著进步,但与更成熟的Gemini或ChatGPT相比,Grok仍在发展中。随着AI技术的迅速发展,未来几个月我们将继续关注其功能提升以及相关的伦理考量。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注