六个月前,OpenAI 的视觉人工智能首次亮相,展示了其识别几乎所有物体以及解决数学问题的能力。而如今,“实时摄像头”(Live Camera)的功能似乎离实际推出又近了一步。
实时摄像头功能的最新进展
根据最新 ChatGPT Beta 版本的代码显示,OpenAI 的应用中加入了“实时摄像头功能”(Live Camera Functionality)的相关代码。这些功能包括:
-
实时处理(Real-time Processing)
-
语音模式整合(Voice Mode Integration)
-
视觉识别能力(Visual Recognition Capabilities)
这些功能将使用户可以通过摄像头实时与 ChatGPT 的高级语音模式互动,让 AI 为看到的内容提供即时反馈。这种体验类似于 Google 预期推出的 Project Astra,其特点是实时视觉分析。
演示中的功能亮点
在 OpenAI 于今年五月的春季更新中,实时摄像头的演示包括以下功能:
-
识别宠物及其行为,例如识别一只狗和它与球互动的动作,同时还能记住狗的名字等关键信息。
-
帮助用户在伦敦旅行时识别地点和地标,实时提供详细的注释。
在这之后,尽管高级语音模式已经广泛推广到所有平台,包括网页版,实时摄像头功能却显得沉寂了许多。
用户提示与安全警告
根据 Android Authority 的报道,OpenAI 的代码中还包含针对用户的提示,警告他们不要将实时摄像头功能用于导航或其他涉及健康和安全的重要决策。尽管如此,这一功能仍然被视为 OpenAI 至今最令人印象深刻的技术之一。
期待未来更新
目前,实时摄像头功能仍在测试阶段,但从发现的代码来看,这一功能可能很快会在 Beta 测试中亮相。OpenAI 是否会在不久的将来正式推出这一功能,我们拭目以待。
关注公众号【真智AI】
TOP AI模型智能问答|绘图|识图|文件分析
每天分享AI教程、赚钱技巧和前沿资讯!