交互大变革|智谱情感语音、AutoGLM带来的范式变化

1968年,“计算机领域的皇冠”图灵奖,迎来了两位影响未来历史的获奖者。
他们就是卫斯里·汉明约瑟夫·阿尔维,分别在自动编码系统、错误检测以及计算机体系结构和并行处理方面,做出了开创性的贡献。
尤其是阿尔维,在并行系统和高性能计算方面的研究,促进了计算机处理能力的提升,使得复杂的「图形用户界面」「实时交互」成为可能。
随着计算机性能的增强,用户体验也得到了显著改善,交互方式从最初的命令行界面(CLI)发展到更加直观的图形用户界面(GUI),最终演变为如今的触控、语音和体感交互等多种形式。
甚至可以说,我们今天习以为常的点击、滑动、按键等等一切的交互形式,一切的图形界面、实时的互动响应,距离56年前阿尔维的定义都没有本质变化。
然而半个多世纪后的今天,大模型的出现,真正让曾经二维平面的交互,走向了三维立体的、多模态的时代。
交互大变革|智谱情感语音、AutoGLM带来的范式变化
这几天,身边朋友都在分享智谱发布的对话功能和AutoGLM,“语音控制一切”似乎已然成为了现实。
「情感语音」是第一个重头戏。
不同于《钢铁侠》“贾维斯”机械式的Copilot语音助手,智谱的“情感语音”更加情绪丰沛,没有那么浓的“AI味儿”,反而多了几份人性。
交互大变革|智谱情感语音、AutoGLM带来的范式变化
除了能实现“高情商”的端到端的语音对话,各种方言、玩梗、搞抽象等也都得到了覆盖。
测试了一下,实际效果呈现了“新交互”带来的更多可能。
印象里,智谱一直保持技术先进的身位,海外媒体也称之为“最接近AGI的中国神秘存在”。
然而情感语音功能却打破了我的刻板印象,只让人觉得这个AI有点“癫”,仿佛戏精附体。
各种情绪随时切换,不仅像人说话一样懂停顿、会呼吸、可被打断,还熟练掌握戏谑、幽默、安稳等技能。
智谱版的“贾维斯”叫“小智”,喜怒哀乐都有,精通多种外语和方言,还能随意调节语速和音量。
更重要的是,以上多种特征可以融入在同一句话中,一人“分演多角”增加了很多可玩性
使用起来同样方便,在智谱清言APP进入即可,对想要尝试的朋友全部免费开放,某种意义上也是一种AI平权。
常规的生产力、学习、需求型问询,比如练口语、获取生活中的小妙招,因为“情绪”这一核心要义的注入,却是有了新的味道。
交互大变革|智谱情感语音、AutoGLM带来的范式变化
比如口语练习场景,市面上多数AI产品依然机器味很浓,对话仿佛是对着电脑做听力。
而智谱清言的小智却能还原“加州口音”或者“伦敦腔”,语气自然、语调夸张,停顿、连读等等非常自然,人人都有英语外教、处处都有Native Speaker成为了现实。
再比如“讲故事”这一情景,传统TTS实现的效果能做到不错的声音还原,但在“绘声绘色”和“情绪渲染”、“跌宕起伏”上表现并不好。
智谱小智讲故事,却是不仅抑扬顿挫,更是能模仿人物角色的口吻和腔调。

比如小智可以用广东话讲《西游记》孙悟空的故事,但话锋一转,无缝切换老北京版的孙悟空口吻,亲口来诉说取经之路,语速、语调完全换了个人。

如果是讲恐怖故事,智谱的情感语音还能拖长了腔调,模仿各种恐怖的音效,让人身临其境。

说相声、讲脱口秀等等,更是把方言运用的炉火纯青,收放自如,隐隐已经有了语言大师的派头。
实际使用的体验比较丝滑,和我们日常打语音电话类似,延迟并不久。
有很多瞬间让我以为电话对面真的是一个活生生的人,能引发我的共鸣或者情绪波动。
这里给大家感受一下,说绕口令一遍更比一边快,用粤语等方言也是那叫一个地道。
故意为难小智,给ta做压力测试,小智也是不慌不忙,非常完美地回答了我的刁难。

讲恐怖故事、打辩论、模仿各类声音……效果均达到了很高的水准,可以说训练的系统性全面性上很有覆盖。

作为一个AI演绎的“女鬼”,亲口讲述鬼故事,在我觉得害怕的时候,竟然还会反过来安慰我,一瞬间真的有被戳中。

总结一下,整体而言,GLM-4-Voice 具备以下优势和特点:
  • 情感表达和情感共鸣:模拟不同的情感和语调,如高兴、悲伤、生气、害怕等情绪,用合适的情绪语气进行回复。传统 TTS 通常在情感表达上比较僵硬,声音缺少起伏和细腻的变化。

  • 调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。

  • 随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容、风格和情感,支持更灵活的对话互动。例如,你可以随时打断 TA,让 TA 输出新的内容,更加符合日常对话情境。

  • 多语言、多方言支持:目前 GLM-4-Voice 尤其擅长北京话、重庆话和粤语。

 
为啥语音效果能这么自然?我特意研究了一下智谱的技术路线。
 
与传统的 ASR + LLM + TTS 的级联方案相比,端到端模型以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,避免了级联方案“语音转文字再转语音” 的中间过程中带来的信息损失,也解锁了更高的能力上限。
 

交互大变革|智谱情感语音、AutoGLM带来的范式变化

图|GLM-4-Voice 模型架构图
 
还有一个利好所有应用者、创新者的重大福音:GLM-4-Voice 不仅上线在清言 app,更是同步开源,成为了广大AI应用创业者的新引擎。
 
产品本身,出色的对话能力,也让清言成为国内首个具有端到端高级语音(超拟人语音)能力的大模型产品。
 
交互大变革|智谱情感语音、AutoGLM带来的范式变化
而且,不论是情感语音还是AutoGLM,智谱在隐私方面都非常严格,也把各项操作的决定权交给了用户。
 
看智谱官方发布的技术路线,在多轮对话、连续性、情感表达、长记忆等方面都有针对性的独特架构,呈现出“瑞士军刀般”的全能性效果。在一些中文梗的表达上,更是富有本土特色。
 
面向 AGI 的分级,智谱也有自己的一些思考。
 
L1 语言能力,L2 逻辑与思维能力,L3 工具能力大家是比较有共识的。
交互大变革|智谱情感语音、AutoGLM带来的范式变化
智谱认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。
 
从新的情感语音功能里“小智”的表现来看,无疑是在通往AGI的道路上又往前迈进了一大步。
 
TA 不仅可以说出快语速的绕口令、正念冥想时的轻柔语音,还可以在自我介绍时表现出如人类般的喜怒哀乐,以及讲鬼故事、说相声、角色扮演等。
 
可以化身为一个如真人般的对话伙伴,能听懂你的情绪、并且像人一样做出回应。
人和机器的交流,应该以自然聊天的状态进行。
 
从解决文本、到视觉、再到语音,GLM-4-Voice 的出现是智谱在迈向 AGI 的道路上迈出的最新一步。
 
交互大变革|智谱情感语音、AutoGLM带来的范式变化
 
然而,智谱对交互的探索还不仅于此。
 
AutoGLM肯定是很多朋友更关心的——真正打通端到端,在手机上、电脑上,用语音控制一切。
 
从副驾驶进化到全自动驾驶,智谱在Agent的落地应用上也已经悄悄走在了前列。
 
手机端直接调用,Web端插件使用,最高频、最刚需、最真实的场景里,AutoGLM也许即将成为新的「万能入口」。
 
交互大变革|智谱情感语音、AutoGLM带来的范式变化来自智谱相关研究
试想一下,我们可以用语音操控手机上的各个软件,简单一句话就能完成各种复杂的点呀点的操作;不需要鼠标和键盘,说句话就可以完成各类的工作指令……
 
从一把键盘,一个鼠标,再到手指与屏幕的一次触碰,都离不开背后技术的创新。同时,每一代技术都是对上一代计算能力/用户界面,以及系统的全面重构。
 
不同于有些硬件厂商的“OCR/catcher+模拟点击”,智谱的AutoGLM更有种“多模态读屏”的感觉,而语音只是其中最关键的模态之一。
一个最新的交互趋势是:从传统GUI(Graphical User Interface)到VUI(Voice User Interface),最终走向全新的Agent UI。
智谱的AutoGLM恰恰是这样一种全新的自动化Agent的尝试,从语音出发,进而带来整个交互范式的系统性变化。
交互大变革|智谱情感语音、AutoGLM带来的范式变化来自智谱相关研究
这两天仔细研究了一下智谱的技术文档,也和清华系的研究者进行了探讨,才知道原来AutoGLM的诞生,是基于一个名叫Autodroid的科研项目的成果实现。
GLM做的工作主要是LLM任务的生成可控性应用的GUI转化为可以被描述的事件
Autodroid的工作之一,就是将GUI的表示转化为一种HTML的表示形式,HTML这种形式对LLM来说比自然语言更好,可以保留UI元素的属性信息,比如“button”、“checkbox”、“scroller”、“input”和“p”,分别表示可以单击、选中、滑动、编辑和任何其他视图的元素。
简单来说,就是把用户语音被转化为文字,给LLM理解用户的意图提出步骤,再拿着UTG的转换信息给到LLM的上下文,通过结构化数据、输出动作命令,从而实现Agent的自动化交互。
交互大变革|智谱情感语音、AutoGLM带来的范式变化来自智谱相关研究
AutoGLM 解决了大模型作为智能体时的两个关键挑战:
挑战一:“动作执行”不够精确
训练大模型智能体的一大难题,在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练“动作执行”和“任务规划”能力,受制于轨迹数据获取成本高昂,数据总量严重不足,导致需要高精度的动作执行能力训练不充分。
为了解决这一问题,AutoGLM 引入了「基础智能体解耦合中间界面」设计,将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升。
例如,在手机上点外卖,需要点击“提交订单”按钮时,对比传统和“中间界面”方案,AutoGLM 的操作链路更短,操作效率和可控性也更高
交互大变革|智谱情感语音、AutoGLM带来的范式变化来自智谱相关研究
挑战二:“任务规划”不够灵活
另一个主要挑战在于,GUI 智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时,智能体需要具备灵活的即时规划和纠正能力。
这并非能通过例如模仿学习(Imitation Learning)和有监督微调(SFT)等传统大模型训练方法所能轻易获得。
为此,智谱以 Web 浏览器作为实验环境,研发了一种「自进化在线课程强化学习框架」以在真实在线环境中,从头开始学习和提升大模型智能体在 Web 和 Phone 环境中的能力。
通过引入自进化学习策略,模型不断自我考察、鞭策、提升。通过课程强化学习方法,该框架根据智能体当前迭代轮次的能力水平,动态调整学习的任务难度,以最大程度利用模型潜能。
而通过 KL 散度控制的策略更新以及智能体置信度经验回放,智谱减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。
基于该方法训练的开源版 GLM-4-9B,就可以在 WebArena-Lite 评测基准中相对 GPT-4o 提升超过 160%,达到总体 43% 的任务成功率。
交互大变革|智谱情感语音、AutoGLM带来的范式变化来自智谱相关研究
通过综合应用智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」策略,AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。
例如,在 AndroidLab 评测基准上,AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。
交互大变革|智谱情感语音、AutoGLM带来的范式变化
为了应对这些挑战,智谱推出了一个为训练网页智能体而设计的自进化在线课程学习框架——WEBRL。
据智谱技术文档所说,WEBRL 是第一个能够让 LLM 网页智能体在在线网络环境中从初始化开始就进行有效强化学习的系统性框架。
交互大变革|智谱情感语音、AutoGLM带来的范式变化图|WEBRL 概述。WEBRL 是一个自进化的在线课程强化学习框架,适用于基于 LLM 的网页智能体,在迭代的自进化过程中不断改进。
为了解决网页智能体训练任务稀缺的问题,智谱设计了一种自进化的在线课程,其利用了探索过程中固有的试错过程。
其中也用到了CoT,一步一步推理:这样就完成了一个用户提出动作问题、LLM解答问题的循环……

交互大变革|智谱情感语音、AutoGLM带来的范式变化来自智谱相关研究

从技术到应用,从科研到产品,从模型到落地,从语音到自动化交互……在新一轮LLM引发的系统性变革里,越来越多智谱一样的公司,率先打破了常规。
而这一切的背后,也将孕育一大批新的创新、新的机会。
想象一个场景:在当下成百上千个APP构建的智能系统中,你是否经常会从一个APP复制信息到另外一个APP来完成后续的一系列操作,当你需要跨应用或是跨平台完成信息处理时,你多少会觉得这些操作过于繁琐和无趣了。
根本原因就在于,大模型技术再次颠覆了信息流动的方式,但APP矩阵其实依然在沿用的是过去的方法。
移动互联网时代的抖音,用上下滑的视频交互、直播互动创建了平台级的内容生态;而在AI时代,更多交互的产生,AutoGLM已经建立了开端。
 
用AI接管硬件设备,用语音对话来调用一切,让我似乎看到了端到端Agent革命般的技术新可能。
 
看似活泼的表达,背后却是扎实的技术研发和深沉的洞察。
 
而未来,就藏着技术背后无声的洞察里。
 
更多强大功能,期待朋友们真的一定要亲自体验,我也将带来更多一手的测评和分享。
 
交互大变革|智谱情感语音、AutoGLM带来的范式变化
 
亲自体验一番的朋友,可以通过上方扫码前去感受一下智谱清言的最新对话效果~ 
期待一起步入新交互时代……
交互大变革|智谱情感语音、AutoGLM带来的范式变化

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注