奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

近日,智谱公司发布了两款重磅AI模型:GLM-4-Voice和AutoGLM。这两款模型不仅在技术上实现了突破,更为用户带来了全新的交互体验。

Anthropic 推出新版 Claude 3.5 Sonnet 和新货 Claude 3.5 Haiku,可操控电脑帮你干活

GLM-4-Voice:情感语音

GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 可以直接理解和生成中英文语音,进行实时语音对话,并根据用户指令更改情感、语调、语速和方言等属性。

GLM-4-Voice 的模型架构包含三个组件:

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

  • GLM-4-Voice-Tokenizer:

通过向 Whisper 的编码器部分添加向量量化来训练,将连续的语音输入转换为离散的标记。每秒的音频都转换为 12.5 个离散令牌。

link:https://huggingface.co/THUDM/glm-4-voice-tokenizer

  • GLM-4-Voice-9B:

基于 GLM-4-9B 的语音模态预训练和对齐,能够理解和生成离散化语音。

link:https://huggingface.co/THUDM/glm-4-voice-9b

  • GLM-4-Voice-Decoder:

支持流式推理的语音解码器,基于 CosyVoice 重新训练,将离散语音令牌转换为连续的语音输出。生成可以从 10 个音频令牌开始,从而减少对话延迟。

link:https://huggingface.co/THUDM/glm-4-voice-decoder

其主要特点包括:

  1. 情感表达和共鸣:GLM-4-Voice可以模拟高兴、悲伤、生气、害怕等多种情绪,并用合适的语气进行回复,打破了传统TTS在情感表达上的僵硬局限。

  2. 调节语速:用户可以在对话中要求模型加快或放慢语速,满足不同场景下的需求。

  3. 灵活互动:支持随时打断和灵活输入指令,能够根据用户的实时指令调整语音输出的内容和风格。

  4. 多语言、多方言支持:目前支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话和北京话。

  5. 视频通话功能:即将上线的视频通话功能,将实现既能看又能说的全方位交互体验。

官方提供了一个可以直接启动的 Web Demo,用户可以输入语音或文本,模型将同时使用语音和文本进行响应。

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

GLM-4-Voice 提供的一些对话案例,包括情绪控制、语速改变、方言生成等方面的。

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

AutoGLM:AI的Phone Use时代

AutoWebGLM 是一个旨在构建更高效的语言模型驱动的自动 Web 导航代理的项目。该项目建立在 ChatGLM3-6B 模型之上,扩展了其功能,以更有效地导航 Web 并更好地应对现实世界的浏览挑战。

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

AutoGLM浏览器插件地址:

https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzwAutoGLM

浏览器插件包含通用搜索和高级搜索两个模块:

通用搜索包含生成摘要和总结页面,这个没啥说的。。

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

高级搜索,成功实现知网、知乎、小红书三个平台的功能适配。

在知网检索“2024年多模态大模型的最新研究进展”

在知乎检索“下半年AI的发展趋势”

在小红书站内检索相关小红书笔记(小红书的AI内容搜索是不是已经鸡肋了),请看VCR

炸裂!可以在小红书站内自动检索相关小红书笔记进行归纳总结,AI自动帮你去检索相关内容,你只需要输入关键词即可!!!

量子速读功能,可以选择需要阅读的小红书笔记,进行一键总结。

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

安卓内测地址:https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

AutoGLM是智谱发布的一款能够模拟人类操作手机的AI产品。它不仅仅是一个对话机器人,而是一个真正的Agent,能够理解用户的意图并自主完成一系列复杂的手机操作。

其主要功能亮点包括:

  • 自主操作手机:AutoGLM能够根据用户的语音或文字指令,完成如订酒店、取消点赞、发送消息等任务。

  • 多模态理解:能够理解图片、记录文字,并根据这些信息自动撰写内容。

  • 跨应用操作:虽然目前还不支持跨应用操作,但未来几个月内将实现更广泛的软件操作。

目前AutoGLM应用范围:

奇点临近 | 智谱发布AutoGLM,Phone Use时代来临!

  • 微信:微信发消息(文字/位置等等),公众号文章总结,朋友圈点赞/评论,打电话等

  • 淘宝:商品选购,店铺查找,评价总结/撰写,订单/购物车操作等

  • 美团:点外卖相关

  • 大众点评:打卡,写好评,查评价/榜单,查店铺等

  • 小红书:点赞/评论笔记,关注指定用户写总结等

  • 高德地图:导航,路线规划,查询周边等

  • 12306:订车票,订机票,查车次等

  • 携程:订酒店等

AutoGLM的实际应用案例展示了其强大的能力,例如用户只需一句话指令,AutoGLM就能自动打开携程预订酒店,或者在微信上进行点赞、评论等社交活动。

  文章内容来自于网络,由百合树AI整理,如有侵权,联系删除。如需开始AI写作请返回主页。

上一篇:

下一篇:

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注