奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！-百合树AI写作-专业学术论文写作助手

近日，智谱公司发布了两款重磅AI模型：GLM-4-Voice和AutoGLM。这两款模型不仅在技术上实现了突破，更为用户带来了全新的交互体验。

Anthropic 推出新版 Claude 3.5 Sonnet 和新货 Claude 3.5 Haiku，可操控电脑帮你干活

GLM-4-Voice：情感语音

GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 可以直接理解和生成中英文语音，进行实时语音对话，并根据用户指令更改情感、语调、语速和方言等属性。

GLM-4-Voice 的模型架构包含三个组件：

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

GLM-4-Voice-Tokenizer：

通过向 Whisper 的编码器部分添加向量量化来训练，将连续的语音输入转换为离散的标记。每秒的音频都转换为 12.5 个离散令牌。

link：https://huggingface.co/THUDM/glm-4-voice-tokenizer

GLM-4-Voice-9B：

基于 GLM-4-9B 的语音模态预训练和对齐，能够理解和生成离散化语音。

link：https://huggingface.co/THUDM/glm-4-voice-9b

GLM-4-Voice-Decoder：

支持流式推理的语音解码器，基于 CosyVoice 重新训练，将离散语音令牌转换为连续的语音输出。生成可以从 10 个音频令牌开始，从而减少对话延迟。

link：https://huggingface.co/THUDM/glm-4-voice-decoder

其主要特点包括：

情感表达和共鸣：GLM-4-Voice可以模拟高兴、悲伤、生气、害怕等多种情绪，并用合适的语气进行回复，打破了传统TTS在情感表达上的僵硬局限。
调节语速：用户可以在对话中要求模型加快或放慢语速，满足不同场景下的需求。
灵活互动：支持随时打断和灵活输入指令，能够根据用户的实时指令调整语音输出的内容和风格。
多语言、多方言支持：目前支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话和北京话。
视频通话功能：即将上线的视频通话功能，将实现既能看又能说的全方位交互体验。

官方提供了一个可以直接启动的 Web Demo，用户可以输入语音或文本，模型将同时使用语音和文本进行响应。

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

GLM-4-Voice 提供的一些对话案例，包括情绪控制、语速改变、方言生成等方面的。

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

AutoGLM：AI的Phone Use时代

AutoWebGLM 是一个旨在构建更高效的语言模型驱动的自动 Web 导航代理的项目。该项目建立在 ChatGLM3-6B 模型之上，扩展了其功能，以更有效地导航 Web 并更好地应对现实世界的浏览挑战。

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

AutoGLM浏览器插件地址：

https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_lzwAutoGLM

浏览器插件包含通用搜索和高级搜索两个模块：

通用搜索包含生成摘要和总结页面，这个没啥说的。。

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

高级搜索，成功实现知网、知乎、小红书三个平台的功能适配。

在知网检索“2024年多模态大模型的最新研究进展”

在知乎检索“下半年AI的发展趋势”

在小红书站内检索相关小红书笔记（小红书的AI内容搜索是不是已经鸡肋了），请看VCR

炸裂！可以在小红书站内自动检索相关小红书笔记进行归纳总结，AI自动帮你去检索相关内容，你只需要输入关键词即可！！！

量子速读功能，可以选择需要阅读的小红书笔记，进行一键总结。

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

安卓内测地址：https://chatglm.cn/main/gdetail/6715f75ec8d0a702dff1e4e6?lang=zh

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

AutoGLM是智谱发布的一款能够模拟人类操作手机的AI产品。它不仅仅是一个对话机器人，而是一个真正的Agent，能够理解用户的意图并自主完成一系列复杂的手机操作。

其主要功能亮点包括：

自主操作手机：AutoGLM能够根据用户的语音或文字指令，完成如订酒店、取消点赞、发送消息等任务。
多模态理解：能够理解图片、记录文字，并根据这些信息自动撰写内容。
跨应用操作：虽然目前还不支持跨应用操作，但未来几个月内将实现更广泛的软件操作。

目前AutoGLM应用范围：

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

微信:微信发消息(文字/位置等等)，公众号文章总结，朋友圈点赞/评论，打电话等
淘宝:商品选购，店铺查找，评价总结/撰写，订单/购物车操作等
美团:点外卖相关
大众点评:打卡，写好评，查评价/榜单，查店铺等
小红书:点赞/评论笔记，关注指定用户写总结等

高德地图:导航，路线规划，查询周边等
12306:订车票，订机票，查车次等
携程:订酒店等

AutoGLM的实际应用案例展示了其强大的能力，例如用户只需一句话指令，AutoGLM就能自动打开携程预订酒店，或者在微信上进行点赞、评论等社交活动。

奇点临近 | 智谱发布AutoGLM，Phone Use时代来临！

GLM-4-Voice：情感语音

AutoGLM：AI的Phone Use时代

量子速读功能，可以选择需要阅读的小红书笔记，进行一键总结。

相关推荐

发表回复 取消回复

发表回复取消回复