关闭引导
奥特曼揭开“她”的面纱,就这?就这?
2024-05-15 13:04:01
广州日报新花城

图片


作者 | 荣智慧

编辑 | 向由


从今天开始,好戏轮番上演。

 

先是OpenAI春季更新,紧接着是谷歌2024年I/O开发者大会,再有微软Build年度开发者大会、英伟达一季报发布会以及苹果年度开发者大会。

 

OpenAI抢在最前头,为的就是“力压”谷歌一头。他俩的重头戏都是AI助手,而苹果Siri率先“捆绑”OpenAI,给这场“双雄战”按下一份赌注。

 

大模型的“用武之地”,目前最理想的就是AI助手。

 

ChatGPT背后的模型更新至GPT-4o(o代表omini,全能),支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。

 

同时,ChatGPT升级为“全能助手”。“Hi ChatGPT”用来唤醒,剩下的对话和反应,ChatGPT表现不错,甚至能“自嘲”。然而,吹风时提及的“主动通话”能力,ChatGPT仍未具备。

 

虽然OpenAI春季更新,似乎给人留下“就这”的疑虑,但AI助手的应用不该小觑。

 

2022年底我曾判断这一趋势——服务业的需求远大于个体消费者的需求,但二者都是急需市场化的AI必须先探索的板块。第二产业暂时还用不上这么“先进”的东西,第三产业完全可以尽快出手。


01

不是“她”的她

美国时间5月13日,OpenAI旗下新模型GPT-4o支持的ChatGPT升级亮相。

 

在一场预先张扬的线上直播之前,CEO奥特曼早早为AI助手亮相铺好了路。他提前告诉大家,不是GPT5,也不是搜索引擎。

 

ChatGPT升级为AI助手,现场表演讲故事、唱歌、“看”方程式求解、分析代码和图表、辨别人类情绪等一系列操作。


图片


之前,ChatGPT已经有这个方向的尝试。ChatGPT可以记住用户输入的内容,并在后面的对话提及。如果用户曾经在ChatGPT应用程序中与语音代理进行过交互,就会发现,它能呈现出类似人类语气的停顿和变化,听起来十分“真实”。

 

奥特曼认为,具有视觉和音频功能的AI助手与智能手机一样,都有变革性的潜力。理论上,AI助手可以充当学生导师、汽车维修师等许多角色。

 

奥特曼的目标,似乎是想开发出类似于斯派克·琼斯科幻电影《她》里的虚拟助手萨曼莎。他在社交媒体“X”上发布了一条“她”的帖子。

 

图片

奥特曼在社交媒体“X”上发布了一条“她”的帖子


影片中,萨曼莎可以通过与人类的互动,来调试自己的能力,不断进步。随着时间流逝,萨曼莎渐渐有了自我意识和情感深度。

 

据OpenAI表示,在GPT-4o之前,使用语音模式与ChatGPT对话的平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。

 

旧语音模式由三个独立模型组成:一个简单模型将音频转为文本,GPT-4接收文本并输出文本,第三个简单模型将文本转回音频。


这样倒来倒去,令GPT-4丢失了不少信息,比如不能直接认识音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。

 

而GPT-4o通过在文本、视觉和音频方面训练了一个端到端新模型,所有输入和输出都由同一个神经网络处理,令ChatGPT反应更及时、更敏感。


价格上,API定价只有GPT-4 Turbo的一半,速度达到GPT-4 Turbo的2倍。付费的ChatGPT Plus用户将获得5倍调用额度,并能最早访问其全新macOS桌面App和下一代语音及视频功能。 

 

毕竟除了技术,价格战也是竞争的一部分。


图片

桌面版ChatGPT APP


02

Pixie也来了

谷歌年度I/O大会将在美东时间5月14日召开。

 

新版本的AI助手Pixie,据悉将取代原有的同类产品Google Assistant。

 

Pixie由语言模型Gemini驱动,安装在谷歌自己的智能手机Pixel上,目前尚不清楚是否对其他第三方设备开放。它将不限于文本或语音输入,还能像Meta AI一样共享图像。


谷歌产品会大量集成Gemini AI功能,包括谷歌地图、Chrome、Workspace、Gmail等。

 

但本次I/O大会上预计没有更新版本的Pixel产品。谷歌已经在近期发布了新版本Pixel 8a,用户可以预定购买。Pixel 9与折叠款Pixel 9 Pro Fold预计在今年秋季发布。

 

可以说,谷歌才是最先打通软硬件的那个AI巨头。去年年底,Pixie装在Pixel 9的消息就传出来了。

 

所以,又有大模型,又有智能终端的谷歌,地位难以撼动。

 

相比之下,OpenAI没有智能手机产品,苹果没有大模型,Siri也没什么新东西,二者只能火速联合,在真正的应用市场摸索商业模式。


03

新Siri整装待发

同样是语音助手,苹果Siri起了个大早,赶了个晚集。

 

去年年初,苹果高管们试用了ChatGPT后,越看自家Siri心里越不是滋味。升级Siri成了重大项目,承担着苹果在人工智能竞赛“卡位”的期待。


苹果选择改良Siri,而不是另起炉灶。新Siri会具备“对话化和多功能化”的功能,并采用生成式AI驱动的系统,使其能够总结历史内容,进行对话,而不仅仅是逐个回应问题。


和AI有关的产品,预计将在6月10日苹果年度开发者大会上公布。

 

新Siri的“优势”是私密性更好。因为用户的请求都在iPhone上处理,不会发送到云端。但是,它的缺点也很明显,与大模型相比,“小模型”更容易产生幻觉,语音助手可能会“胡言乱语”。

 

据报道,苹果已与OpenAI达成协议,在下一代iPhone操作系统iOS 18中使用ChatGPT;与谷歌尚未达成协议,但谈判仍在进行中。

 

图片

苹果已与OpenAI达成协议


语音助手市场的效益很可观。据咨询公司研报,2024年至2032年间,全球语音助手市场将以33.5%的年复合增长率增长。到2032年,市场价值将达到222亿美元。

 

从产业上看,AI助手加持的智能手机和智能汽车,有可能激发个体消费者的热情。同时,各种服务业或商业平台等B端,以及需要提供公共服务的G端,需求都不会小。

 

甚至可以想象,当一大堆医疗服务机械配备AI助手,居家照护就不再成为一个老龄化社会的难题。

 

假如……家里的所有电器都有AI助手,它们没事应该会聊点“家长里短”吧。

 

至少今天凌晨的OpenAI春季发布,两台分别装有ChatGPT的手机,一台是消费者,一台是售后,毫无阻碍地聊了两分钟,“售后”顺利帮“消费者”换了货。

 

图片


这才是真正值得继续探索的地方。

 

身边一切事物,假如有需要,都可以无障碍地内置芯片、用自然语言编程、用自然语言回应人类或其他物品,以符合个体或集体的某些目标。所谓智能时代,不就应该是“万物互联”、万物智能吗?


21世纪就得有21世纪的样子。


文中配图部分来源于视觉中国,部分来源于网络


-END-

值班主编 | 黄茗婷

排版 | 风间澈

浏览量:
@广州日报 版权所有 转载需经授权