还停留在 AI 写诗做数学题的时代?生成式 AI 的天下已经变了,多模态正日益成为主流趋势。
就在九月底 OpenAI 官宣了新一代作图模型—— DALL · E 3,还将其与 ChatGPT 合并,不仅能创造细腻的插画,只需要几个简单的指令,甚至能用简单的指令制作复杂的动图,网友惊呼完全能挑战 Midjourney。
多模态更新令 Bing 访问量激增
因为直接接入了 Bing 搜索引擎,现在,Bing 可能是互联网上免费制作高质量人工智能图像的最简单工具。
据 The Information 报道,有微软员工表示,接入 DALL · E 3 推动下,Bing 的流量激增,远远超过了通常的周流量水平。据该员工称,流量激增甚至导致 Bing 的人工智能聊天机器人在周末离线数小时。该员工说,Bing 的领导不得不向微软高层请求访问更多的人工智能专用服务器,工程师们花了一个周末的时间让数千台服务器上线。
多模态将加速 AGI 诞生,算力要求也会进一步增长
除了能画画,多模态也被视为 AI 通往 AGI 的重要路径之一。AGI 是指具有与人类智能相媲美或超越人类智能的综合智能系统。
一方面,多模态 AI 能够整合和处理多种类型的信息,如文本、图像、音频和视频等。这种丰富的信息处理能力为系统提供更多的知识和理解,从而推动智能系统向 AGI 的发展。
另一方面,多模态 AI 能够同时处理多种数据源,这使得系统能够进行更全面的推理和决策。这种综合性有助于模拟人类综合考虑多种信息来源的能力,从而更接近人类认知模式。
此外,国盛证券也指出,当前多模态的输入输出主要是文本、图像,应用场景包括智能办公和各类 AIGC 功能。1-5 年内,随着多模态 GPT 的发展带来 AI 泛化能力提升,通用视觉、通用机械臂、行业服务机器人、真正的智能家居等会进入生活。在 5-10 年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,带来通用机器人等千行百业的广阔应用。
除此之外,应用增长及多模态数据处理复杂度提高催生算力需求。如果模型是下一个时代的 " 流量入口 ",那么算力即是模型的动力源泉,在大厂模型竞争加速背景下,算力军备竞赛有望更加强烈。