多模态AI技术「涌现」,AI公司的「新机会」
ChatGPT-4的横空出世,让AI行业再一次柳暗花明。
某AI企业人士如此评价GPT-4的进步:“GPT-3或3.5像一个六年级学生,而GPT-4像一个聪明的十年级学生。”
(相关资料图)
即将毕业的小学生与新晋高中生的思维差距,既体现在涉猎知识的广度上,也体现在独立思考的深度上。
GPT-4为代表的AI智力上的提升,直观表现为,从实现单调的文本交互,转变为可以接受图像、文本作为输入,并表现出更人性化的交互能力。
这种处理多种类型信息的能力,被称为“多模态”技术。
接下来,掌握了多模态AI技术秘钥的公司,将可以进一步拓展下游新兴领域,改变传统AI定制化的特点,向通用化方向发展。
整个产业也将在更加多样化的场景应用,以及产业链条的进一步集成融合中,迎来规模化的升级。
从简单的人脸识别、文字语音识别,上升到理解人的行为意图,像人一样懂得察言观色,以人类复杂性作为参考的人工智能与人类的差距之一,就是多模态信息的智能化理解。
如果说,人工智能的终极目的是让AI基于对环境的感知采取合理行动,从而帮助人类获得最大收益;那么,在更多复杂场景对 AI 技术的应用效果提出更高要求的当下,多模态俨然成为 AI 产业突围的重点方向。
AI的未来范式:多模态
多模态并非新概念,早在2018年,“多模态”作为AI未来的一个发展方向,已开始成为业界研究的重点。
什么叫“多模态”?
“模态”一词最早是一个生物学概念,以人类为例,触觉,听觉,视觉,嗅觉、味觉,都是一种模态。从人工智能和计算机视觉的角度来说,模态就是感官数据。
简单理解,多模态AI=多种数据类型+多种智能处理算法。
以往单模态、单任务的人工智能技术,局限于 AI 模型与数据之间的交互,通过让AI学习互联网上的海量文本、图片等不同模态的数据,寻找其内在规律,但在算力、数据资源的限制下,仅依赖互联网上数据学习很大可能会达到瓶颈。
多模态AI技术,为AI能力的提升,提供了一个解法,即让人工智能自主学习并不断迭代新的知识。
之所以能做到这一点,是因为多模态AI技术,是一种交互式的 AI 技术,突破了以往单一的模型与数据的交互,可以实现模型与模型、模型与人类、模型与环境等多种交互。
举例来说,现在很火的AIGC,可以通过文本生成图像甚至视频,就是多模态AI的一个典型应用。
但多模态AI的想象力,远不止于此。
从技术的创新上来看,模态不仅包括最常见的图像、文本、视频、音频数据,还包括无线电信息、光电传感器、压触传感器等更多可能性。
不同模态都有各自擅长的事情,这些数据之间的有效融合,不仅可以实现比单个模态更好的效果,还可以做到单个模态无法完成的事情。
多模态AI的设计和应用体现一个词:以人为中心。
当AI同时处理多个模态的数据时,其感知方式会更贴近人类,从而让机器更加全面、准确地理解人类的真实指令和意图,比如能够理解人类交流中细微差别的系统,具有高度关怀感和真实感的虚拟助手等,实现的是一种高度自然的人机交互和协同。
虽然AI在多模态方面取得了突破,但这种技术及其应用还不成熟,由多模态AI带来的产业规模升级,还面临重重阻碍。
多模态AI的两大挑战:技术、产业链
多模态AI探索的是人类行动和感知背后的关系,其蕴含的想象力与应用潜能毋庸置疑。
但围绕搜索和生成两项基本任务,多模态AI的训练还存在诸多难点,如多模态数据的收集、新的模型和架构的搭建、高效的数据融合等问题。
首先,多模态的数据收集、对齐和标注,复杂且不易完成。
一方面,优质的多模态数据规模还不够大;另一方面,在具体的业务场景中,很难同时满足所有的模态数据的收集。
共达地对雷峰网表示:“视觉(图像/视频)和文本的数据可以根据语义描述来对齐,但需要经过精心的标注。同样,其它模态的对齐也面临类似的问题,需要考虑如何对齐。”
其次,不同模态具有不同的数据特性,多模态AI的训练,需要根据不同模态的特性,开发新的模型和架构。
构建统一、跨场景、多任务的多模态基础预训练模型,包含两个问题:
如何在统一的预训练模型中,处理视觉 (图片、视频、3D 图像) 三种模态的输入, 并将其映射到统一的特征空间的问题。
如何采用统一的模型和训练框架,分别训练文本、图像、语音的预训练模型的问题。
此外,开发能够大幅降低AI模型训练门槛,简化部署流程,让不具备AI专业知识的人员也能生产算法的平台也十分重要。
再者,让不同模态的数据有效融合以指导决策,也并非易事。
大模型中有非常多隐性的知识,对这些知识的优化、迭代是一大挑战。
多模态AI需要处理的数据和参数十分海量,如何利用并行计算和分布式计算等技术来提高计算效率,也是多模态人工智能技术需要解决的难点之一。
此外,中科摇橹船认为,“如何在多模态AI的下游任务中进行自监督学习也是一大难点。”
也就是说,如何通过构建自监督的任务,提高多模态模型的表征能力,缓解缺少大规模监督数据的挑战。
多模态AI最终是为了实现高质量的内容生成,背后需要参数规模巨大的模型以及海量数据集作为支撑。AIoT场景下,AI应用对于端云互动有着更强的需求。
这意味着,在硬件和芯片上,也提出了更高的要求。
硬件方面,由于要汇聚多种数据分析,行业对前端硬件种类和数量的需求会更大,如视觉、声音等不同模态的数据,都需要不同的设备去采集。
芯片方面,相比于单模态,多模态需要的是庞大的“人工智能算力网络”,单纯的语音芯片、视觉芯片等已很难满足多模态AI算法的需求。
云天励飞对雷峰网(公众号:雷峰网)表示,从支持大规模并行计算的角度出发,芯片要能够同时处理多个任务和数据流,计算效率和本地存储能力需要进一步提升;从支持多模态AI长时间运行的角度出发,芯片还要能够维持较低的功耗,如通过提高单芯片计算能力,降低系统的复杂度和总成本。
目前,transformer是处理多模态比较常用的技术,共达地李思晋也认为,“当前的芯片,transformer的计算并不高效,如果没有专用的硬件,或者为transformer定制开发,其计算效率比其它模型结构可能慢一个数量级。”
AI公司如何寻找商业化的落脚点?
经过模型参数与数据规模的比拼阶段后,搭载在摄像头、边缘计算盒子、机器人等智能设备中的多模态AI正走向场景应用。
目前已知的是,多模态AI首先在计算机视觉和自然语言处理等领域获得验证。
OpenAI 的 DALL-E模型,可以从文本描述中生成对应图像;谷歌的多任务统一模型MUM,可以做到从 75 种不同语言中挖掘上下文信息来提高搜索体验;英伟达的GauGAN2 模型,可以根据简单的文本输入生成照片般逼真的图像。
多模态大模型时代,AI应用也正走向产业纵深处。
工业场景中,运用多模态的智能化管理系统,正在走进工厂和车间。
以中科摇橹船的AGV调度管理系统为例,通过将雷达图像处理、视觉图像处理等图像处理技术集成在同一产品中,可以轻松完成车辆、交通、调度、运行、叫料、通信、统计等管理工作。相比于人力,这种智能化的管理,更能满足当下制造业客户的柔性定制需求。
在城市治理场景中,多模态AI技术可以运用在巡检机器人上。当前的巡检机器人可以通过“眼睛”识别占道经营、垃圾桶满溢等问题,并对相关情况进行提醒,但大多没有“耳朵”。
相关研究表明,人类获取的信息中的25%,都是通过听觉实现的。对于巡检机器人来说,没有耳朵,意味着难以监测到环境中的异常响动。
云天励飞表示,未来将研发下一代高效多模信息感知引擎,在原有的视频结构化技术基础上结合三维场景信息、音频信息等其他模态信息,提升传感器信息流中语义和非语义信息的结构化密度,从而为相关产品及服务在更多应用场景的落地提供算法技术支持。
但客观来看,在视觉和听觉之外,能够商业化落地的多模态技术还很少,大多处于研究阶段。
多模态AI之路不好走,高度智能的人机交互道阻且长,主要表现为:
一、 AI 的理解和执行还不够可控、可信赖、可复制。
比如,多样化风险和AI偏见风险,当数据不具有广泛代表性时,算法就会出现偏差,偏差的不断被放大,(后果)
二、算法开发成本较高,产品不具性价比,市场和客户不愿意买单。
多模态AI的应用落地,需要大量专业的研究人员,包括算法架构师或AI开发者,也包括产业专家。而这两类专家关注点的相对独立,又往往进一步增加研发和落地过程中的成本。
此外,多模态AI的应用需要不同类型的数据、知识、产品等,其落地需要产业链整体加强协作和沟通,从核心的AI芯片,到物联网硬件,再到软件算法开发,时间周期长,需要协调各方利益。
三、业务场景较少,且业务场景的定义还不够清晰。
多模态AI产品和方案,需要根据实际需求针对性开发,什么场景需要使用哪几个模态,以及从成本和收益上来看,是否有商业价值,都需要进行前置考虑。
AI能力想要进入实体产业,尤其是工业属性相对较强的产业,需要从方方面面的复杂细节中进入,而答案都掌握在Know-How手中。
“与行业领域具备know-how的公司进行合作,降低场景验证的成本,是AI公司的机会点。”李思晋表示。
多模态技术是个硬骨头,更加类人的智能需要AI公司投入大量的研发;其背后需要的大模型和海量数据,同时对产业链上的硬件和芯片厂商提出了更高的要求;业务场景的探索尚处迷雾之中;市场的接受度也还不尽人意。
但从好的一面看,无论是最近大火的AIGC,还是在国内默默壮大的多模态人工智能产业联合体,都说明AI将不断朝着多模态方向发展,以更为广泛的感知能力,进一步向产业落地。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
标签:
推荐
- 多模态AI技术「涌现」,AI公司的「新机会」
- 信息:研究:1/4美国学生滥用多动症药物提高成绩 恐导致抑郁辍学
- 世界快讯:一拳暴击坏蛋的「韩国队长」马东锡,又带着《犯罪都市3》回来啰
- 全球新消息丨壹石通(688733)4月20日主力资金净卖出571.17万元
- 当前短讯!“材料之王”新突破!石墨烯制成迄今最薄心脏植入物
- 环球滚动:福晶科技4月20日快速回调
- 股市大盘股启动说明什么?投资大盘股的技巧有哪些?
- 股票公开增发指的是什么?公开增发的股票走势如何?
- 全球热点!武汉经开农发筑牢抵制酒驾醉驾违法违纪行为防线
- 孟晚舟当值华为轮值董事长后首次亮相 谈华为数字化战略
- 动态焦点:韩国最大在野党要求总统撤回暗示向乌克兰提供武器支援的发言
- 去年韩国电信诈骗案被骗资金退还率不到三成,受害者年龄越高涉案金额越大
- 焦点速看:会馆有戏 大家云集——正乙祠戏楼正式面向社会公众开放
- 成都式“跨境抢单”出圈之后 如何实现世界流量的快速转化?
- 快报:泰国“国际中文日”系列活动举办
- 子代策略|今日热搜
- 环球微动态丨三原县气象台发布大风蓝色预警【Ⅳ级/一般】
- 环球快资讯:嬼
- 轻舟智航首发基于环视相机的6V1R高速NOA并开放体验
- 当前快报:文彬在妈妈20日生日前一天自杀身亡 面对丧子之痛令人鼻酸
- 关注:4月19日中化弘润油品报价暂稳
- 今年京密路、安立路等多条通道将推进快速化改造_当前热议
- 天天资讯:贫困!美国人第四大死因
- 台湾17岁少年街头疯狂扫射42枪:投案后仅称"心情不好" 现场曝光_当前焦点
- 俄媒:“死神”坠毁后,美国“全球鹰”已停止前往黑海:环球消息
- 焦点播报:中国维和医疗分队在黎巴嫩南部边境开展巡诊活动
- 赤道几内亚已有11人因感染马尔堡病毒死亡:焦点简讯
- 济南槐荫区:“家住槐荫,‘育’见成长”主题教育活动为青少年打造“成长云地图”
- 爱媛什么品种最好?-天天看点
- 摩托车网红:性感酷炫 也致命危险
- 每日简讯:市州观察丨彭山区建立“四项机制” 促选调生投身“天府粮仓”建设
- 热头条丨调查问卷法怎么写_调查问卷法
- 天天观天下!怀孕发现是葡萄胎,到底是什么情况?
- 当前热议!一名剑侠客转换成龙太子再转换成杀破狼的小说_一名剑侠客转换成龙太子再转换成杀破狼
- 曾逃离北上广深的年轻人又回来了:有自由精神空虚 钱也少了|世界观焦点
- 共话中国经济新机遇丨综述:中国企业和投资者在加蓬收获好评
- 轻工业数字化水平加快提升_今日热讯
- 第133届广交会第一期入场超126万人次:微头条
- 全国已春播粮食面积超1.6亿亩 进度近两成:天天快讯
- “县”在出发,这儿有大生意!
- 正月十五是几九第几天_这天是公历几号
- 惠誉:确认海底捞(06862.HK)“BBB-”长期发行人评级,调整展望至“稳定”
- 通化治疗银屑病医院 焦点资讯
- ST明诚:亚足联提前终止与子公司新英开曼签署的许可协议及相关附件,将失去国内相关转播 分销等业务 全球快报
- 校园沐书香
- 七国集团外长会声明包藏祸心
- 快资讯:航行警告!南海部分海域军事训练,禁止驶入
- 韩国民众在总统府前举行集会 抗议萨德部署“正常化”
- 天天要闻:山西襄垣发现金代砖雕壁画墓 建筑细节再现当地民居民俗
- 七国集团外长会声明包藏祸心
- 外交部发言人评美政府监听联合国秘书长:不是第一次曝出类似丑闻 天天速递
- 中国地方标准化发展效能不断彰显
- 全球今热点:如何判断一个男生是否喜欢你玩泥(如何判断一个男生是否喜欢你)
- 「小白」小米 13 Ultra 全面测评:这是直接发台“相机”么?
- 对师德违规零容忍!教育部发布《关于推开教职员工准入查询工作的通知》-环球消息
- 重点聚焦!扎哈罗娃警告尹锡悦:向乌克兰提供任何武器都将被视为反俄敌对行动
- 环球热门:四川广大青年积极参与志愿服务(一线探民生)
- 为了辽河水美景更美(美丽中国·我们的母亲河⑤)-全球热闻
- 斯拉沃米尔·拉维奇_关于斯拉沃米尔·拉维奇简介 环球报道
- 山林相依 植物相伴(绿水青山守护者)|环球最资讯
- 视焦点讯!甘肃陇南发布暴雨黄色预警信号
- 全球速读:俄罗斯两名宇航员完成太空行走
- 全球即时:食品涨价再创纪录 英国通胀居高难下
- 中方呼吁国际社会支持大湖地区国家打造共同未来
- 日本2022财年贸易逆差达217285亿日元 全球速讯
- 师大二附小扩建 新增300多个学位
- 速递!福州有个“超强大脑”每秒运算10万兆次
- 江阴港城经济区实现“开门红”
- 师大二附小扩建 新增300多个学位_全球新资讯
- 长乐将建“首钻欢乐世界” 尝试游轮旅游新兴业态
- 热点聚焦:新加坡与印尼扩大绿色电力合作
- 日本民众对社会治安担忧加剧 世界资讯
- 土耳其外长恰武什奥卢与乌克兰外长库列巴通电话
- 日本加紧强化军事“桥头堡”,冲绳何时可获安宁?
- 美国童工问题愈演愈烈 美媒:白宫“不想知道”_世界今热点
- 美国亚拉巴马州生日聚会大规模枪击事件两名嫌疑人被拘留
- NHK电视台网站:日本在“摆脱书包”方面会有进展吗?
- 今日要闻!两名俄罗斯宇航员完成太空行走任务
- 天天快报!刚拿下奥斯卡影后,杨紫琼再演“星际女皇”
- 美国《华盛顿邮报》:是时候放弃减肥文化了|每日动态
- 专访:巴中地球资源卫星新协议印证了两国科技合作的成功——访巴西科技部长桑托斯
- 世界快看:通讯:中巴技术合作助力巴西企业拓展市场
- 我国首条高性能取向电工钢生产线建成投产
- 【侠客岛|解局】“美元霸主地位正面临巨大挑战”
- 天天要闻:共同筑牢维护国家安全的坚固屏障
- 亿缕阳光|一串烟火暖人心
- 解码首季经济数据|项目投资“热”起来 春风正劲快扬帆-天天视讯
- 个别媒体无端指责中方向乌克兰冲突地区出口无人机,中国商务部回应|环球速看
- 木村隆二,又是“社会边缘人”实施的袭击?
- 河南安阳:曹操高陵遗址博物馆4月29日开放 聚焦
- 北京人艺表演学员培训班再开班 冯远征:不只学演戏:环球即时看
- 今日热门!今日辟谣(2023年4月19日)
- 高标准农田建设有序推进 一季度我国已建成高标准农田超1900万亩 世界滚动
- 【全球新视野】倒计时100天!成都大运会场馆抢先看
- 高效对接 通达全球!广交会第五天 人气持续氛围热烈:世界实时
- 每日热讯!“冰篮”场地4小时切换、综合耗水量降低20%……这些大运会场馆充满高科技
- 三大协会联合抖音直播发起行业倡议:规范发展共创线上舞台-全球新动态
- 当前速讯:新宝多品类智能家电露脸第133届广交会 具体内容详情!
- 日本执政联盟将就放宽防卫装备出口限制进行商讨:焦点日报
- 应急管理部:举一反三彻底排查风险隐患 坚决防范遏制重大安全事故发生
X 关闭
政策法规
X 关闭