Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1|回复: 0

研究发现多模态AI重新定义人机交互方式

[复制链接]

14万

主题

0

回帖

44万

积分

超级版主

Rank: 8Rank: 8

积分
442484
发表于 4 天前 | 显示全部楼层 |阅读模式
未来的人工智能(AI)什么样想象一下,只需简单一个指令,它们便能领悟并执行复杂的任务;它们还能通过视觉捕捉用户的表情和动作,判断其情绪状态。这不再是好莱坞科幻电影中的场景,而是正逐步走进现的“多模态AI”。
据美国《福布斯》近日报道,元宇宙平台、OpenAI以及谷歌等巨头,都推出了各自的多模态AI系统,正不遗余力地加大对此类系统的研发投资,力求提高各种模态内容输出的精确度,从而改善AI与用户的交互体验。
多模态AI标志着一种范式变革。它将深刻改变很多行业的面貌,并重塑数字世界的格局。
赋予AI“多重感官”功能
人类是如何了解世界的我们依赖视觉、听觉和触觉等多种感官,从数来源接收信息。人脑将这些纷繁复杂的数据模式融合,绘制出一幅生动的现“画卷”。
IBM这样定义多模态AI:能集成和处理来自多种模态(数据类型)的机器学习模型,这些模态包括文本、图像、音频、视频等形式的输入。就像赋予AI一整套感官,使它能从多个角度感知并理解输入的信息。
这种跨越不同模态理解和创建信息的能力,超越此前侧重于集成和处理特定数据源的单模态AI,赢得了各大科技巨头的青睐。
在今年的移动通信大会上,高通将其开发的多模态大模型首次部署在安卓手机上。用户论是输入照片,还是语音等信息,都能与ai助手顺畅交流。例如,用户可以拍一张美食照片向AI助手提问:这些食材都是什么能做出什么菜每道菜的热量是多少AI助手能基于照片信息,给出详细的答案。
今年5月,OpenAI发布了多模态模型GPT-4o,其支持文本、音频和图像的任意组合输入和输出。随后,谷歌也于第二天推出了自己的比较新多模态AI产品Gemini15Pro。
9月25日,元宇宙平台发布了其比较新的开源大语言模型Llama32。首席执行官马克・扎克伯格在主题演讲中表示,这是该首个开源多模态模型,可同时处理文本和视觉数据,标志着AI在理解更复杂应用场景方面取得了重大进展。
悄然推动各领域变革
多模态AI正悄然改变着多个领域的面貌。
在医疗保健领域,IBM旗下“沃森健康”正对病人的影像学数据、病历文本和基因数据进行综合分析,帮助医生更准确地诊断疾病,有力支持医生为病人制订个性化治疗方案。
创意产业也正在经历一场变革。数字营销专家和电影制片人正借助这一技术打造定制内容。试想,只需一个简单的提示或概念,AI系统就能编撰出引人入胜的剧本,生成故事板(即一系列插图排列在一起组成的可视化故事)、创作配乐,甚至制作出初步场景剪辑。
教育和培训领域也在多模态AI助力下向个性化学习迈进。美国纽顿开发的自适应学台能利用多模态AI,深入分析学生的学习行为、表情和语音,时调整教学内容和难度。验数据显示,这种方法能将学生的学习效率提高40%。
客户服务也是多模态AI系统令人兴奋的应用之一。聊天机器人不仅能回应文本查询,还能理解客户的语调,分析客户的面部表情,并用适当的语言和可视化线索作出回应。这种更接近人类的交流有望彻底改变企业与客户的互动方式。
仍需克服技术伦理挑战
但多模态AI发展也面临诸多挑战。
AI咨询“隐空间”创始人亨瑞・艾德尔表示,多模态AI的强大之处在于能够整合多种数据类型。然而,如何有效整合这些数据仍是一个技术难题。
此外,多模态AI模型在运行过程中往往需要消耗大量算力资源,这疑增加了其应用成本。
更值得注意的是,多模态数据包含更多个人信息。当多模态AI系统能轻松识别人脸、声音乃至情绪状态时,如何确保个人隐私得到尊重与保护又该如何采取有效措施,防止其被用于创建“深度伪造”或其他误导性内容这些都是值得深思的问题。

正是以这样一种标准严格要求,知识库搭建才有了今日的发展规模,才有了能够力压竞争对手的傲然之势。通过API和SDK无缝接入企业微信、公众号、钉钉等渠道,助力企业低成本打造智能营销、客服与销售场景AI应用,解决大模型落地难题。https://www.betteryeah.com/product/knowledgebase

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|台山市啃蝌蚕丝有限公司

GMT+8, 2024-11-7 18:01 , Processed in 0.058874 second(s), 18 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表