聊聊边缘计算与多模态的结合：推动 AI 发展

啃蝌知道 · 发表于 2024-9-19 05:20:06

随着大语言模型的发展，人工智能正逐步将人类的认知和推理能力转移到设备上，推动技术创新和新的计算范式的形成。多模态AI的崛起，使得视觉、文本、声音等信息的交互更加高效，为各行各业带来了变革的机遇。同时，边缘计算的进步为AI的时应用提供了保障，未来的智能设备将更好地理解和互动，推动行业的深刻变革。唯有通力合作，我们才能将DSP（数字信号处理器）的价值发挥出来，供应市场的发展需要。深圳市亿信源电子有限公司成立于2013年,是一家大型专业电子元器件分销商,产品种类齐全。https://www.yxyic.cn/blog/LED-Drivers-for-Efficient-Lighting

语言与认知科学的先驱NC我曾经说过，人类语言在动物世界中是独一二的。现在，例如GPT-35、GPT-40和B等待大语言模型(LLM)以及生成式人工智能(AI)随着设备的速发展，设备现在可以理解人类语言，这大大扩大了设备可以现的效果。这也引发了大家的探索:技术接下来会如何发展
智能化演变塑造全新的计算范式
要预测AI我们只需要回顾人类自己未来的发展趋势。我们通过感官、思想和行动的相互作用来改变命运。这个过程包括认识周围的世界，处理数据，经过深思熟虑后做出回应。
在计算技术的发展过程中，我们见证了我们独特的认知、思维和行动能力，并逐渐被机器掌握。能力的每一次转移都会催生一个新的范式。
20世纪初，像G这样的大将信息获取成本从边际效益转变为总成本，具体来说，G投入资金抓取络和搜索信息，但对于每一个寻找信息的用户来说，投入的成本几乎可以忽略不计。设备逐渐成为我们的信息系统。这开启了互联时代和后续的移动互联，影响了人们获取、推广和共享信息的形式，对商业、教育、娱乐、社会化等诸多领域产生了深远的影响。
现在，我们正在印证技术发展的新转折点，思考、推理和模型构建的能力正从人们转移到设备上。OAI大型模型将生产模型的成本从边际效益转变为总成本。
大型模型已经通过互联训练了大量的文字、图像和视频，包括法律、医学、科学、艺术等各个领域的信息。这种常见的练习使这些大模型更容易被用作基本模型来构建其他模型。
论是认知模型(怎样观察和表达)、行为模型(如何驾驶汽车)或特定领域模型(如何设计半导体芯片)必然会引起各种模型的普遍出现。模型是知识的载体，这个转折点会让模型和知识处不在。让我们加进入新一轮的技术创新，迎来各行各业、各种布局场景中使用的人驾驶汽车、BQ25100YFPR自主移动机器人、人形机器人等多种设备的新时代。这些新的范式将彻底改变人机交互的形式。
多模态LLM与视觉的关键作用
根据T模型及自注意机制，AI能从而现多模态，这意味着AI该系统可以像每个人一样解决各种模式的输入信息，如语音、图像和文字。
OAI的CLIP、DALL·E、S和GPT-4也就是一些向多模态迈进的模型。例如，CLIP用来理解图像与自然语言的匹配数据，然后在视觉和文本信息之间架起桥梁；DALL·E目的是根据文字描述生成图像，而S可根据文字生成视频，有望在未来成为全球模拟器。OAI则把GPT-4进一步发展，OAI用文字、视觉和声频信息开发端到端训练单独的新模型。GPT-4，不需要多媒体和文本的相互转换。所有输入和输出都通过相同的神经络解决，使模型能够时推理声频、视觉和文本信息的跨模式。
多模态AI今后将重点关注边缘侧面
得益于边缘硬件的进步(许多边缘硬件都围绕着边缘硬件A同时，为了应对延迟问题、隐私和安全要求、带宽和成本考虑，为了保证在数据连接中断或连接时能够离线应用，AI创始人不断突破模型运行的界限。SA还坦言[1]，对于视频(我们通过视觉感知到的内容)，如果想要提供理想的使用体验，端侧模型尤为重要。
但是，资源限制、模型大小和复杂性挑战限制了多模态AI转移到边缘。如果我们想解决这个问题，我们需要开发和利用硬件进步、模型化技术和创新的软件解决方案来促进多模式AI的兴起。
比较近的AI发展对机器视觉有着深远的影响，尤其令人担忧。许多视觉领域的研究人员和从业者正在使用大模型和T提高视觉能力。视觉的重要性在模型时代日益突出。其原因如下：
设备系统必须通过视觉等感知了解周围环境，为人驾驶和机器人提供必要的可靠性和避障能力，这关系到人身安全。空间智能被称为“AI“教母”李飞飞等科研人员关注的热点领域。
对人机进行视觉交互尤为重要。AI恋人既需要智商，又需要高情商。机器视觉可以捕捉人的表情、手势和动作，从而更好地理解人的意图和情绪。
AI随着际数据的收集和特定环境的适应，模型必须具有视觉能力和其他传感器。AI从轻工业延伸到智能化程度低的工业，收集物理世界特征数据，创建3D对于物理世界的模拟环境或数字双胞胎来说，运用这些技术训练多模式模型，使模型能够理解真的物理世界是非常重要的。
视觉+基本模型的例子
虽然CGPT它因其异的语言能力而受到欢迎，但是随着它的流行LLM逐渐演变成多模式，称之为“基础模式”可能更合适。包括视觉等多种模式在内的基础模式产业发展迅速。以下是一些例子:
(1)DINO2
DINO2就是MAI基于原有的先进自监督学习模式，开发了先进的自监督学习模式。DINO模型制作，并且已经通过有了模型。142训练了一亿张图像的庞大数据，有助于提高其在不同视觉领域的稳定性和用性。DINO2不需要特殊训练就可以划分目标。此外，它还可以生成通用特征，适用于图像级视觉任务(如图像分类、视频理解)和像素级视觉任务(如深度估计和语义分割)，表现出异的泛化能力和多功能性。
(2)SA模型(SAM)
SAM它是一个可以推广的分割系统，可以在不需要额外训练的情况下广泛使用不知道的对象和图像。它可以使用各种输入提示来识别分割图像中的目标，并明确要分割的目标。因此，当遇到每一个新的目标或场景时，它都可以在没有特殊训练的情况下运行。根据MAI介绍，SAM能够短短50内生成分割结果，所以特别适合即时使用。它具有多功能性，可以应用于许多领域，如医学成像到人驾驶。
(3)SD
文生图和文生视频是生成式的。AI一个重要的方面，因为它不仅可以帮助形成新的想法，还可以建立一个世界模拟器作为训练模拟、教育程序或视频游戏的前提。SD这是一种生成式AI模型，可以根据文字描述建立图像。这种模型使用一种叫做潜在传播。()技术，潜在空间()在压缩格式下操作图像，而不是直接在像素空间中操作，从而现高效运行。这种方法有助于减少计算负荷，使模型能更地生成高质量的图像。

		自动登录	找回密码
密码			立即注册