仅只有未实名的,新媒易不收取任何费用,公益非盈利机构
24小时服务热线: 4000-163-302
请扫码咨询

新闻动态

NEWS CENTER

大模型本身也在朝着多模态的方向开展,这意味着模型能够处理不同类型的数据

2024-01-04

大模型本身也在朝着多模态的方向开展,这意味着模型能够处理不同类型的数据,如:文本、图片、视频和音频,其本质是丰富模型的信息处理与生成才能,能够更好地了解实际国际,处理杂乱问题。

一、LLM vs Agent

虽然大言语模型的才能足够强壮,但它依旧是被迫的响应用户的指令,并且生成的效果取决于使用者怎么使用它。

而AI Agent(智能代理)的呈现,将改动这一现状。

它是一个自动化的程序,它具有自主规划和履行的才能,它也被视为通往AGI(通用人工智能)的钥匙。

从NLP -> AGI 的开展道路分为五个等级,From:《The Rise and Potential of Large Language Model Based Agents: A Survey》,分别是:语料库、互联网、感知、具身和社会特点。

目前的大言语模型现已来到了第二级,具有互联网实时访问的多模态内容输出。AI Agent在LLM的基础之上在往感知、具身和社会特点的方向方展;当其具有感知环境与举动的才能时,将进入到第三和第四等级;再进一步,当多个Agent经过它们之间的互动、合作,且具有情感特点,能够处理更加杂乱的使命或反映实际国际中的社会行为时,Agent将进入第五级。


图片来历:《The Rise and Potential of Large Language Model Based Agents: A Survey》

二、什么是AI Agent?

Agent被翻译为代理或许智能体,它核心的作用是具有自主实现目标的才能,能够感知外部环境,具有自主性、反馈性、积极性和情感社交特点的智能体。

光这样描述仍是很笼统,以咱们的日常行为进行一个比喻:人类处理任何问题和使命时,都会阅历信息输入->信息处理->信息输出进程。


  • 信息输入:首要经过人类感官体系,视觉、听觉、味觉、触觉等
  • 信息处理:首要经过人类的大脑进行规划与决策
  • 信息输出:首要经过人类的言语和四肢所采取的举动

咱们来想想一个场景: 小明想要吃树上的苹果,首要经过感官体系感知到苹果树上的苹果,然后在大脑中考虑怎么采摘苹果,最后凭借采摘东西,拿到苹果后成功地放到嘴巴里津津有味地吃了起来。咱们将场景笼统成模型,其实就形成了AI Agent的大致框架:


分以下几个模块:

  • 感知模块:小明看到苹果树上的苹果
  • 规划模块:想尝一尝苹果,并考虑和规划怎么才能吃到苹果
  • 举动模块:凭借采摘东西,拿到苹果后放入嘴中
  • 反馈模块:苹果是甜的,津津有味地吃了起来~


相关推荐