当前位置：首页 >新闻动态 >快手号出售

大模型本身也在朝着多模态的方向开展，这意味着模型能够处理不同类型的数据

2024-01-04

大模型本身也在朝着多模态的方向开展，这意味着模型能够处理不同类型的数据，如：文本、图片、视频和音频，其本质是丰富模型的信息处理与生成才能，能够更好地了解实际国际，处理杂乱问题。

一、LLM vs Agent

虽然大言语模型的才能足够强壮，但它依旧是被迫的响应用户的指令，并且生成的效果取决于使用者怎么使用它。

而AI Agent（智能代理）的呈现，将改动这一现状。

它是一个自动化的程序，它具有自主规划和履行的才能，它也被视为通往AGI（通用人工智能）的钥匙。

从NLP -> AGI 的开展道路分为五个等级，From:《The Rise and Potential of Large Language Model Based Agents: A Survey》，分别是：语料库、互联网、感知、具身和社会特点。

目前的大言语模型现已来到了第二级，具有互联网实时访问的多模态内容输出。AI Agent在LLM的基础之上在往感知、具身和社会特点的方向方展；当其具有感知环境与举动的才能时，将进入到第三和第四等级；再进一步，当多个Agent经过它们之间的互动、合作，且具有情感特点，能够处理更加杂乱的使命或反映实际国际中的社会行为时，Agent将进入第五级。

图片来历：《The Rise and Potential of Large Language Model Based Agents: A Survey》

二、什么是AI Agent？

Agent被翻译为代理或许智能体，它核心的作用是具有自主实现目标的才能，能够感知外部环境，具有自主性、反馈性、积极性和情感社交特点的智能体。

光这样描述仍是很笼统，以咱们的日常行为进行一个比喻：人类处理任何问题和使命时，都会阅历信息输入->信息处理->信息输出进程。

信息输入：首要经过人类感官体系，视觉、听觉、味觉、触觉等
信息处理：首要经过人类的大脑进行规划与决策
信息输出：首要经过人类的言语和四肢所采取的举动

咱们来想想一个场景：小明想要吃树上的苹果，首要经过感官体系感知到苹果树上的苹果，然后在大脑中考虑怎么采摘苹果，最后凭借采摘东西，拿到苹果后成功地放到嘴巴里津津有味地吃了起来。咱们将场景笼统成模型，其实就形成了AI Agent的大致框架：

分以下几个模块：

感知模块：小明看到苹果树上的苹果
规划模块：想尝一尝苹果，并考虑和规划怎么才能吃到苹果
举动模块：凭借采摘东西，拿到苹果后放入嘴中
反馈模块：苹果是甜的，津津有味地吃了起来～

上一篇：产品性价比成为顾客购物时重视的点

下一篇：数字货运渠道开展推进远程干线货运开展，渠道为货主提供安全可靠的发货和运送服务