本节书摘来自华章计算机《人工智能:计算Agent基础》一书中的第2章,第2.2节,作者:(加)David L.Poole,Alan K.Mackworth 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.2 Agent系统
图2-1展示了Agent与环境的一般交互过程,该图所示整体即是我们所说的Agent系统。44
一个Agent系统是由Agent和其所在环境构成。Agent接收环境中的刺激,然后做出相应动作。
一个Agent由主体(body)和控制器(controller)两部分组成。控制器从主体处接收感知,然后将命令送至主体处。
主体包括传感器和执行器,传感器将外部刺激转化为感知,执行器能将命令转换成动作。
刺激包括光、声音、键盘上输入的单词、鼠标移动或者物理冲击,也包括从网页或者数据库中获取的信息。
常见的传感器包括触摸传感器、相机、红外传感器、声呐、麦克风、键盘、鼠标或者通过网页来抽取信息的XML阅读器。作为原型传感器,相机感知进入它的光束,将其转换成亮度数值的二维数组,称为像素。有时会使用多维像素数组来表示不同的颜色或者满足多镜头相机的需求。这些像素数组可被控制器感知。而更多的时候,感知对象通常有着更高层的特征,如线、边或深层次的信息。通常来说,接收的都是特定信息,如明亮的橙色圆点的位置,学生关注的演出部分或者人们打出的手势信息。
动作一般包括转向、加速、移动关节、讲话、展示信息或者向某一网址发送邮件的命令。命令又包括低级命令(如将发动机的电压设定为某个数值)和高级命令(如令一个机器人进行某些运动,例如“停止”,“以1m/s的速度向正东方向运动”或者“到103房间去”)。执行器同传感器类似,都包含噪声。例如,停止是需要时间的;机器人在物理规则下运动,所以具备动量,且信息传递需要时间。机器人也许最终只是以接近1m/s的速度运动,45接近正东方向,且速度和方向都是不断波动的,甚至运动到某一指定房间的行为可能会由于各种原因而失败。
控制器是Agent的大脑,本章的剩余部分将主要讨论如何构建一个控制器。
Agent的功能
Agent应构建为实时性的:应能即时接收传感器信息,并即时做出反应。特定时刻的Agent动作是其输入的函数。我们首先考虑时间的概念。
设T为时间点集合,假定T有序,且任意两个时间点的时序距离均可测定。大体上,我们设定T可以映射到实线上的一些子集。
若任意两个时间点间仅存在有限个时间点,则称T是离散的,如每一天或1/100秒有一个时间点,或者有趣事件发生的时刻也可以是时间点。但如果T中任意两个时间点间都存在另一个时间点,则认为T是稠密的,这表明T中的任意两个时间点间存在无限多个时间点。离散时间存在如下特征:除了最后时间点,其他任何时间点均存在下一时间点。而稠密时间则无“下一时间点”。我们将时间初始化为离散的,且没有尽头。因此每个时间点都存在下一时间点。我们令t+1为时间点t的下一时间点,但这并不代表时间点之间是等间隔的。
假定T有初始时间点,我们这里称其为0。
假定P为所有可能感知对象的集合。一个感知轨迹或者一个感知流则为一个从T到P的函数,它描述了每一时间点所观察到的事物。
假定C是所有命令的集合。 图2-2 例2-1的感知轨迹 图2-3 例2-1的命令轨迹47一个命令轨迹为从T到C的函数,其代表在每个时间点的命令。
【例2-1】 我们来考虑一个家居交易Agent,它监控着多种家居用品价格(如它监视着某些特定交易,并记录卫生纸的涨价情况)及家中相应存量。它必须决定是否购进某物及在何种价格时购进。感知对象为当前商品价格及家中存量。命令为Agent决定购买的各类商品的数量(若不购进则数目为0)。感知轨迹描述了每个时间点(如每天)的商品价格和库存数量,如图2-2所示。命令轨迹描述每个时间点Agent购进的商品数量,如图2-3所示。
实际购入动作依赖于命令,但有可能有所不同。如Agent发出一条以某一特定价格购入12卷(1打)卫生纸的命令,但并不意味着Agent实际购入了12卷卫生纸,因为可能由于网络通信问题,仓库中的卫生纸已卖完,或者在决定买和实际买之间时价格已经46发生变动。
一个Agent的感知轨迹是控制器在过去、现在和将来接收到的所有感知信息的序列。命令轨迹则是控制器在过去、现在和将来发出的所有命令信息的序列。命令可以是历史感知的函数。这就产生了转换的概念,从感知轨迹映射到命令轨迹的函数。
因为所有的Agent都处于时间流中,所以Agent不能真正地观察到全部感知序列;在任意时刻,它只能观察到截至现在的感知轨迹。在t(t∈T)时刻只能观察到t时刻及其之前的信息流。其命令只能根据其经验来决定。
转换过程是有因果联系的,如果对于所有时刻t,在t时间的命令都仅由t和其之前的感知信息决定。因果限制是必需的,因为Agent处于时间流中,所以t时刻的命令不可能依靠t之后的感知信息。
控制器完成因果转换的具体实现。
Agent在时间t的历史包括其在t时刻和之前的感知流和在t时刻和之前的命令流。
因此,一个因果转换可看做是从Agent在t时刻的历史到其在t时刻发出的命令的函数。这可被认为是Agent的最规范描述。
【例2-2】 继续例2-1的情况,一个因果转换可认为,对于任意时刻,Agent需要购买多少日用品取决于历史价格、历史库存量(包括时下价格和现有库存)及过往购买历史。
因果转换的示例如下:当库存量低于5打且价格低于过去20天的平均价格的90%时则购买4打;若库存量低于1打时购进1打;其他情况下不购进。
尽管因果转换是用户历史的函数,但其不能直接实现,因为Agent不能直接获得它们的全部历史信息,它只能获得当前的感知信息和它仍能记住的信息。
一个Agent在时间t时的信念状态是其所能记住的所有以前时间的信息的总和。Agent只能获取其存在信念状态中的历史。因此信念状态蕴含了其现在和将来命令所能用到的所有历史信息。在任何时间,Agent都能访问其信念状态和感知信息。
信念状态可以包含任何信息,仅受制于其存储器大小和处理能力限制。这是信念的一个非常普通的定义;有时我们会使用信念的一个更特别的定义,如Agent的信念是关于世界上哪些为真,或是关于环境的动态改变,或是关于其在未来会做什么。
一些信念状态的实例如下所示:
- 有固定顺序指令队列的Agent的信念状态可能是一个程序计数器,记录着该序列的当前位置。48
- 信念状态可能包含有用的特定事实,例如,传送机器人在何处放下包裹去找钥匙,或者它找钥匙时已经去过的地方,记住任何当前无法立即观察却相对稳定的信息对Agent是有用的。
- 信念状态可以编码成一个模型或者整个世界状态的部分模型。Agent可以保留其对于当前世界状态的最佳猜测,也可以是可能世界状态的一个概率分布,详情内容见5.6节和第6章。
- 信念状态可以是世界的动态表示、感知的意义,Agent可以使用其感知来判断世界中什么是正确的。
- 信念状态可以编码为Agent的愿望、它需实现的目标、它关于世界的信念、它的意图或者为了实现目标而准备实施的步骤。当Agent行动和观察世界时,这些能被维持,例如,移除已经达成的目标或当发现更适合的步骤时改变意图。
控制器必须保存Agent的信念状态并决定每个时刻发出何种命令。当它做这些时,它应该获得的信息需包括自身信念状态和当前感知。
离散时间下的信念状态转换函数可表示为
remember:S×P→S其中,S是信念状态集,P是可能认知的集合;st+1=remember(st,pt)表示状态st+1是在信念状态st之后观察到pt得出的信念状态。
指令函数可表示为
do:S×P→C其中,S是信念状态集,P是可能认知的集合,C是可能指令的集合;ct=do(st,pt)表示当前的信念状态为st,观察到pt时控制器需要发出的指令ct。
信念状态转换函数和指令函数一起描述了Agent的因果转换过程。可以发现,因果转换是Agent历史的函数,Agent不必访问历史,但指令函数是Agent信念状态和认知的函数,这两个是Agent必须要访问的。
【例2-3】 为了实现例2-2中的因果转换,控制器必须跟踪过去20天内的价格。通过使用均值(ave)的跟踪数值,可以更新均值
ave∶=ave+(new-old)/20其中,new是最新时刻的价格,old指记住的最早时刻的价格,它在使用后立即会被丢弃。其中最初20天的数据将会做一些特殊处理。49
为了使控制器更加简单,其不需记忆过去20天的历史来获取平均值,而改为仅存储平均值,并使用平均值来替代最早价格。信念状态便仅包含一个数据(ave)。更新平均值的状态转换函数为
ave∶=ave+(new-ave)/20这个控制器很容易实现,对于在过去20个时间单位之前发生的变化不敏感。这种保留平均估计值的方法是强化学习中的时间差分法的基础。
如果仅存在有限的可能信念状态,控制器可被称为有限状态控制器或者有限状态机。因素化表达是指信念状态、感知和命令均由特征来定义。如果存在有限特征,且每个特征仅存在有限种可能的取值,那控制器就是一个因素化有限状态机。更全面的控制器可以采用无限数量的特征或特征取值来构建。一个有可数状态的控制器可以计算任何图灵机可计算的问题。