从物理人类互动中学习机器人目标

[field:click/]次浏览 已收录

  人类每天都在互相交流 - 从他们即将洒下饮料时抓住某人的手,到让你的朋友轻推他们正确的方向,物理互动是一种直观的方式来传达有关个人偏好的信息以及如何正确执行任务。

  那么为什么我们不能像现在这样与彼此合作呢?人与机器人之间的无缝物理交互需要很多:轻量级机器人设计,可靠的扭矩或力传感器,安全和反应控制方案,预测人类合作者意图的能力等等!幸运的是,机器人技术在设计专门为人类开发的个人机器人方面取得了许多进步。

  但是,从一开始就考虑一下你抓住朋友的手的例子,因为他们要把他们的饮料洒掉。而不是你的朋友溢出,想象它是一个机器人。因为最先进的机器人规划和控制算法通常假设人体干预是干扰,一旦你放开机器人,它将恢复其错误的轨迹并继续溢出饮料。这种差距的关键在于机器人如何推理物理交互:大多数机器人在交互结束后只是简单地恢复其原始行为,而不是根据人类的需要思考人为什么进行物理干预和重新规划。

  我们认为机器人应该将物理人类互动视为有关他们应该如何完成任务的有用信息。我们正式将物理交互作为客观(或励)学习问题做出反应,并提出一种解决方案,使机器人能够根据在这些交互过程中获得的信息在执行任务时改变行为。

  领域物理人机交互(PHRI)研究,从人类和在一个共享工作空间的机器人之间的紧密的物理相互作用产生的设计,控制和规划问题。在pHRI的先前研究已经开发出安全且响应迅速的控制方法,以对机器人执行任务时发生的物理交互做出反应。由Hogan等人提出。人。控制是当工作空间中有人时,沿着期望的轨迹移动机器人的最常用方法之一。使用这种控制方法,机器人就像一个弹簧:它允许此人推动它,但在人类停止施力后移回原始的所需。虽然这种策略非常快并且使机器人能够安全地适应人类的力量,但机器人并没有利用这些干预来更新其对任务的理解。单独留下,机器人将继续以任何人类交互之前计划的方式执行任务。

  为什么会这样?它归结为机器人对任务的知识以及它所的力的意义做出的假设。通常,机器人以目标函数的形式被赋予其任务的概念。该目标函数对任务的不同方面的励进行编码,例如“在X处达到目标”或“在远离人员的同时靠近桌子移动”。机器人使用其目标函数来生成最能满足任务所有方面的运动:例如,机器人将在选择远离人类并靠近桌子的径时朝向目标X移动。如果机器人的原始目标函数是正确的,那么任何物理交互都只是来自其正确径的干扰。因此,机器人应该允许物理交互为了安全目的而它,但它会回到它计划的原始径,因为它固执地认为它是正确的。

  相反,我们认为人为干预通常是故意的,并且因为机器人做错了事而发生。虽然机器人的原始行为对于其预定义的目标函数可能是最优的,但是人为干预是必要的这一事实意味着原始目标函数不是很正确。因此,物理人类的相互作用不再是干扰,而是关于机器人真正目标应该是什么的信息性观察。考虑到这一点,我们从反向强化学习中获取灵感(IRL),其中机器人观察到一些行为(例如,被推离桌子)并试图推断未知的目标函数(例如,“远离桌子”)。请注意,虽然许多IRL方法专注于机器人在下次执行任务时做得更好,但我们专注于机器人正确完成当前任务。

  通过我们对物理人机器人相互作用的洞察,我们可以将pHRI描述为一个动态系统,机器人不确定正确的目标函数,而人类的相互作用为它提供信息。这种形式主义定义了一大类pHRI算法,其中包括控制等现有方法,使我们能够推导出一种新颖的在线学习方法。

  我们将关注形式主义的两个部分:(1)目标函数的结构和(2)观察模型,让机器人在给定人体物理交互的同时推理目标。让机器人的状态(例如,和速度)成为机器人的动作(例如,它应用于其关节的扭矩)。通过外部扭矩,人类可以与机器人进行物理交互,并且机器人通过其动力学移动到下一个状态。X[RHX˙= f(x ,你[R+ 你H)

  在pHRI中,我们希望机器人向人类学习,但与此同时,我们不希望通过持续的物理干预使人类负担过重。因此,我们可以为机器人写下一个目标,它可以优化完成任务并最大限度地减少所需的交互量,最终在两者之间进行权衡。

  这里,编码与任务相关的特征(例如,“到桌子的距离”,“到人的距离”,“到目标的距离”)并确定这些特征中的每一个的相对权重。在该函数中,封装了真正的目标 - 如果机器人确切知道如何对其任务的所有方面进行加权,那么它可以计算如何以最佳方式执行任务。但是,机器人不知道这个参数!机器人并不总是知道执行任务的正确方法,当然也不是人类首选的方式。 (x ,u[R,你H)

  正如我们所说,机器人应该观察人类的行为,以推断出未知的任务目标。为了将机器人测量的直接人力与目标函数联系起来,机器人使用观察模型。在最大熵IRL的先前工作 以及人类行为的认知科学模型中使用的Bolzmann分布的基础上,我们将人类的干预模型建模为近似最大化机器人在采取行动时在状态下的预期励。此预期励包括即时和未来的励,并由-value捕获:X[R+ 你HQ

  直观地说,这个模型表明人类更可能选择物理校正,当与机器人的动作相结合时,会产生理想的(即高回报)行为。

  就像教另一个人一样,我们期望机器人在我们与之互动时不断学习。然而,我们引入的学习框架要求机器人解决部分可观察的马尔可夫决策过程(POMDP); 不幸的是,众所周知,解决POMDP确实在计算上是最昂贵的,而且最糟糕的是难以处理。尽管如此,我们可以从这种形式主义推导出近似值,这种形式可以使机器人在人类交互时学习和行动。

  1)从最优控制策略的求解中分离估算真实目标。这意味着在每个时间步,机器人都会更新其对可能值的,然后使用新分布重新规划最佳控制策略。

  2)将计划与控制分开。计算最优控制策略意味着计算在连续状态,动作和空间中的每个状态采取的最佳动作。虽然在每次交互之后重新计算完整的最优策略是不可实时处理的,但我们可以实时地从当前状态重新计算最佳轨迹。这意味着机器人首先计划最佳地满足目标的当前估计的轨迹,然后使用控制器来该轨迹。这里使用控制为我们提供了前面描述的良好属性,人们可以在物理上修改机器人的状态,同时在交互过程中保持安全。

  回顾我们的估计步骤,我们将对轨迹空间进行类似的转换并修改我们的观察模型以反映这一点:

  现在,我们的观察模型仅依赖于沿着轨迹的累积励,这可以通过在每个时间步长处总结励来容易地计算。通过这种近似,在推理真实目标时,机器人只需要考虑人类首选轨迹的可能性,给定其正在执行的当前轨迹,。RHR

  但是人类首选的轨迹是什么?机器人只能直接测量人体的力。推断人类首选轨迹是什么的一种方法是通过在整个机器人的当前轨迹中人的力量,。图1.基于Losey和OMalley的先前工作建立轨迹变形,从机器人的原始轨迹开始,然后是力的应用,然后是变形产生。