pm体育官方网站利用预训练模型喂给机器狗真狗子的运动数据、并通过强化学习,机器狗Max不仅在行为上更灵动,而且还能根据已经掌握的技能“举一反三”,去适应更加复杂的环境。
具体来看,这是一个障碍追逐比赛,受到“World Chase Tag”启发,规则如下:
比如,一般等到躲避者离棋旗子较远时,追击者才会发起猛攻,把它逼到死角,游戏结束。
如果追击者发现躲避者离旗子很近,自己根本没机会追上它时,它会先放弃追逐,等待下一个旗子出现:
第一阶段,是通过游戏中常用的动作捕捉系统,通过收集真狗的姿态数据,包括走、跑、跳、站立等动作,在仿真器中构建一个模仿学习任务。
然后将这些数据中的信息抽象并压缩到深度神经网络模型中,使其在涵盖运动姿态信息的同时,还具有一定可解释性。
腾讯RoboticsX机器人实验室和腾讯游戏合作,用游戏技术提高了仿真引擎的准确性和高效性,同时游戏制作和研发过程中积累了多元的动捕素材。
这些技术以及数据对基于物理仿真的智能体训练以及真实世界机器人策略部署也起到了一定的辅助作用。
在模仿学习的过程中pm体育,神经网络仅接受机器狗的本体感知信息作为输入,例如机器人身上电机的状态等。
再下一步,模型引入周边环境的感知数据,例如通过其他传感器“看到”的脚下的障碍物。
第二阶段,通过额外的网络参数,将第一阶段掌握的动物姿态和外界感知联系在一起。
当机器人能够适应多种复杂的环境后,这些将动物姿态与外界感知联系在一起的知识也会被固化下来,存在神经网络结构中。
在仿真中进行学习并通过zero-shot transfer(零调整迁移),让神经网络模拟人类的推理方式,来识别从未见过的新事物,并把这些知识部署到真实机器人上。
比如在预训练模型中学会了躲避障碍物的知识,那么在游戏里设置障碍,机器狗也能轻松应对。
该实验成立于2018年,目前推出的机器人项目包括机器狗Max一代/二代、机器狗Jamoca、轮式机器人Olliepm体育、自平衡自动驾驶摩托车等。
值得一提的是,之前UC伯克利的学者也将一种“真狗子”的训练方法,用在了机器狗上。
吴恩达开山大弟子Pieter Abbeel等,让机器狗自己在地上打滚一个小时,学会了走路。
而去年腾讯发布机器狗Max二代时,一段小花絮里,这狗会“扑脚”、“撒欢跑”,确实有家里毛孩子那味儿。
咱就是说,现在机器狗的发展方向,不朝着翻跟头卷pm体育,反倒是要和真狗子“抢饭碗”了吗?
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。