修车师傅贴了个小麦克风,机器人也学会了“贴着听”
路边修车角落里,师傅盯着飞快转的轮子调碟刹。看着不蹭,可一丝擦到就有很轻的“嘶”。他把一个小小的接触麦克风用胶带贴在工具上,再顶住车架录视频。眼睛看手怎么动,贴着听才知道金属真碰上没。
机器人干活也常卡在这种“看着没事”的瞬间。镜头能看到位置,却不一定知道刚开始接触了没有,是在滑还是在卡,表面是软还是涩,杯子里是不是还有东西。像修刹车那声“嘶”,贴着物体传出来的震动声能补上盲点。
后来有人想把这只“贴着听的耳朵”给机器人用,但先从更省事的路走。先不让机器人上场,直接用人手演示很多次。他们改了一个手持夹爪的指尖,把接触麦克风藏在一条防滑胶带下面,再把声音直接接进运动相机。这样一份普通文件里,画面和刮擦声能对得很齐。
等把同一个夹爪装到机械臂上,麻烦就来了。电机自己会嗡嗡响,还会带来一些人手演示里没有的磕碰声。更要命的是,声音和画面会差一点点时间,差不多四分之一秒。要是对不齐,机器人听到“碰到”时,动作早就过去了。
他们让机器人练习时故意把环境弄“脏”一点。把各种背景声、还有单独录的电机噪声混进去,免得只会听安静房间。然后不把声音当成音量大小,而是先做成一张随时间变化的“声音图”,让程序去找那些短促的擦、点、滑的纹路。画面加上接触声,一起变成连续的小动作选择:往哪挪、怎么转、夹多紧。
效果像那位师傅贴麦克风一样直观。翻面包圈时,关键不是看见面包圈,而是听到铲子插进去和贴着滑动的声音,成功率从大约四分之一升到九成左右。擦白板时,镜头不太分得出压得够不够,接触声能帮着稳住力度。倒水时,杯子空不空看起来一样,先轻轻晃一晃,震动声就把隐藏状态说出来。魔术贴两面长得像,贴着划一下,震动纹路不同,房间里用普通麦克风反而不灵。
新鲜的地方不在一只多贵的“新手”,而在一只便宜的“新耳朵”,还有一套更像现实的教法。先在各种地方录下人手怎么干活,让画面和接触声绑在一起,再想办法让机器人在电机噪声里也能听清接触。它也不是万能,有些摩擦太轻,电机也可能盖住细声。但就像修刹车那一下“嘶”,一旦能贴着听,很多犹豫的瞬间就能更果断地动手。