Систему управления обучили в симуляторе и перенесли на реальных роботов
Американская робототехническая компания Figure улучшила систему управления человекоподобного робота Figure 02, чтобы сделать его походку более похожей на человеческую. Система на основе нейросети была полностью обучена в симуляции методом обучения с подкреплением, а затем успешно перенесена на реальных роботов без дополнительной настройки и дообучения, говорится в пресс-релизе компании.
Разрабатывающая человекоподобных роботов американская компания Figure в последнее время была сосредоточена на совершенствовании универсальной системы управления Helix, которая позволяет роботам быстро обучаться новым практическим навыкам. Роботы Figure уже умеют самостоятельно манипулировать практически любыми предметами, даже если не встречались с ними ранее, занимаются уборкой на кухне и сортируют пакеты на конвейере. При этом передвижение до сих пор оставалась без особого внимания — ходили роботы второго поколения почти также медленно и неуклюже, как более ранние прототипы.
Теперь же компания решила восполнить этот пробел: с помощью метода обучения с подкреплением инженеры обучили нейросетевой алгоритм, который позволил роботам Figure 02 передвигаться быстрее, устойчивее и с походкой, заметно более похожей на человеческую, чем ранее. Подход обучения с подкреплением предполагает, что алгоритм учится действовать методом проб и ошибок, опираясь на систему вознаграждений за успешные действия, направленные на достижение цели (в данном случае устойчивую естественную походку), и штрафов за неправильные.
Процесс обучения проходил в физическом симуляторе, где одновременно моделировалась ходьба огромного множества виртуальных копий Figure 02. Для повышения устойчивости и адаптивности алгоритма ходьбы в симуляции варьировались физические параметры каждого виртуального робота (масса, характеристики приводов и так далее), а также моделировались различные условия эксплуатации. Роботы сталкивались с разными типами поверхностей и внешними возмущениями, такими как толчки или скольжения. Чтобы добиться более человеческого стиля ходьбы, в систему вознаграждений были добавлены стимулы, поощряющие робота точнее имитировать движения человека, такие как постановка стопы с пятки на носок и синхронизированные с движением ног махи руками. Одновременно с этим алгоритм обучался поддержанию заданной скорости передвижения, оптимизации энергопотребления и обеспечению устойчивости к внешним воздействиям.
Ключевой шаг — перенос обученного алгоритма в реального робота. Цифровая упрощенная копия робота в симуляции соответствует реальной только приближенно, и чтобы преодолеть этот разрыв инженеры использовали технику доменной рандомизации (разброс характеристик роботов и параметров среды во время обучения), что сделало нейросеть более устойчивой к неизбежным различиям между симулятором и реальным миром, а также между отдельными экземплярами роботов.
В дополнение к этому, на реальном роботе команды от нейросети обрабатываются контуром управления с обратной связью по крутящему моменту приводов, что также позволяет корректировать неточности моделирования и непредвиденные внешние факторы. Компания опубликовала видео, в котором одна и та же обученная нейросеть успешно управляет ходьбой десяти реальных роботов Figure 02 без каких-либо индивидуальных модификаций (zero-shot transfer). Роботы стали передвигаться быстрее, чем раньше, и более естественной походкой.
Кстати, скоро гуманоидных роботов Figure должно стать гораздо больше, чем десять. Компания недавно открыла полноценную фабрику BotQ для их серийного производства. На первом этапе планируется выпускать до 12 тысяч роботов ежегодно с перспективой увеличения объемов производства на порядок.