Подготовка беспилотного охранника: как научить искусственный интеллект отличать собак от тигров, а драки от танцев
Для обычного человека беспилотник — это прежде всего сам летательный аппарат. Однако чтобы выполнять свои задачи, разработка должна уметь не только летать, но и «думать». Об опыте работы над интеллектуальной начинкой беспилотника рассказал один из разработчиков системы «Контур», доцент кафедры 806 «Вычислительная математика и программирование», заместитель начальника IT-Центра МАИ Пётр Ухов.
Беспилотная авиационная система «Контур», разработанная в МАИ в рамках участия университета в программе «Приоритет-2030», — это комбинация дронов-охранников и стационарных камер наблюдения. В первую очередь она должна уметь фиксировать и правильно оценивать происходящее на подконтрольной территории. Для этого разработчики предусмотрели в текущей конфигурации оборудования возможность работы с видеопотоком от 30 камер, причём в режиме реального времени.
— Фактически «Контур» — это умные летающие камеры и камеры стандартной системы охраны, к которым подключены 16 нейросетей: восемь для распознавания изображений со стационарных камер наблюдения и восемь для распознавания изображений с беспилотника. Такое количество нейросетей связано с тем, что искусственному интеллекту легче обрабатывать информацию о сложных процессах при помощи своеобразного разделения труда между специально обученными под конкретную задачу нейросетями. С некоторыми задачами одна нейросеть не справляется, и тогда она берёт информацию от другой, обрабатывает и передаёт третьей — и так далее. Такой принцип работы называется конвейером нейросетей, а по-английски — «трубопроводом» (pipeline), — рассказывает Пётр Ухов.
В частности, на «Контуре» по такому принципу действует детектор драк: дрону-охраннику очень важно уметь отличать такого рода действия. В то время как одна нейросеть фиксирует, как двигаются фигуры людей, вторая выполняет задачу классификации, т.е. определяет тип движения — является ли оно дракой или нет.
— Приступив к обучению нейросетей, мы столкнулись с проблемой: существующие в открытом доступе датасеты драк представляют собой в основном боксёрские турниры. Поэтому возникла необходимость устраивать постановочные драки. Вид с воздуха мы снимали на маёвском аэродроме в Алферьево, а вид со стационарных камер — на территории МАИ. Пришлось даже специально предупреждать охрану на КПП, чтобы она не беспокоилась: мы сейчас будем снимать постановочную драку, — говорит эксперт.
Интересно, что для того, чтобы искусственный интеллект не путал драку с другими, внешне похожими на неё действиями, команде разработчиков пришлось отдельно снимать и более миролюбивые занятия: объятия и танцы.
— Ошибочная детекция искусственным интеллектом сложных явлений и объектов давно стала предметом для шуток, — поясняет Пётр Ухов. — Например, у нас был такой случай. Стационарная камера сняла изображение забора, на который падает тень, и нейросеть определила это изображение как зебру. В интернете получил известность случай, когда изображение лежащей под забором собаки нейросеть определила как тигра. Это легко объяснить, ведь нейросеть обучается на основе имеющихся данных и никогда раньше не видела собаки, которая лежит у забора. Она видит, что лежит какое-то животное и оно полосатое, значит, по её внутренней логике, это тигр.
Помимо определения драк, искусственный интеллект приходилось учить и многим другим необходимым для охранника навыкам.
— Так, например, мы научили «Контур» определять оставленные вещи — сумки, коробки. Здесь принцип простой: если система обнаружила в кадре вещь и не увидела рядом с ней человека, то она автоматически классифицирует её как оставленную, — отмечает разработчик. — Очень интересное решение у нас получилось по детекции задымления от пожара. В открытом доступе есть датасеты с огнём и дымом, но они касаются либо лесной местности, либо сельской застройки. Здесь мы использовали синтетические данные. Мы сняли с высокого этажа здания территорию МАИ, а дальше наложили на этот видеоряд изображение огня и дыма. Диффузионные нейросети позволяют моделировать такие процессы, и полученные данные внешне неотличимы от реального огня и дыма — как для человека, так и для нейросети.
Разработчики научили «Контур» не только наблюдать, но и своевременно доносить до сотрудников охраны информацию о подозрительных процессах.
— В рамках «Контура» мы сделали ПО, фактически web-портал, на котором сотрудники охраны могут смотреть трансляцию с камер наблюдения, настраивать видеостены. Обычно на видеостене можно выставить обзор от не более чем десяти камер. И здесь «Контур» помогает расставить правильные акценты. Если происходит какое-то подозрительное действие, интеллектуальная система передаёт изображение камеры, в обзор которой оно попало, сразу на общий план, привлекая тем самым внимание сотрудника охраны, — говорит Пётр Ухов.
Для всех этих и многих других интеллектуальных функций необходимы значительные вычислительные мощности, которые обеспечивает супервычислитель МАИ с графическими процессорами.
Материал подготовлен при поддержке Минобрнауки России