Университет | Образование | Наука | Внеучебная жизнь |
Новости
События |
В начале февраля 2020 года в журнале Springer Nature вышла статья аспиранта ИТ-факультета Московского Политеха Олега Поткина и декана ИТ-факультета Андрея Филипповича "Обнаружение, отслеживание и классификация жестов рук с использованием свёрточной нейронной сети". В статье описана программа для обнаружения, отслеживания и классификации статических жестов русского жестового языка в видеопотоке с использованием компьютерного зрения и методов глубокого обучения. Для того, чтобы опубликовать эти результаты, потребовалось 6 месяцев и около 50 экспериментов.
Мы поговорили с Олегом и выяснили, как научить компьютер понимать русский жестовый язык, есть ли отношения на расстоянии с аспирантурой и как всё это совместить с fulltime работой в офисе Continental в Мюнхене.
Об аспирантской работе
Я интересуюсь исследованиями в области искусственного интеллекта, машинного обучения и компьютерного зрения. Проект с жестовым языком - это одна из прикладных областей. Помимо прочего, я занимаюсь системами дополненной реальности, например, для выделения полосы движения транспортного средства и детектирования других участников движения. Одну из систем дополненной реальности я создал в рамках учебного проекта. В перспективе мне бы хотелось объединить наработки в области жестовой коммуникации с прототипами системы помощи водителю или даже управления автономным транспортным средством.
Если говорить о технической стороне, то для начала мною был собран оригинальный набор данных из 2 000 уникальных изображений, который включал 10 классов. Каждый класс – это изображения жеста (киремы), обозначающего одну букву русского алфавита, которые были выполнены при разных условиях освещения разными ребятами. Это создавало проблемы для распознавания. Человеческие руки и тело имеют уникальные визуальные особенности, но для корректного распознавания жеста нужно было научить компьютер "видеть" различные оттенки кожи вне зависимости от качества освещения, фона, наличия теней и комплекции человека. Для решение этой задачи мы выполнили следующие шаги:
1) провели размытие исходных изображений по Гауссу;
2) преобразовали изображение из RGB в цветовое пространство HSV;
3) определили верхнюю и нижнюю границы интенсивности пикселей HSV для области кожи;
4) применили серию расширений к цветовой маске для удаления шумов;
5) обнаружили и нарисовали область кисти руки.
Следующим шагом было обучение и тестирование классификатора изображений. Перед отправкой данных в классификатор я произвёл предварительную обработку: уменьшил размер изображения, его глубину и изменил цветовое пространство с RGB на градации серого. Далее из исходных данных были получены синтетические изображения путем случайного вращения и произвольного изменения размера. Такое преобразование позволяет расширить исходный набор данных и тем самым повысить эффективность глубокого обучения. Классификаторы совершенствуются даже при низком качестве исходных данных, если полезные данные можно извлечь из исходного набора.
Для классификации и анализа производительности была доработана широко известная архитектура LeNet-5. Улучшения удалось добиться за счет добавления выпадающих слоев (Dropout). Полученная архитектура является более сложной, включает больше сверток и блоков в полносвязных слоях.
Нейронная сеть разрабатывалась с использованием фреймворка PyTorch. Таким образом, мы получили результаты, которые могут стать основой для создания первой версии прототипа человеко-машинного интерфейса на базе жестовых команд.
О планах на будущее
На следующем этапе для улучшения качества детектирования кистей рук будет использован метод семантической сегментации. Это потребует иного способа маркировки данных в гораздо больших объемах.
Сейчас у меня есть ряд идей, которые интересно воплотить. Хотелось бы, в конечном итоге, создать продукт полезный пользователям.
Мне удаётся совмещать учёбу в аспирантуре Московского Политеха с работой инженером-разработчиком беспилотных автомобилей в компании Continental. Сейчас я живу в Мюнхене. Это позволяет мне объективно оценивать международный опыт в крупных проектах и сотрудничать с коллегами из разных стран.
В мире технологии жестового интерфейса применяются повсеместно: от медицины до автомобильной отрасли. Уже вошли в норму такие системы, как BMW iDrive, где жестовое управление вполне себе интуитивно и удобно. DICE (Dynamic и Intuitive Control Experience) от Mercedes-Benz позволяет с помощью жестов управлять мультимедийной системой автомобиля. А Google запатентовала систему, которая позволяет отслеживать движения рук водителя и с их помощью управлять бортовой электроникой.
О дистанционной аспирантуре
Я рад, что руководству ИТ-факультета Московского Политеха интересно наше сотрудничество, и у меня есть возможность учиться дистанционно. Сейчас я завершаю первый семестр обучения и веду работу под руководством Андрея Юрьевича Филипповича. Это профессионал с большим опытом в сфере исследований искусственного интеллекта и его прикладного применения, чьи обширные теоретические знания делают моё обучение интересным и плодотворным. Основную массу времени мы общаемся в мессенджерах, периодически проводим созвоны по Skype.
В начале семестра я узнаю "правила игры", выполняю задания, отправляю отчётность и получаю по ним обратную связь. Для некоторых преподавателей это кажется странным, но, на мой взгляд, будущее именно за таким форматом обучения. Это нужно принять как данность и активно внедрять. По своему опыту могу сказать, что это абсолютно не тяжело, если заранее знать, что, когда и кому необходимо сдать. А главным плюсом является гибкость. Ты сам выбираешь, когда и где заняться учебой. Консультацию преподавателя можно получить по e-mail. Кажется, в таком формате каждый только выигрывает.
Наверное, мне повезло - согласование прошло без препятствий. Думаю, вопрос во взаимных ожиданиях. Если они совпадают, то никаких сложностей возникнуть не должно. Но руководство факультета, конечно, должно быть уверено в репутации аспиранта. В моём случае, кажется, сомнений не возникало.
О работе в Continental и жизни в Германии
Вакансию я нашёл на сайте компании. Отправил резюме, прошёл 3 интервью и получил оффер. Больше всего запомнился первый этап. Он показался мне самым сложным. Это было кодинг-интервью: нужно было решить несколько алгоритмических задач в реальном времени. На тот момент я был в Калифорнии, и разница в часовых поясах ощущалась. В Германии был конец рабочего дня, а у меня - раннее утро.
Все этапы интервью были дистанционными, и в Мюнхен я прилетел уже для трудоустройства. Мне нравится, что коллектив здесь действительно международный. Интересно общаться с людьми с разным культурным опытом.
Здесь я ощущаю гораздо меньше стресса. Отчасти, думаю, это связано с системой менеджмента. Каждый выполняет свою работу с большой эффективностью и ответственностью, поэтому дедлайнов или непредвиденных авралов крайне мало. А трудовое законодательство работает в обе стороны. Например, нельзя уволить сотрудника без предупреждения за 3 месяца, как и нельзя просто так перейти в другую компанию без уведомления работодателя за те же 3 месяца. Переработок тоже не случается. Правило work/life balance - это неприкасаемое право каждого сотрудника. Но больше всего мне приятен порядок: как в большинстве процессов, так и в рабочей культуре.
Выбирая работу, я не делал ставку на конкретную компанию. Мне показался интересным проект, в котором я сейчас работаю. Я посчитал его перспективным и не ошибся. А логотип компании - это уже вторично.
В целом, работа в мультикультурной среде для меня не нова. Мой опыт начался 6 лет назад со стажировки в университете Hyundai в городе Ульсан (Южная Корея), с которым Московский Политех поддерживает партнёрские отношения. А после уже были Германия, Ирландия и США.
В Германии мне нравится равномерный уровень развития инфраструктуры и зарплат вне зависимости от того, на территории какой земли ты находишься. Но, в силу консерватизма, многие инновационные сервисы появляются здесь с задержкой, например, Apple Pay.
Сейчас я бы хотел набраться больше международного опыта, развиться профессионально. Для меня важно отношение государства к инновационным компаниям и ситуация на IT-рынке.
А мой главный совет студентам - учить язык. Хорошее владение английским языком открывает все двери.
![]() |