29 июня, 2020
Наш эксперимент развенчал миф о способности искусственного интеллекта достоверно определять человеческие эмоции исключительно по выражению лиц, вне контекста, культурных и психологических условий. Казалось бы, на первый взгляд неудачный опыт побудил нас искать новый подход к созданию точного, несубъективного метода восприятия эмоций с помощью технических средств.
Фонд изучения массовых эмоций (Open Mind Foundation, OMF) активно участвует в научно-исследовательских проектах в сфере распознавания эмоций, искусственного интеллекта и компьютерного зрения. Опираясь на новейшие технологические разработки, ученые Фонда провели увлекательный эксперимент по применению систем визуального распознавания человеческих эмоций в студии популярного политического ток-шоу.
О чем расскажут наши лица
Способность воспринимать лица – одна из первых способностей, приобретаемых человеком после рождения. Особенно важно, что своими лицами мы выражаем разнообразные эмоции и по лицам других людей можем определить их настроение и сделать о них те или иные выводы.
Вспомните любую трансляцию футбольного матча премьер-лиги: застывшее в отчаянном ожидании пенальти лицо красивой девушки, огромные глаза 10-летнего мальчугана, полные слез от проигрыша любимой команды, безудержное ликование солидного полнотелого мужчины, празднующего забитый гол в ворота противника.
Вы никогда не задумывались над тем, зачем во время трансляции футбольных матчей режиссеры нередко дают крупным кадром лица болельщиков в моменты, когда они ликуют или досадуют? Это делается для того, чтобы зрители по ту сторону экрана увидели выражение лиц людей на трибунах, бессознательно «считали» переживаемые ими эмоции и благодаря механизму действия зеркальных нейронов, которые отвечают за нашу способность к подражанию и сопереживанию, испытали схожие чувства.
Оценка лиц пронизывает наши повседневные социальные взаимодействия и влияет не только на частные поступки, но и на общественное мнение, и даже на политические решения. Возникает вопрос: а можно ли адекватно оценить эмоциональное состояние человека с помощью технических средств распознавания?
Например, в опросах и социологических исследованиях Фонда одними из центральных эмоций выступают надежда и унижение. Но какие мимические паттерны (знаки) указывают на эти чувства? Как можно обнаружить их визуально? И будет ли по-человечески правильно, чтобы это определял (да еще настолько же точно, насколько это можем сделать мы с вами) специально обученный искусственный интеллект?
Как «узнать» эмоцию
Считается, что эмоциональное состояние человека можно идентифицировать по движению лицевых мышц. Это так называемые эмоциональные выражения, или выражения лица.
На момент проведения нашего эксперимента в августе 2019 года многие программы распознавания эмоций по лицу и мимике с использованием видеоизображений основывались на популярной концепции шести базовых эмоций Пола Экмана. В этой теории радость, страх, удивление, гнев, отвращение и грусть объявлены универсальными чувствами, свойственными всем людям.
Каждая базовая эмоция имеет характерный набор определенных движений лица человека (action units). Мимические мышцы сокращаются и расслабляются, делая лицо подвижным, то есть выражающим то или иное чувство. Движения этих мышц можно описать с помощью фиксированных ключевых точек на лице, соответствующих определенной эмоции. Используя эти точки, разработчики обучают нейронную сеть кодировать выражение лиц. Измеряя, как меняется расстояние между ключевыми точками, система идентифицирует заданную ими эмоцию.
Системы искусственного интеллекта, основанные на этом принципе, упрощают задачи распознавания. Но при этом разнообразие эмоций и ментальных состояний сужается до всего шести базовых чувств.
Говорящие лица «Свободы слова»
Open Mind Foundation исследует не только коллективные эмоции, механизм их возникновения и влияния на действительность, но и эмоции каждого человека в отдельности. Ученых OMF заинтересовало, в какой же все-таки степени поднятая бровь, улыбка или сжатые губы могут показать, что чувствуют люди, находящиеся в телевизионной студии и наблюдающие за выступлением известных политиков, влияющих на судьбы страны.
В своем исследовании мы хотели проверить в действии существующие системы распознавания эмоций по видеоизображениям и убедиться в том, что чувства зрителей отображаются корректно в соответствии с теорией шести базовых эмоций. Также мы рассчитывали получить ответ на вопрос: что нам удобнее и выгоднее – использовать готовые решения или потратить время на создание собственной системы, отвечающей нашим запросам?
Пилотной площадкой для нашего эксперимента по применению в массмедиа систем распознавания эмоций стала идущая в прямом эфире еженедельная программа Савика Шустера «Свобода слова» на телеканале «Украина».
Напомним, что эта уникальная на украинском телевидении программа – своего рода «буревестник демократии», в ней поднимаются самые актуальные для темы для страны и отстаиваются либеральные ценности.
Формат программы (до карантина):
Каждую пятницу в студии собирается «вся Украина» – 100 человек, которые по возрасту, полу и месту проживания максимально точно отображают демографический состав страны. Все граждане Украины имеют одинаковые шансы попасть в студию. Чтобы исключить любую заинтересованность зрителей, команда профессиональных социологов отбирает участников случайным образом по методу стратифицированной многоступенчатой выборки. Попасть на программу по записи или по договоренности невозможно.
Мнение этих ста человек с небольшими погрешностями можно считать мнением всех украинцев. Каждому из присутствующих в студии выдается планшет, с помощью которого он выражает свое отношение к выступающим политикам и лидерам общественного мнения. Каждые 8 секунд зрители должны нажимать кнопку «поддерживаю» или «не поддерживаю». Результаты этого непрерывного голосования в прямом эфире отображают отношение всей страны к самым злободневным темам и участникам дискуссии в студии.
Распознавание vs Восприятие – 0:1
В исследовании была опробована созданная одним из российских стартапов система распознавания шести базовых эмоций с использованием нового алгоритма, которую разработчики обучали, используя базу данных миллиона лиц – AffectNet (2017).
При обучении нейросети распознавать эмоции применялось два подхода: в первом случае кодирование проводилось специально обученными людьми, во втором – с помощью автоматизированных систем кодирования FACS (Facial Action Coding System).
Основной задачей системы было определить, какие именно события в студии (выступления спикеров, замечания ведущего, контекст ситуации и т. д.) вызывают эмоциональные всплески зрителей.
В нашем исследовании мы моделировали события, происходящие в студии во время прямого эфира. Зрительскую аудиторию представляли добровольцы (около 80 человек). Всего было проведено четыре экспериментальные сессии, каждая из которых продолжалась от одного до трех часов.
Движения лиц зрителей фиксировались веб-камерами, полученные данные направлялись на сервер, где проводилась их обработка и анализ. В результате на экран выводилась статистика – обобщенный график эмоций зрителей, демонстрирующий, что они чувствуют каждую секунду.
Первые же тестовые процедуры показали, что система функционирует: эмоции считываются, данные обрабатываются, график выводится на планшет ведущего, но... Это были всего лишь базовые эмоции, которые красиво выделялись на графике и даже обнаруживали динамику. Эмоции ради эмоций: вне контекста, вне учета ситуативных, психических и физиологических факторов.
К тому же за счет несовершенства программы финальные данные об эмоциях зрителей не всегда соответствовали действительности. Например, люди смотрели добрый ролик про домашних животных. Казалось бы, это должно вызывать положительные эмоции, но система фиксировала разноплановые чувства. Что это было: объективное состояние людей или программный сбой – IT- специалисты определить не смогли.
За испытуемыми в студии, как за футбольными болельщиками на матче, тоже наблюдали зрители – приглашенные независимые эксперты, и нередко обнаруживалось несоответствие между тем, как они воспринимают эмоции участников эксперимента, и тем, как это делает машина. Сейчас искусственный интеллект еще слишком далек от нейронных механизмов нашего мозга: мы с вами моментально выделяем и чаще всего правильно распознаем эмоцию человека, принадлежащего к одной с нами культуре, а программа, даже обученная на миллионе обработанных изображений, пока на это не способна.
Идет тестирование системы. Лица участников испытания закрыты из соображений конфиденциальности.
Хотя в целом использованная в исследовании система более или менее неплохо распознавала заложенные в нее конкретные значения выражений лиц, однако она не справилась с задачей определения объективных признаков появления эмоций зрителей, особенно в части синхронизации выступления спикеров и эмоциональных стимулов. Программа не смогла обнаружить и разделить знаки, говорящие об одном внутреннем состоянии человека, и сигналы, за которыми прячется другое состояние.
Очевиден и еще один вывод – конкретные задачи эксперимента требуют наличия собственного технического решения. Оно может быть как принципиально новаторским, так и основанным на готовых системах, адаптированных под потребности исследования в плане инструментов, дизайна и технического воплощения.
На пути к новому методу
Сейчас для нас наиболее конструктивным представляется поиск способов выявления и объективного определения эмоций. Мы хотим создать метод восприятия эмоций с учетом окружающих факторов и контекста, а не просто механическое распознавание заложенных в программ паттернов.
Автор и ведущий ток-шоу «Свобода слова», президент Open Mind Foundation Савик Шустер:
Я всегда очень осторожно относился к самой возможности отдать искусственному интеллекту право распознавать эмоции на лицах. Слишком “попахивает” Оруэллом и тотальным контролем людей. Одни и те же эмоции люди будут выражать по-разному. Как их сможет распознать машина? Это с одной стороны. С другой – технологии чаще всего развиваются эволюционно. Очередной этап миновать нельзя, возможно только как можно скорее перейти к следующему. В последние годы в мире были запущены десятки стартапов с миллионными бюджетами, утверждающих, что они определяют эмоции по изображению на экране. Мы проверили на своем опыте подход face reading и убедились, что он не может являться достоверным инструментом измерения эмоций. Но этот эксперимент стал отправной точкой для дальнейших исследований, и сейчас мы на пути к совершенно новому объективному и более точному методу определения массовых эмоциональных состояний.
В настоящее время наши исследователи уточняют алгоритмы распознавания и захвата изображений, передачи данных. Для комплексного анализа и улучшения распознавания эмоций создаются специальные устройства, измеряющие психофизиологические показатели человека. В новую программу будет добавлен социальный, ситуационный и даже временной контекст.
Мы проводим подготовку к следующему исследованию, продумываются новые критерии для более качественного и адекватного восприятия эмоций системой искусственного интеллекта с учетом смысла ситуации, содержания высказываний и окружающих условий.
Вице-президент Open Mind Foundation, организатор исследования Павел Осипов:
В 2019 году нам не хватило опыта и сравнения с похожими исследованиями. Это был исключительный эксперимент, одна из первых попыток моделирования ситуации применения систем распознавания эмоций в студии прямого эфира. Однако мы поняли, что практически все имеющиеся на данный момент системы пока не способны достоверно распознавать массовые эмоции, как бы производители этих систем ни уверяли обратное.
Для второго эксперимента у нас уже на 90 % готовы необходимые инструменты. Мы понимаем, что идентифицировать эмоции только по видео – это не совсем корректно. Эмоции проявляются не только в мимике и жестах, важны и другие показатели, в первую очередь физиологические реакции, которые дают нам представление о бессознательных мотивах поведения людей, наиболее точно отражающих их эмоциональное состояние. Мы хотели бы получать мультиканальные данные об эмоциях, поэтому сейчас сосредоточены на исследованиях и разработках в области применения систем восприятия эмоций. Именно восприятия, потому что когда мы говорим о распознавании, мы имеем дело с чем-то конкретным. А как можно научить машину распознавать то, что мы сами толком не знаем? Откуда берутся эмоции, как они выражаются, как на этот процесс влияют ситуативный контекст, наш предыдущий опыт, наше самочувствие? Все это мы сейчас проверяем в комплексных исследованиях, нацеленных на создание системы не просто распознавания, а целостного восприятия эмоций, что более точно отражает наш подход.
Литература
Barrett, L. F., Adolphs, R., Marsella, S., Martinez, A. M., & Pollak, S. D. (2019). Emotional expressions reconsidered: Challenges to inferring emotion from human facial movements. Psychological Science in the Public Interest, 20(1), 1–68. doi:10.1177/1529100619832930
Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2019). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10 (1), 18–31. doi: 10.1109/TAFFC.2017.2740923
Peters, J. (2020, June 8). IBM will no longer offer, develop, or research facial recognition technology. The Verge. Retrieved from https://www.theverge.com/2020/6/8/21284683/ibm-no-longer-general-purpose-facial-recognition-analysis-software
Commentaires