Голосовые помощники становятся частью нашей повседневной жизни, но они не одинаково понимают голоса каждого. Мы исследуем, как отрасль борется с этим неравенством.
«Мне еще предстоит встретиться с человеком, который занимается преднамеренной дискриминацией», — рассказывает Мириам Фогель на Неделе дизайна. «Но иногда трудно признать, что вы разработали что-то, что может иметь пробелы и недостатки».
Фогель является исполнительным директором EqualAI, американской инициативы, направленной на предотвращение бессознательного смещения в развитии искусственного интеллекта (ИИ). Но когда дело доходит до одного из самых распространенных видов использования искусственного интеллекта — голосовых помощников — сами машины различают.
Исследования показывают, что, хотя белый американский мужчина имеет точность 92%, когда речь идет о помощнике с поддержкой голоса, белая американская женщина имеет точность 79%. У американки смешанной расы только 69% шансов быть понятой. (Причина американской предвзятости заключается в том, что самые популярные помощники — Amazon Alexa, Google Home и Apple Siri — все находятся в Калифорнии.)
«Пример голосового помощника настолько острый, что он становится такой важной частью нашей повседневной жизни», — говорит Фогель (в прошлом году около 3,25 миллиарда голосовых помощников использовались во всем мире). «Тем не менее, он полон вопросов о том, на каком языке код, если он написан, какие голоса, акценты и тоны он может и не может слышать».
«Это ключ к большей системе», добавляет она. «Если мы продолжим позволять ИИ быть спроектированным однородным набором игроков без привлечения разных голосов и точек зрения, наши голосовые помощники не получат преимуществ от разных точек зрения».
Содержание статьи
«Печально известный белый мужчина»
Эта проблема может привести к бездушному недопониманию — особенно в неправильном понимании Сири акцентов. Но, как указывает Фогель, если в медицинской технике есть недопонимание — область, где технология голосовой связи становится все более важной, — это может иметь серьезные, даже фатальные последствия.
Проблема заключается в процессе разработки: всего 13,5% рабочих в области машинного обучения составляют женщины. А наборы данных, используемые для технологии, взяты из клинических испытаний, которые, по словам Фогеля, «общеизвестно ориентированы на мужчин»
.
Фогель имеет опыт работы в области предвзятости на рабочем месте; она возглавляла Целевую группу по равной оплате труда при президенте Обаме, которая способствовала равной оплате труда женщин. Юрист по образованию, она также руководила разработкой неявного предвзятого обучения для федеральных правоохранительных органов. Она считает, что подход к созданию более разностороннего ИИ заключается в сочетании перспектив, причем не только разработчиков технологий, но и путем созыва законодателей, ученых и бизнес-лидеров.
EqualAI также проводит семинары с техническими компаниями, чтобы помочь им «следовать передовым методам, чтобы избежать вливания неявного смещения». Вот где это может быть сложно, говорит Фогель. Объяснение дизайнерам, что их создание может быть ошибочным, может привести к «защите». «Часть нашей работы — дать людям понять, что никто не может быть всеведущим», — добавляет Фогель. «Недостаток человеческого бытия состоит в том, что вы должны ожидать, что это проявится в вашем ИИ, поэтому вам нужно планировать его».
EqualAI также имеет корпоративную направленность: Фогель объясняет компаниям, что они с большей вероятностью будут продавать продукты, которые понимают их потенциальных клиентов. Такое «обучение потребителей» имеет решающее значение для коммерческого успеха продукта: «Может ли это распознавание голоса понять меня как женщину? Может ли он понять голос моей семьи в Китае? »
Алекса, Сири, хорошо, Google … Beeb?
Хотя основными игроками в этой области являются американцы, Фогель говорит, что британцы «далеко впереди в своих мыслях» о уклон в AI. (Некоторые из основателей EqualAI — британцы, включая основателя Википедии Джимми Уэйлса и бизнес-леди Марту Лейн Фокс.) В этом году BBC запускает своего собственного голосового ассистента, который будет известен под словом «пробуждение» — имя, которое пользователь говорит « разбудить устройство — Beeb.
Би-би-си говорит, что у нее есть все шансы создать голосового ассистента, ориентированного на Британию «Люди знают и доверяют BBC, поэтому он будет использовать свою роль новатора государственной службы в технологиях, чтобы каждый, а не только техническая элита, мог получить доступ к контенту и новому опыту таким новым способом», — говорится в нем. Он будет работать на устройствах с поддержкой голоса.
Проект возглавляет Мукул Девичанд, исполнительный редактор BBC voice and AI. Хотя цифровая команда Би-би-си не смогла предоставить больше комментариев о голосовом помощнике, она обрисовала в общих чертах, как работает проект. Он просит команды из офисов по всей Великобритании потратить несколько минут на запись их голосов, «чтобы убедиться, что акцент каждого может быть распознан при запуске».
И хотя он будет иметь более разнообразный набор данных — и, вероятно, больше региональных акцентов, чем обычный офис в Силиконовой долине, — он все еще является частью коммерческой стратегии вещателя. «Это также позволит BBC быть более амбициозным в отношении контента и функций, которыми могут наслаждаться слушатели», — говорится в нем.
К более разнообразному набору данных
Как может выглядеть набор данных с открытым исходным кодом BBC? Сравнение можно найти в Mozilla Common Voice Project. Основанный в 2017 году, проект веб-браузера надеется «ускорить процесс сбора данных на всех языках по всему миру, независимо от акцента, пола или возраста», согласно руководителю Mozilla Келли Дэвису
.
Дэвис говорит, что у технологических гигантов есть преимущество из-за их «правильного доступа к голосовым данным». «Они также имеют тенденцию работать лучше для мужчин, чем для женщин, и изо всех сил пытаются понять людей с разными акцентами, и все это является результатом предвзятости в данных, по которым они обучаются», — добавляет он. (Вопросы, касающиеся хранения и использования этих данных, также «остаются без ответа», указывает Дэвис.)
С согласия добровольцев Mozilla собирает данные краудсорсингом, пытаясь «внедрить новую технологию с поддержкой голоса, которая будет намного более точной и представительной для всего населения мира». Люди во всем мире «отдают» свои голоса набору данных, который затем будет свободно доступен для стартапов и компаний, разрабатывающих технологии с поддержкой голоса.
Набор данных Common Voice теперь является «крупнейшим общедоступным транскрибированным набором голосовых данных» в мире, с более чем 4000 записанных часов голосовых данных и 35 языков, включая английский, французский, немецкий и мандаринский. Участники также могут предоставить метаданные о своем возрасте, поле и акцентах, чтобы их голоса были помечены как «информация, полезная при обучении речевым режимам».
Языки по всему миру внесли свой вклад от валлийского языка в кабилье, коренную общину на севере Алжира. Это подчеркивает еще одну тенденцию в голосовой технологии: акцент на английском, который, по словам Дэвиса, является наиболее прибыльным языком для разработки систем искусственного интеллекта.
Новым событием в проекте Common Voice стало включение языков, находящихся под угрозой исчезновения. «Он превратился из проекта по созданию открытых наборов речевых данных для языков с ограниченными ресурсами в проект, который также имеет компонент сохранения языка», — говорит Дэвис, которого он называет «честью и бременем».
Более «разнообразная экосистема голосовых технологий»
Важно отметить, что набор данных Mozilla используется: Mycroft (голосовой помощник с открытым исходным кодом, названный в честь старшего брата Шерлока Холмса ), Te Hiku media (новозеландская благотворительная медийная организация), Iara Health (бразильский португальский медицинский инструмент транскрипции). Дэвис говорит, что цель Mozilla — двигаться вперед, чтобы способствовать созданию «более разнообразной и инновационной экосистемы голосовых технологий». Это означает выпуск самих продуктов с поддержкой голоса и «поддержку исследователей и мелких игроков».
В прошлом году Mozilla заключила партнерские отношения с Министерством экономического сотрудничества и развития Германии для поддержки «инициатив в Африке по сбору данных на местных языках». Эти наборы данных должны использоваться для продуктов и технологий с поддержкой голосовой связи, которые «соответствуют» целям устойчивого развития страны.
Говоря о широко распространенном будущем с поддержкой голосовой связи, насколько вероятно, что вся отрасль будет полагаться на один проект данных с открытым исходным кодом? К 2020 году в разделе набора данных на английском языке было 38 ГБ данных. А среди людей, которые пометили свои данные, разница между мужчинами и женщинами составляет от 46% до 13%. Если бы вы разрабатывали приложение для словенцев, вы бы работали только с 175 МБ голосовых данных. У проекта, работающего на добровольных началах, есть определенные ограничения.
«Необходимое время для ИИ»
Для EqualAI прогрессирование происходит через понимание масштабов ИИ. «Это важное время для ИИ, и мы видим вред, но мы также видим его силу», — говорит Фогель. «Самое интересное в моей работе — привлекать людей к тому, чтобы стать лучшими людьми, какими они хотят быть. Речь идет о том, чтобы рассказать им, как создать лучший продукт ».
«Это морковка», — говорит Фогель, но также важно, чтобы дизайнеры помнили о реальных недостатках. «Палка говорит им, что репутация их продукта, компании и бренда пострадает, если они не примут этот вызов — и, между прочим, есть юристы, оправдывающие ответственность, и она растет, когда люди начинают лучше понимать эту область .»