Artie, стартап, разрабатывающий платформу для мобильных игр в социальных сетях, анонсировал Bias Corpus — инструмент для демографической оценки голосовой информации — фактически, это база данных, которая состоит из аудиофайлов вместе с их текстовыми расшифровками. ABC предназначен для диагностики и распознавания таких факторов, как возраст, пол и артикуляция в системах распознавания речи.

Распознавание звуковых образов прошло долгий путь и уже имеет свою историю, ведущуюся с IBM Shoebox. Несмотря на последние достижения, полученные благодаря гетерогенным вычислениям на базе «искусственного интеллекта», распознавание голоса в лучшем случае несовершенно, в худшем, с точки зрения сегодняшних представлений, — дискриминационно. В исследовании, проведенном по заказу Washington Post, голосовые помощники от Google и Amazon распознавали на треть речевых запросов меньше, если они выполнялись эмигрантами, а не коренными американцами. Кроме того, совсем недавно проект «Voice Erasure», поддерживаемый Лигой алгоритмического правосудия, указал на то, что системы распознавания речи от Apple, Amazon, Google, IBM и Microsoft в совокупности дают 35% ошибок на афроамериканских голосах против 19% на голосах белых граждан.

Artie Bias Corpus — это модерируемая часть проекта Common Voice Mozilla, состоящая из 3 гендерных классов, 8 возрастных диапазонов (от 18 до 80 лет) и 17 различных акцентов английского языка. В дополнение к 1712 расшифрованных отдельных клипов, верифицированным на веб-платформе Common Voice экспертами-носителями языка, она также включает в себя демографические данные о спикерах.
Проводя эксперименты, исследователи применили Artie Bias Corpus к результатам работы DeepSpeech, программного обеспечения с открытым исходным кодом, на вход которого подавались образцы голосовых сообщемний с характерным американским произношением английского языка. В другом эксперименте они оценили гендерную предвзятость на самых распространенных речевых моделях, полученных с помощью Google и Amazon в США.
По словам исследователей, DeepSpeech продемонстрировал устойчивость в определении пола говорящего, но оказался предвзятым к его произношению. С другой стороны, по состоянию на начало декабря 2019 года анализ алгоритмов Google в США выявил «статистически значимую» погрешность в распознавании женской речи — в среднем на 6.4% хуже, чем у Amazon Transcribe.
По мере того, как голосовые технологии получают повсеместное распространение, становятся ясно, насколько зависимыми они могут быть: буквально мельчайшие нюансы произношения делают распознавание речи неэффективным. Даже в языках с хорошо отлаженным набором голосовых образцов, программное обеспечение может сбоить, спотыкаясь на акцентах и отдавая предпочтение в понимании мужчин, а не женщин. Инструменты и базы данных, разработанные Artie Bias Corpus, как раз и должны помочь выявить предвзятость в моделях машинного обучения. Лучший выход — открытый исходный код для всех, кто заинтересован в решении этой проблемы.