Artie предлагает демографическую оценку голосовой информации

Artie, стартап, раз­ра­ба­ты­ва­ю­щий плат­фор­му для мо­биль­ных игр в со­ци­аль­ных се­тях, анон­си­ро­вал Bias Corpus — ин­с­т­ру­мент для де­мо­гра­фи­че­ской оцен­ки го­ло­со­вой ин­фор­ма­ции — фак­ти­че­ски, это ба­за дан­ных, ко­то­рая со­сто­ит из ау­дио­фай­лов вмес­те с их текст­о­вы­ми рас­шиф­ров­ка­ми. ABC пред­наз­на­чен для ди­а­г­но­с­ти­ки и рас­по­зна­ва­ния та­ких фак­то­ров, как воз­раст, пол и ар­ти­ку­ля­ция в сис­те­мах рас­по­зна­ва­ния ре­чи.

Artie Bias Corpus предназначен для диагностики и распознавания таких факторов, как возраст, пол и артикуляция в системах распознавания речи

 

Распознавание звуковых образов прошло долгий путь и уже имеет свою историю, ве­ду­щу­ю­ся с IBM Shoe­box. Не­смот­ря на по­след­ние достижения, по­лу­чен­ные бла­го­да­ря ге­те­ро­ген­ным вы­чис­ле­ни­ям на базе «ис­кус­ст­вен­но­го ин­тел­лек­та», рас­по­зна­ва­ние голоса в лучшем случае не­со­вер­шен­но, в худшем, с точки зрения се­го­дня­ш­них пред­став­ле­ний, — дис­кри­ми­на­ци­он­но. В исследовании, проведенном по заказу Washington Post, го­ло­со­вые помощники от Google и Amazon распознавали на треть речевых запросов меньше, если они вы­пол­ня­лись эмигрантами, а не ко­рен­ны­ми аме­ри­кан­ца­ми. Кроме того, совсем недавно проект «Voice Era­sure», под­дер­жи­ва­е­мый Лигой алгоритмического правосудия, указал на то, что системы рас­по­зна­ва­ния ре­чи от Apple, Amazon, Google, IBM и Microsoft в со­во­куп­но­с­ти дают 35% ошибок на аф­ро­а­ме­ри­кан­ских го­ло­сах про­тив 19% на голосах белых граждан.

Проект Лиги алгоритмического правосудия «Voice Erasure» указал, что системы распознавания речи в совокупности дают 35% ошибок на афроамериканских голосах против 19% на голосах белых граждан

 

Artie Bias Corpus — это мо­де­ри­ру­е­мая часть проекта Common Voice Mozilla, со­сто­я­щая из 3 ген­дер­ных клас­сов, 8 воз­раст­ных диапазонов (от 18 до 80 лет) и 17 различных акцентов ан­г­лий­ско­го языка. В до­пол­не­ние к 1712 рас­шиф­ро­ван­ных от­дель­ных клипов, ве­ри­фи­ци­ро­ван­ным на веб-плат­фор­ме Common Voice экс­пер­та­ми-но­си­те­ля­ми язы­ка, она так­же вклю­ча­ет в себя де­мо­гра­фи­че­ские дан­ные о спи­ке­рах.

Проводя эксперименты, исследователи применили Artie Bias Corpus к результатам работы DeepSpeech, про­г­рам­мно­го обес­пе­че­ния с открытым исходным кодом, на вход которого подавались образцы голосовых со­об­щемний с ха­рак­тер­ным аме­ри­кан­ским про­из­но­ше­ни­ем английского языка. В другом экс­пе­ри­мен­те они оце­ни­ли гендерную пред­взя­тость на са­мых рас­про­с­т­ра­нен­ных речевых моделях, по­лу­чен­ных с по­мо­щью Google и Amazon в США.

По словам исследователей, DeepSpeech про­де­мон­ст­ри­ро­вал ус­той­чи­вость в оп­ре­де­ле­нии пола говорящего, но ока­зал­ся пред­взя­тым к его про­из­но­ше­нию. С другой стороны, по состоянию на начало декабря 2019 года ана­лиз ал­го­рит­мов Google в США вы­я­вил «ста­тис­ти­че­ски зна­чи­мую» по­греш­ность в рас­поз­на­ва­нии жен­ской ре­чи — в среднем на 6.4% хуже, чем у Amazon Transcribe.

По мере того, как голосовые технологии получают по­все­мест­ное рас­про­ст­ра­не­ние, становятся ясно, на­сколь­ко за­ви­си­мы­ми они могут быть: буквально мельчайшие нюансы про­из­но­ше­ния делают рас­по­зна­ва­ние ре­чи не­эф­фек­тив­ным. Да­же в язы­ках с хорошо от­ла­жен­ным набором голосовых об­раз­цов, про­г­рам­мное обес­пе­че­ние может сбоить, спо­ты­ка­ясь на акцентах и отдавая предпочтение в по­ни­ма­нии муж­чин, а не жен­щин. Ин­с­т­ру­мен­ты и базы данных, раз­ра­бо­тан­ные Artie Bias Corpus, как раз и дол­ж­ны по­мочь выявить пред­взя­тость в мо­де­лях ма­шин­но­го обучения. Луч­ший вы­ход — открытый ис­ход­ный код для всех, кто за­ин­те­ре­со­ван в ре­ше­нии этой про­б­ле­мы.