Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации.

Мессенджер Telegram выучил марийский язык

Культура 18.07.2023 11:28 695

Популярный мессенджер «Телеграм» теперь понимает марийский язык. Это результат трудов марийского лингвиста Андрея Чемышева и его сподвижников, которые уже более десятка лет практически на общественных началах продвигают идею цифровизации марийского языка.

О результатах работы команды Чемышева "Марийская правда" уже писала, в частности, о создании марийского электронного словаря, компьютерной раскладки шрифтов, включении языка в машинный переводчик Яндекса. И вот сделан очередной шаг – началась работа с речевыми технологиями.

 – Андрей, чат-бот в «Телеграм» демонстрирует удивительную грамотность. Можно проговорить послание на микрофон или кинуть аудиофайл, и бот тут же преобразует марийскую речь в текст, в котором даже знаки препинания стоят на своих местах. Я так понимаю, что это лишь одна из возможностей прикладного применения ваших разработок?
– Да, но надо понимать, что язык тогда будет полноценно функционировать в IT-сфере или в интернете, когда будут созданы все необходимые инструментарии. Одним из таких инструментов в нынешнее время являются речевые технологии. Это процесс перевода текста в речь и обратно, синтезаторы речи. Они нужны во всех голосовых помощниках, системах автоматического перевода аудио-, видеоконтента и т. п. Например, в последнее время у Яндекса было семнадцать синтезаторов – это мужские, женские, детские голоса. Это наша сегодняшняя работа.

– Каким будет ваш конечный продукт?
– Мы хотим создать отдельную программу, а для этого нужно решить кучу вопросов. Первоначально для распознавания марийской речи необходимо собрать исходные данные. Это аудиокорпус с образцами речи – большой массив озвученных текстов. Причем озвученных не дикторами в студии, а разными людьми с их индивидуальными особенностями произношения, и записанных в реальных условиях, с фоном, характерным для повседневной жизни, как уличный шум, например. Программа должна уметь различать эти нюансы.
На сегодня мы собрали 257 часов записи, тексты на марийском языке читали 424 волонтера. Из них проверен 71 процент. Задача – собрать триста часов минимум, и это мы сделаем к концу года.
На той базе, которая уже есть, кстати, и создан чат-бот в «Телеграм». Он есть в открытом доступе, и пользование им бесплатно.
Наши исходные данные мы также бесплатно передали Сберу, который к осени собирается сделать ChatGPT на 60 языках.

– Вами проделана огромная работа, при этом цифровизация марийского языка по-прежнему не имеет стабильной господдержки?
– Пока нет, где-то МарНИИЯЛИ им. Васильева нам помогает, где-то Центр марийской культуры, где-то ФНКА «Марийцы России», но в целом вся работа держалась и держится на энтузиазме. При этом мы предлагаем пользоваться нашими разработками безвозмездно. Например, вышли к Департаменту информатизации и связи республики с предложением внедрить марийский шрифт и раскладку клавиатуры на компьютерах в государственных и муниципальных учреждениях. Для этого нужно просто установить программу, которая очень поможет в работе с марийскими текстами.
Государственная поддержка, конечно, повлияла бы на процесс цифровизации. Нам нужна и техническая модернизация, более мощный сервер. Тогда, например, можно было бы работать не только с короткими голосовыми сообщениями, но и с большими аудио-, видеофайлами.

 Будь у нас средства, мы бы ускорили работу и по улучшению машинного перевода в Яндексе. Чтобы переводчик работал идеально, нужно собрать миллион предложений на марийском языке, а мы пока собрали 400 тысяч, потому что платить за работу людям нечем.

Вообще на тему финансирования надо смотреть гораздо шире, в масштабах всей страны. Например, для сбора и хранения данных по распознаванию речи мы, как и лингвисты из других регионов, работающие над аналогичными проектами, используем американский краудсорсинговый проект Common Voice от браузера Mozilla, потому что отечественной платформы просто нет. А ведь у нас в стране столько разных языков! Американцы в любой момент могут нас от своей платформы отключить. Но Минцифры России ничего не предпринимает в этом направлении, хотя сфера IT в последнее время считается одной из приоритетных и на нее выделяются гигантские средства.

Сейчас принята программа ООН до 2032 года по поддержке языков коренных народов. В России кураторство над темой цифровизации языков поручено Федеральному агентству по делам национальностей. В этом году федеральных средств нет, но насколько я знаю, агентство просит регионы выделять средства на эти проекты, причем с нынешнего года. Надеемся, что так оно и будет.

Попробуйте сами!
Чат-бот с марийским языком доступен по ссылке t.me/mari_asr_bot

  • Фото Елены Рогачевой.

Коротко


Архив материалов

Апрель 2026
Пн Вт Ср Чт Пт Сб Вс
   
9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      
Мы используем куки, в том числе в целях сбора статистических данных и обработки персональных данных с использованием интернет-сервиса «Яндекс.Метрика» (Политика обработки персональных данных). Если Вы не согласны, немедленно прекратите использование данного сайта.
СОГЛАСЕН
bool(true)