В Йошкар-Оле в четверг, 16 апреля, прошла VII Международная научно-практическая конференция «Цифровизация языков народов России: масштабирование опыта и перспективы». Мероприятие стало частью программы Года единства народов России.
Будущее наглядно
До начала конференции участники и гости события на площадке МарГУ знакомились с выставкой цифровых решений для сохранения родных языков. Например, разработчик Андрей Чемышев рассказал о новой интернет-энциклопедии РУВИКИ – российском аналоге «Википедии». В ней особое внимание уделяется статьям о марийской республике, особенностях культуры и традициях народа. Наличие платформы помогает искусственному интеллекту находить достоверную информацию, а значит, при вопросе, заданном о нашем регионе, колонка «Алиса» сможет дать правильный ответ.
Другой спикер – студентка Юлия Ефремова ‒ презентовала дипломную работу, посвященную нейросетям в образовании. С помощью промптов ‒ текстовых запросов пользователя к нейросети ‒ она с помощью ИИ создала иллюстрации и карточки с заданиями для работы со школьниками для уроков ИКН. По словам девушки, особая сложность – подобрать слова для искусственного интеллекта: все-таки, национальный аспект у него еще хромает. Ей повезло: этот вопрос на конференции затронут еще не раз.

Площадка для энтузиастов
Открывая мероприятие, директор Института национальной культуры и межкультурной коммуникации, доцент кафедры культуры и искусств МарГУ Родион Чузаев отметил, что сегодня язык – не только средство общения, но и цифровой код культуры. Перед языковедами стоит непростая, можно даже сказать, монументальная задача – перенести это достояние в будущее.
Заместитель министра культуры, печати и по делам национальностей республики Николай Любимов назвал конференцию площадкой для диалога теоретиков и практиков, мостом для налаживания межрегиональных и международных контактов. Он зачитал обращение заместителя Председателя Правительства Марий Эл ‒ министра культуры, печати и по делам национальностей Константина Иванова, обратившего внимание на приоритетную задачу по цифровизации языков народов – одну из скреп, объединяющих страну как многонациональную семью.
‒ Конференция станет площадкой для выработки цифровых решений от электронных корпусов языков до инструментов на основе искусственного интеллекта. Уверен, что совместные проекты и доклады позволят масштабировать лучшие практики по всей стране, ‒ подчеркнул Константин Иванов.
Участниками мероприятия стали учителя, методисты, языковые активисты, специалисты отрасли, приехавшие из разных уголков нашей страны. Многие из них выступили с докладами на секционных заседаниях в аудиториях, но были и участники из других стран, рассказавшие в режиме онлайн об особенностях лингвистики в своих регионах, как, например, спикеры из КНР, Казахстана, Сербии, Кыргызстана и Узбекистана.
Конечно, в вопросах, связанных с технологиями, важна материальная сторона. На пленарном заседании прозвучала новость, снявшая этот вопрос – как минимум, до реализации идей.
‒ В конкурсе Федерального агентства по делам национальностей на предоставление субсидии национально-культурная автономия марийцев России участвует пятый раз. В этом году наша организация выиграла 5,1 миллиона рублей на популяризацию и цифровизацию марийского языка, ‒ обрадовала новостью Председатель Ассамблеи народов России Марий Эл Лариса Яковлева.

Упрямые нейросети
Подписанный между МарГУ и Яндексом в 2024 году договор продолжает свое действие, и уже известно, на какие цели пойдет часть недавно полученного гранта.
‒ Из всех источников, которые содержат информацию о национальных костюмах, узорах, вышивке, антропологических особенностях и так далее, с помощью спецпрограммы мы аннотируем иллюстрации ‒ назовем автора, место съемок. После этого мы с помощью компании Яндекс будем обучать нейросети. Так мы добьемся правильного распознавания особенностей марийского народа, ‒ рассказал Андрей Чемышев.
В перспективе ‒ оцифровка музыки, написанной марийскими композиторами. Когда будут изображения и звук, можно создавать полноценные видео. Кроме того, продолжается работа по синтезу и распознаванию марийской речи, улучшению машинных перевозчиков. В центре внимания ‒ оптическое распознавание символов для марийских текстов, чтобы все сканы, фотографии из газет и журналов были правильно определены ИИ. Один из результатов ‒ удалось обучить говорить нейросеть на марийском языке!
По словам проректора по стратегическому развитию МарГУ Веры Токтаровой, марийский язык занимает четвертое место среди популярных языков сервиса Яндекс.Переводчик.
‒ Люди хотят пользоваться родным языком в интернете, а мы помогаем обеспечивать эту возможность через цифровизацию: распознавание речи, электронные словари, системы проверки правописания, синтезатор речи, голосовые помощники. Однако одного голоса мало, и нужны правильные визуальные образы. За минуту можем сгенерировать иллюстрации к забытым сказкам, оживить старые фотографии, создать ИИ- ассистентов носителя языка. При работе с генеративными нейросетями мы столкнулись с проблемой ‒ современные модели обучаются в основном на западноцентричных датасетах (наборах данных ‒ прим.авт.), где наша культура представлена фрагментарно, либо искаженно. И это уже вопрос цифрового суверенитета малых этносов. Чтобы этого избежать, мы в сотрудничестве с Яндексом начали работу над масштабным проектом ‒ созданием уникальной базы данных изображений национальных костюмов и предметов быта марийского народа, ‒ отметила Вера Токтарова. ‒ Простыми словами, мы разрабатываем правильную обучающую выборку нейросетей.
На примере выбора нейросетей она показала, как сильно «буксует» ИИ на просьбу показать свадебные наряды в районах Марий Эл и смешивает всевозможные традиции, по итогу выдавая неверный результат.
‒ Конечно же, искусственный интеллект сегодня способен работать с национальными особенностями, но только при условии экспертного сопровождения. Без точной локации, знания различных этнографических границ и верификации результатов исследователей он будет скатываться в стереотип, ‒ убеждена профессор.

Помощь из Москвы
Советник отдела планирования и реализации государственной национальной политики Управления государственной политики в сфере межнациональных отношений ФАДН России Александр Рашковский подвел итоги исследования состояния языков народов РФ в сфере информационных технологий.
‒ Сохранение языкового многообразия в цифровую эпоху ‒ не просто благородная миссия, а задача национального масштаба, от успешного решения которой зависит сохранение уникального культурного кода нашей страны и укрепление цифрового суверенитета. В прошлом году мы провели мониторинг в 41 субъекте Российской Федерации и обобщили информацию по 70 языкам народов России. Электронными словарями были обеспечены 68 языков, на 15 процентов больше, чем годом ранее. Наблюдается значительный рост количества образовательных цифровых программ, направленных на изучение и популяризацию языков народов России. Динамика позитивная. Марийский государственный университет стал первой научной организацией в России, которая системно занимается исправлением этнических стереотипов генеративным искусственном интеллектом. Уверен, что в будущем к этому проекту подключатся коллеги из других регионов, ‒ подытожил спикер.

Фото Екатерины Желтухиной
Глава республики Юрий Зайцев назвал прорывом, что марийский язык живет в цифровой среде.






