Как планируется назвать марийскую «Алису», что из себя представляет сервер, благодаря которому идет работа над синтезатором марийской речи и как нейросети дадут новый толчок развитию национального языка? Об этом рассказал младший научный сотрудник МарНИИЯЛИ Андрей Чемышев, презентовав свою разработку на научно-методическом семинаре в День марийской письменности.
Сегодня, 10 декабря, в Марийском научно-исследовательском институте языка, литературы и истории им. В. М. Васильева прошел научно-методический семинар о соблюдении норм марийского языка. Ключевым событием стал доклад младшего научного сотрудника МарНИИЯЛИ Андрея Чемышева, рассказавшего широкой публике о новаторской работе, сочетающей современные технологии и марийский язык.
− Нейросети – слово громкое, и для обычного пользователя − всего лишь коробка, у которой есть вход и выход. Большего ему знать не надо, кроме того, что ей можно поручить разные задачи, обучив чему-то. Нужно дать ей так называемое сырье – тексты, предложения на одном языке и его перевод на другом языке. С достаточным числом таких данных можно научить переводить нейросеть с одного языка на другой. По такому принципу работает «Яндекс.Переводчик», − рассказал он.
Нейросеть можно использовать во многих прикладных науках, подготовив специальный аудиокорпус с помощью чтеца. Она начинает понимать, что за текст перед ней, слыша голос – и именно так можно сделать синтезатор.
− Один и тот же текст можно записать на диктофон и научить нейросеть различать женские, мужские, детские голоса, взрослые, нетрезвые, с акцентом, с дефектами, тембрами – и он будет понимать текст в разных звучаниях, распознавать речь. Представляете, сколько задач можно решить с помощью «железки»? – говорит энтузиаст.
Для того, чтобы система распознавания марийской речи заработала, нужно вложить в это дело немало средств и сил.
− Есть бесплатные сервисы, где можно использовать чужие нейросети. Но если бы такая «железка» была у тебя, ты, может, обучил бы за сутки, а так – за месяц. Но на этом ресурсе можно учиться. Мы закупили сервер, который внешне выглядит как шкаф, туда поставили мощную видеокарту, операционную систему Linux. Дальше остался вопрос по библиотекам, с помощью которых можно развернуть нейросеть на сервере и обучать за нужное время. Мы будем выбирать те, с которыми работают знакомые нам «гуру», чтобы можно было использовать их опыт и наработки.
Помощь в этом сотрудникам МАРНИИЯЛИ окажут программисты ПГТУ. Сегодня между руководством института и университета было подписано соглашение о сотрудничестве, которое, несомненно, позволит прорубить окно в мир современных технологий с использованием национального языка.
− Мы собирали аудиокорпус длительностью около 10 часов, подготовив его для обучения нейросети. По опыту Татарстана, по опыту создателей «Алисы», этого времени хватит «за глаза». Но мы планируем увеличить его, для чего создали студию звукозаписи, заказали профессиональное оборудование, как в серьезных студиях. Я думаю, к концу декабря мы запустим первое обучение, получим «сырую» версию синтезатора на основе материалов, что у нас есть. Так мы поймем, какие есть проблемы, и будем дорабатывать, − подытожил Андрей Чемышев.
Кстати, имя для марийской «Алисы» еще не выбрано, потому что первый синтезатор разработан с мужским голосом Павла Ефимова. Название разработки будет до последнего держаться в секрете, добавил ученый.
Отметим, что сегодня на семинаре были презентованы новые книги на марийском языке, которые позволят пополнить библиотеку национальной литературы. Это труд Людмилы Григорьевой «Кынелза, шогалза: кайышаш корно кужу вет…», посвященный памяти выдающегося просветителя народа мари Т.Е.Ефремова, а также «Краткий черемисский словарь с российским переводом»: лингвистический анализ (с приложением словаря) Олега Сергеева.
Напомним, «Марийская правда» сообщала о мероприятиях, которые проходят в Марий Эл в честь Дня марийской письменности.






