Лингвист из Йошкар-Олы работает над созданием марийской умной колонки
Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации.

«Айвика, прочитай статью в «Марийской правде!» / Лингвист из Йошкар-Олы работает над созданием марийской умной колонки

Технологии 04.12.2023 09:35 416

Голосовые помощники, умные колонки, система автоматического перевода аудио- и видеоконтента значительно упрощают жизнь, но их создание невозможно, когда нет трех вещей: машинного переводчика, синтезатора речи и распознавателя речи. Небезызвестный ChatGPT облегчил процесс работы разработчиков, но задач от этого меньше не стало.

Человек впереди технологий

В 2016 году команда Андрея Чемышева начала разрабатывать корпус для машинного переводчика, чтобы в дальнейшем Яндекс мог «говорить» на марийском языке, а спустя время переключилась на создание корпуса марийского языка (за три года требовалось собрать минимум 20 миллионов словоупотреблений). Свои наработки сотрудники МарНИИЯЛИ выложили в свободный доступ, чем воспользовались как российские, так и зарубежные корпорации.

- Это хорошо: чем больше людей пользуются нашими исходными данными, тем дальше узнают о марийском языке, - объяснил Андрей Чемышев. - В 2021 году мы начали заниматься распознаванием марийской речи, и в декабре сбор исходных данных для проекта «iВика» будет закончен. К концу года мы обучим нашу модель для распознавания марийской речи первоочередным языковым навыкам, а в январе переобучим.

В этом году разработчики объединили усилия со студентами МарГУ, где открылась Лаборатория национальной цифровой лингвистики. Андрей отметил, что самый большой ресурс – это человеческий, и у ребят, во-первых, есть время, а во-вторых, интерес к саморазвитию. Тогда же он объявил, что началась работа над умной колонкой Айвикой.

tkSuBbCn6F0.jpg

Колонка маленькая, а знаний в ней - мириады

- У нее будет голос студентки Виктории Мамаевой, - приоткрыл завесу тайны лингвист. – Почему не мужской? У нас есть синтезатор мужской речи на основе голоса Павла Ефимова, но он нуждается в переобучении, да и согласно опросам, для всех привычнее, если отвечать пользователю будет именно «девочка». Сейчас идет запись голоса Вики, у нас для этого есть специальная студия. В конце декабря закончим запись минимума – 15 часов слов и предложений. После этого обучим интернет-помощницу и таким образом у нас будет синтезатор речи.

Ударение в имени марийской умной колонки падает на последний слог. Башкиры, занявшиеся выпуском подобного гаджета, назвали свою разработку «Хомай» – по имени героини национального эпоса. Именно коллеги из Уфы дадут развитие проекту «iВика».

- Распознавание есть, синтезатор будет, машинный переводчик есть, но его нужно улучшить – все необходимые компоненты перед нами. Затем мы возьмем «железо» «Хомая», доработаем до мультиязычной версии и где-то в феврале-марте увидим работу прототипа, - рассказал Андрей.

Просто так колонки для проекта не купить – они законтрактованы компаниями, поэтому их нужно изготавливать самим. По словам Чемышева, на заводе для «Хомай» была изготовлена специальная плата, а всё остальное башкиры собирали в Уфе и уже сделали порядка 200-300 колонок для детских садиков и школ. Задачу проекту ставили простую: разговаривать с детьми и обучать языку.

Сами башкиры поделиться разработкой не против, утверждает лингвист. В перспективе - научить колонку нескольким языкам. Спрашиваю: а выдержит ли «железо» такие нагрузки? Андрей говорит, что все зависит от мощности сервера, и пока он позволяет вместить в умную колонку желаемые функции и языки.

- Пока у башкир информация находится на отдельном сервере, но когда мы сделаем свою модель и программу, то перенесем ее на сервер МарГУ, закупленный по программе «Приоритет-2030». У них очень мощная видеокарта, поэтому проблем быть не должно, - рассуждает Андрей Чемышев. - Весной во время конференции в университете мы проведем презентацию проекта.

В качестве «мозга» для колонки используется ChatGPT, точнее, его обученные под задачу модели. На первом этапе марийская «iВика» будет уметь ставить песни и аудиокниги, отвечать, какой репертуар предлагают местные театры, во сколько придет поезд из Москвы или автобус из Сернура. Словом, использовать доступные возможности интернета и делиться ими с владельцем.

- Умная колонка будет использовать достоверные и официальные источники, новостные агрегаторы, а если пользователь попросит озвучить информацию по-марийски, сможет перевести. В перспективе - научить «Айвику» придумывать сказки самостоятельно и давать обзоры на книги для тех, кто не успевает их прочесть. Ну и надо подумать над играми. Думаю, дальше появится еще больше идей - успевай реализовывать! – улыбается разработчик.


Фото предоставлены Андреем Чемышевым.
Читайте также: Разработчик Сергей Якунин из Йошкар-Олы анонсировал работу над внедрением раскладки на марийском языке для Android

Коротко


Архив материалов

Май 2026
Пн Вт Ср Чт Пт Сб Вс
       
27 28 29 30 31
Мы используем куки, в том числе в целях сбора статистических данных и обработки персональных данных с использованием интернет-сервиса «Яндекс.Метрика» (Политика обработки персональных данных). Если Вы не согласны, немедленно прекратите использование данного сайта.
СОГЛАСЕН
bool(true)