Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации.

Домашняя техника вас "услышит"

Марийские студенты изобретают аудиовизуальный распознаватель речи - программу, способную понимать нашу речь на расстоянии.

То, что создает студент исторического факультета МарГУ Виктор Осетров со своими друзьями, в мире пока вообще не существует. Над проблемой ученые работают уже давно, но пока есть программы (главным образом американские) лишь аудиораспознавания речи, которые основываются только на одном показателе - частоте голоса. Отсюда их слабые места - эти программы пасуют перед звуковыми помехами. Например, если в комнате работает телевизор, система сбивается. Во-вторых, она рассчитана на правильную академическую речь, а встретившись с диалектом или сленгом, просто беспомощна.
Виктор признается, что, несмотря на выбранную специальность, его всегда больше интересовало не прошлое, а будущее. Это противоречие закончилось тем, что однажды отличник учебы вообще распрощался с универом, но потом одумался и вернулся. Увлекался фонетикой, занимался системой синхронного телеперевода, постепенно вышел на тему распознавания речи и "заболел" ею.
Японcкие ученые работают в этом направлении, но пока не вышли даже на опытный образец. В нашей стране этой темой не занимаются вообще, хотя именно это технологическое решение, по мнению Осетрова, является самым перспективным. Речевые распознаватели достигли своего потолка, но не устраивают пользователей, потенциальный рынок сверхточных распознавателей речи составляет 17 миллиардов долларов, но реально подобных программ продано всего на 400 миллионов. Основная причина - продукт не удовлетворяет покупателей своим качеством.
И увидит, и услышит
Принципиально новое решение, с которым выходят наши ребята, это использование и частоты голоса, и мимики. Система получает аудиовизуальный сигнал и осмысливает его. Двухсторонний алгоритм аудиовизуальной синхронизации может повысить точность распознавания речи на 20 процентов. Дело в том, что движение губ - источник информации (чтение по губам), тут важно найти определенный алгоритм. Ребята уже немало продвинулись, система пока хромает, но это вопрос времени, потому что технология уже создана. Кроме того, Осетров по принципу Википедии (интернет-энциклопедия) предлагает новое решение наполнения базы данных. Создается интернет-сервис, туда вносятся самые общеупотребительные слова, затем каждый пользователь может зайти туда и загрузить свои слова и выражения. То есть на созданной матрице все желающие пополняют контент, это значительно ускорит и удешевит работу по наполнению и обновлению базы данных. Это технология, которая позволяет каждому быть создателем, то есть спич-мэйкером новой программы.
Для создания такой программы группа Осетрова, это всего четыре человека - Евгений Нагиба, Олег Кулабухов и Иван Губочкин, студенты разных факультетов - разрабатывают совершенно новые технологии. Например, систему, которая позволит определять и преобразовывать мимику в зашифрованную форму сигналов. Это абертально-тембровый анализ, декодер программы, представляющий собой двухсторонний алгоритм, анализирующий голос и движение мимики человека.

Распознаватель - в каждый дом
Что касается области применения распознавателей, то такая программа может быть установлена везде, где имеется компьютер с микрофоном и веб-камерой. Безусловно, она в состоянии здорово облегчить жизнь человеку. Это может быть универсальный переводчик или преобразователь речи в текст - не хочешь печатать, можно просто продиктовать, компьютер сам наберет и распечатает. Это может быть "умный станок", "умный дом", производственный или домашний навигатор, когда вся бытовая техника работает с голоса человека, правда, пока мы такое видим только в фантастических фильмах.

Родина оценит
То, что Осетров и со товарищи занимаются не "ветряными мельницами", доказывают результаты их участия в различных конкурсах. Первый же конкурс БИТ (бизнес-информационных технологий) принес им успех. Потом был международный конкурс под эгидой крупной швейцарской фирмы, где наряду с дебютантами участвовал такой авторитет, как "Яндекс". Виктор со своим аудиовизуальным распознавателем речи вошел в полусотню самых перспективных проектов. Его пригласили в Москву на презентацию, которая прошла, пожалуй, в самом престижном московском клубе "Крыша мира". Был на форуме инноваций на Селигере. Выиграли грант в конкурсе "У.М.Н.И.К.", недавно вышли в финал Зворыкинского конкурса, в середине декабря предстоит поездка в Москву. Финал пройдет в знаменитом теперь Сколково. Участие в конкурсах принесло уверенность в своих силах, грантовые 400 тысяч рублей, из которых 110 тысяч сразу "съели" налоги.

Инвестор видит издалека
Конечно, главная работа еще впереди. Требуются дополнительные силы, узкие специалисты, оборудование, например, медиа-лингвистическая лаборатория. Одного энтузиазма тут уже мало. Правда, есть и "луч света" - к проекту проявляют интерес как отечественные, так и зарубежные инвесторы. Это, в частности, "Рувента" - московский венчурный фонд. Не скрывают своего интереса нижегородские бизнесмены, недавно предложение о сотрудничестве получено от государственной Российской венчурной компании, ее представитель побывал в Йошкар-Оле. Но "продаваться" ребята не хотят, условия грабительские: венчурные компании, взяв проект на начальной стадии, забирают себе 80 процентов ее капитала. Так что, пока это возможно, парни хотят сохранить контроль над своим проектом.
Хорошо, что свободного времени скоро прибавится. До диплома у Осетрова рукой подать, защитив его, Виктор собирается полностью отдаться проекту.

Коротко


Архив материалов

Апрель 2026
Пн Вт Ср Чт Пт Сб Вс
   
24 25 26
27 28 29 30      
Мы используем куки, в том числе в целях сбора статистических данных и обработки персональных данных с использованием интернет-сервиса «Яндекс.Метрика» (Политика обработки персональных данных). Если Вы не согласны, немедленно прекратите использование данного сайта.
СОГЛАСЕН
bool(true)