Окно в марийский Интернет: йошкаролинец Андрей Чемышев о письме Биллу Гейтсу и создании марийской Алисы
Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации.

Окно в марийский Интернет: йошкаролинец Андрей Чемышев о письме Биллу Гейтсу и создании марийской Алисы

Марий Эл 13.07.2020 18:47 1040

В день 50-летнего юбилея состоялась встреча с героем этого интервью. Но, признаюсь, юбилейный материал –  случайность. За Андрея Чемышева говорят не слова и года, а дела. Он из тех скромников, чей труд никогда по достоинству, по большому счету-то, и не оценивался. Его обходят почести и награды. Между тем плодами его труда пользуются многие, и как оказалось, в том числе и я.  Например, при подготовке материалов на национальную тематику я искала в Интернете марийские буквы и к своему приятному удивлению нашла их в Яндексе. Теперь я знаю, что это заслуга Андрея Чемышева, сотрудника МарНИИЯЛИ. Сегодня «Марийская правда» знакомит своих читателей с этим удивительным человеком.

Z1IZpYuDeT4.jpg

SIM-ку – в окно

Внешне спокойный и очень взвешенный Андрей, оказывается, не плывет по течению. Он в один момент может кардинально поменять свою жизнь. Так и его идеи во многом революционны для нашей республики.

- Вы открываете интернет-пространство для марийского языка и марийский язык для интернет-пространства, как вы к этому пришли?

- Я кадровый военный вообще-то и никогда не думал, что буду заниматься лингвистикой. Учился в Ленинградском высшем военном инженерном училище связи им. Ленсовета. В 23 года завершил кандидатскую диссертацию по теме использования моноимпульсной пеленгации в адаптивных антенных решетках, но не защитил ее. То, что мы делали, сейчас летает на истребителях пятого поколения. Окончил училище в 1992 году, и это был уже Санкт-Петербург.

Меня отправили служить в НИИ связи Минобороны в Мытищи. Страна развалилась на глазах. У нас генштабовская часть была, я видел, как расстреливали Белый дом. Приехал в Генштаб, захожу, а ни одного генерала нет. Спрашиваю: «Где все?», мне говорят: «Все болеют». В этот день на работу никто не вышел из старшего офицерского состава, потому что никто не хотел участвовать в этом противоправном мероприятии. Тогда ведь нашли лейтенантов молодых, которые еще ничего не понимают, посадили их в танки по трое, вот они и расстреливали Белый дом. А потом такое в армии стало твориться, что решил уйти.  Вышел в запас в звании капитана с января 1997 года.

Какое-то время работал в Москве, занимались установками НТВ+. И как-то в декабре 2002 года иду по улице Тверской, у меня депрессия, дошел до Каланчевки, спустился к Казанскому вокзалу: «А есть билет на Йошкар-Олу?».  «Есть, - отвечают, - через 5 минут поезд». Купил билет, сел в вагон, SIM-ку достал и выкинул в окно.

- То есть, по сути, вы купили себе билет в новую жизнь?

- Тогда еще точно не понимал, но оказалось, что так. Я довольно долго не мог найти работу. Надеялся и даже до приезда в Йошкар-Олу получил приглашение от первой тогда в республике сотовой компании. Но тут в дело вмешались личные обиды. Мой отец долгое время проработал в связи и прямо в глаза руководству говорил то, что думает, в частности, о дорогих иномарках, приобретенных на деньги трудового коллектива (улыбается – ред.). В итоге я стал персоной нон грата.

И тут Эрик Юзыкайн, который работал тогда в Минкульте, предложил записывать марийские песни. Я поехал в Казань в «Барс-медиа», договорился, они стали первыми выпускать диски и кассеты. А в 2005 году открылось «Марий Эл Радио», и меня взяли музыкальным редактором и звукорежиссером. Тогда-то я первый раз столкнулся с тем, что у марийского языка есть серьезные проблемы при работе на компьютере.

EV0i8tGB02o.jpg

Я обиделся на Билла Гейтса

В принципе, догадаться о возникшей проблеме несложно. Это отсутствие марийских букв Ӓ, Ӧ, Ӹ, Ҥ, Ӱ в общедоступных шрифтах. На радио, когда печатали тексты, выкручивались, как могли, например, ставили апостроф там, где должно быть двоеточие. Марийские печатные издания обращались к местным программистам, и те кустарным способом вбили буквы в программу. Но, чтобы получить одну букву, надо было нажать целую серию клавиш. Процесс набора больше напоминал шифровку. Андрей Чемышев столкнулся с проблемой, когда решил сделать свой первый сайт.

- Я купил ноутбук с  операционной системой Windows XP, - продолжает Андрей. -  Сделал сайт на марийском языке, думал, что все хорошо, а оказывается, буквы с точками отображаются значками. Меня стали критиковать, я начал разбираться в проблеме. И тогда я понял, что в операционной системе нет юникода - стандарта кодирования символов – для марийского языка. В Мас, Linux и других системах таких проблем не было. И я обиделся на Билла Гейтса. Написал письмо: как же так, мы тебе платим деньги за лицензионный Windows, а ты не даешь возможность использовать наши буквы. Я просил включить пять марийских букв в стандартные шрифты. Корпорация Microsoft ответила, что проблема существует, но ее решение потребует огромных средств.

А я подумал, что проблема не так велика, нужно просто дорисовать несколько шрифтов в юникоде – и это дело чести для всякой уважающей себя компании. В итоге мы сами сделали раскладки для всех операционных систем и для смартфонов в том числе. Мы написали программы, которые устанавливаешь в операционную систему, и она снимает всю проблему. После я связывался, например, с разработчиками SwiftKey, и они добавили наши буквы в Android и iOS.

- И великих ли денег эта работа потребовала?

- Да никаких, чтобы раскладку сделать, шрифты создала компания «ПараТайп». Мы бессеребреники (улыбается – ред.). А в 2011 году в Йошкар-Оле проходила большая конференция, приехало 30 компьютерных лингвистов со всего мира, и мы даже дорожную карту расписали, как полноценно функционировать любому языку в электронном информационном пространстве. Но нашему тогдашнему  правительству республики это показалось неинтересно. Зато меня сразу пригласили в Коми: собирай себе команду и внедряй дорожную карту для коми языка. Раскладки и шрифты, электронные словари, система проверки правописания, машинные переводчики, поисковые системы – мы работали лет пять. Сейчас там уже огромный электронный Корпус коми языка – база данных, в которой 60 миллионов словоупотреблений. Все книги, которые выходили за 100 лет, хранятся теперь в Корпусе. Можно найти любые словоформы, вплоть до грамматического разбора слов. Корпус очень важен для лингвистов, составителей учебников, словарей, для всех, кто изучает язык. Но мне было как-то не по себе от того, что для марийского языка ничего не сделано.

h8Dflit16jQ.jpg

От рукописей до Алисы

Когда Андрей вернулся из Сыктывкара, стал пробивать идею в Йошкар-Оле. При Центре марийской культуры ему создали небольшой отдел, дали небольшое финансирование, и такой же небольшой срок – полгода, за который нужно получить результат. Работа оказалась очень успешной, через некоторое время Андрея пригласили на работу в МарНИИЯЛИ. И кстати, он окончил магистратуру по финно-угорской филологии, то есть окончательно перековался на лингвиста.

- Первоначально я связался с отделом машинного перевода в Яндексе, и мы начали работу по включению марийского языка в Яндекс.Переводчик, собирали параллельные тексты, - говорит Андрей Чемышев. - Электронные марийские словари были сделаны до этого. В электронный вариант перевели марийско-русский десятитомник, с которым можно работать онлайн и оффлайн. Также создана система проверки правописания. Когда встал вопрос машинных переводчиков, я связался с Яндексом, и они включили в свой переводчик и луговой, и горномарийский языки. Это произошло пару лет назад.

В 2018 году мы начали большую работу по созданию Национального корпуса марийского языка, создаем такую же базу, как в Коми. Мы сканируем книги, потом распознаем их. Чтобы PDF-ки не пропадали, выкладываем в свою электронную библиотеку, пусть люди пользуются. Сейчас у меня в облаке находится более 5 тысяч изданий разной тематики, жанров, авторов.

Сохраняются как современные издания, так и уникальные тексты. Например, в  хранилище МарНИИЯЛИ я нашел очень интересную рукопись. В 30-х годах был такой академик Н.И. Марр. В Петербурге у него учились наши языковеды, в частности, Иван Андреев. Потом Андреев работал заведующим сектором языка, директором МарНИИ. Он написал книгу по имени прилагательному в марийском языке согласно учению Марра.  Но вышла знаменитая статья Сталина «Марксизм и вопросы языкознания», и марризм, как новое учение о языкознании,  был признан вредным, а все работы уничтожены. Уничтожена была и книга Ивана Андреева. Но забыли про его работу, сделанную еще в 1935 году, когда он учился. Это больше 400 страниц, написанных от руки,  неизданных. Я хочу эту работу отсканировать.

NId12pwzCqA.jpg

- Еще какие-то технологии планируете внедрять?

- Следующий шаг - работа с речевыми технологиями. Для языка еще очень важны синтезаторы речи, когда вы даете текст, а компьютер его озвучивает, и распознавание речи, когда речь переводится в текст. Плюс элементы искусственного интеллекта – это Алиса. Пока она с марийским языком никак, глупости говорит, неправильно ударение ставит. Идея у нас есть - сделать марийскую Алису. Для синтеза речи я выбрал голос Павла Ефимова, актера театра, а женский голос мы пока ищем. Но это в перспективе, у нас маленький коллектив, всего три человека: я, Геннадий Сабанцев и Надежда Тимофеева, так что, думаю, лет на пять нам работы хватит.

Работа Андрея и его команды сейчас очень востребована. 2020 год, который проходит под знаком коронавируса, показал, насколько своевременно она началась. Когда учебные заведения вышли на карантин, то оказалось, что марийских учебников в электронном варианте для дистанционного обучения нет. И тут опыт Чемышева помог быстро выйти из ситуации и не сорвать учебный процесс, обеспечив всех необходимыми материалами. Так что знайте, когда пользуетесь онлайн-словарем или листаете электронную книгу, за всем, что упрощает нашу жизнь и делает доступной практически любую информацию, стоит работа неравнодушных ребят, по сути, энтузиастов, которые очень любят свой язык и хотят его сохранить.

Коротко


Архив материалов

Апрель 2026
Пн Вт Ср Чт Пт Сб Вс
   
10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      
Мы используем куки, в том числе в целях сбора статистических данных и обработки персональных данных с использованием интернет-сервиса «Яндекс.Метрика» (Политика обработки персональных данных). Если Вы не согласны, немедленно прекратите использование данного сайта.
СОГЛАСЕН
bool(true)