Функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации.

Окно в марийский Интернет: йошкаролинец Андрей Чемышев о письме Биллу Гейтсу и создании марийской Алисы

Марий Эл 13.07.2020 18:47 1036

В день 50-летнего юбилея состоялась встреча с героем этого интервью. Но, признаюсь, юбилейный материал –  случайность. За Андрея Чемышева говорят не слова и года, а дела. Он из тех скромников, чей труд никогда по достоинству, по большому счету-то, и не оценивался. Его обходят почести и награды. Между тем плодами его труда пользуются многие, и как оказалось, в том числе и я.  Например, при подготовке материалов на национальную тематику я искала в Интернете марийские буквы и к своему приятному удивлению нашла их в Яндексе. Теперь я знаю, что это заслуга Андрея Чемышева, сотрудника МарНИИЯЛИ. Сегодня «Марийская правда» знакомит своих читателей с этим удивительным человеком.

Z1IZpYuDeT4.jpg

SIM-ку – в окно

Внешне спокойный и очень взвешенный Андрей, оказывается, не плывет по течению. Он в один момент может кардинально поменять свою жизнь. Так и его идеи во многом революционны для нашей республики.

- Вы открываете интернет-пространство для марийского языка и марийский язык для интернет-пространства, как вы к этому пришли?

- Я кадровый военный вообще-то и никогда не думал, что буду заниматься лингвистикой. Учился в Ленинградском высшем военном инженерном училище связи им. Ленсовета. В 23 года завершил кандидатскую диссертацию по теме использования моноимпульсной пеленгации в адаптивных антенных решетках, но не защитил ее. То, что мы делали, сейчас летает на истребителях пятого поколения. Окончил училище в 1992 году, и это был уже Санкт-Петербург.

Меня отправили служить в НИИ связи Минобороны в Мытищи. Страна развалилась на глазах. У нас генштабовская часть была, я видел, как расстреливали Белый дом. Приехал в Генштаб, захожу, а ни одного генерала нет. Спрашиваю: «Где все?», мне говорят: «Все болеют». В этот день на работу никто не вышел из старшего офицерского состава, потому что никто не хотел участвовать в этом противоправном мероприятии. Тогда ведь нашли лейтенантов молодых, которые еще ничего не понимают, посадили их в танки по трое, вот они и расстреливали Белый дом. А потом такое в армии стало твориться, что решил уйти.  Вышел в запас в звании капитана с января 1997 года.

Какое-то время работал в Москве, занимались установками НТВ+. И как-то в декабре 2002 года иду по улице Тверской, у меня депрессия, дошел до Каланчевки, спустился к Казанскому вокзалу: «А есть билет на Йошкар-Олу?».  «Есть, - отвечают, - через 5 минут поезд». Купил билет, сел в вагон, SIM-ку достал и выкинул в окно.

- То есть, по сути, вы купили себе билет в новую жизнь?

- Тогда еще точно не понимал, но оказалось, что так. Я довольно долго не мог найти работу. Надеялся и даже до приезда в Йошкар-Олу получил приглашение от первой тогда в республике сотовой компании. Но тут в дело вмешались личные обиды. Мой отец долгое время проработал в связи и прямо в глаза руководству говорил то, что думает, в частности, о дорогих иномарках, приобретенных на деньги трудового коллектива (улыбается – ред.). В итоге я стал персоной нон грата.

И тут Эрик Юзыкайн, который работал тогда в Минкульте, предложил записывать марийские песни. Я поехал в Казань в «Барс-медиа», договорился, они стали первыми выпускать диски и кассеты. А в 2005 году открылось «Марий Эл Радио», и меня взяли музыкальным редактором и звукорежиссером. Тогда-то я первый раз столкнулся с тем, что у марийского языка есть серьезные проблемы при работе на компьютере.

EV0i8tGB02o.jpg

Я обиделся на Билла Гейтса

В принципе, догадаться о возникшей проблеме несложно. Это отсутствие марийских букв Ӓ, Ӧ, Ӹ, Ҥ, Ӱ в общедоступных шрифтах. На радио, когда печатали тексты, выкручивались, как могли, например, ставили апостроф там, где должно быть двоеточие. Марийские печатные издания обращались к местным программистам, и те кустарным способом вбили буквы в программу. Но, чтобы получить одну букву, надо было нажать целую серию клавиш. Процесс набора больше напоминал шифровку. Андрей Чемышев столкнулся с проблемой, когда решил сделать свой первый сайт.

- Я купил ноутбук с  операционной системой Windows XP, - продолжает Андрей. -  Сделал сайт на марийском языке, думал, что все хорошо, а оказывается, буквы с точками отображаются значками. Меня стали критиковать, я начал разбираться в проблеме. И тогда я понял, что в операционной системе нет юникода - стандарта кодирования символов – для марийского языка. В Мас, Linux и других системах таких проблем не было. И я обиделся на Билла Гейтса. Написал письмо: как же так, мы тебе платим деньги за лицензионный Windows, а ты не даешь возможность использовать наши буквы. Я просил включить пять марийских букв в стандартные шрифты. Корпорация Microsoft ответила, что проблема существует, но ее решение потребует огромных средств.

А я подумал, что проблема не так велика, нужно просто дорисовать несколько шрифтов в юникоде – и это дело чести для всякой уважающей себя компании. В итоге мы сами сделали раскладки для всех операционных систем и для смартфонов в том числе. Мы написали программы, которые устанавливаешь в операционную систему, и она снимает всю проблему. После я связывался, например, с разработчиками SwiftKey, и они добавили наши буквы в Android и iOS.

- И великих ли денег эта работа потребовала?

- Да никаких, чтобы раскладку сделать, шрифты создала компания «ПараТайп». Мы бессеребреники (улыбается – ред.). А в 2011 году в Йошкар-Оле проходила большая конференция, приехало 30 компьютерных лингвистов со всего мира, и мы даже дорожную карту расписали, как полноценно функционировать любому языку в электронном информационном пространстве. Но нашему тогдашнему  правительству республики это показалось неинтересно. Зато меня сразу пригласили в Коми: собирай себе команду и внедряй дорожную карту для коми языка. Раскладки и шрифты, электронные словари, система проверки правописания, машинные переводчики, поисковые системы – мы работали лет пять. Сейчас там уже огромный электронный Корпус коми языка – база данных, в которой 60 миллионов словоупотреблений. Все книги, которые выходили за 100 лет, хранятся теперь в Корпусе. Можно найти любые словоформы, вплоть до грамматического разбора слов. Корпус очень важен для лингвистов, составителей учебников, словарей, для всех, кто изучает язык. Но мне было как-то не по себе от того, что для марийского языка ничего не сделано.

h8Dflit16jQ.jpg

От рукописей до Алисы

Когда Андрей вернулся из Сыктывкара, стал пробивать идею в Йошкар-Оле. При Центре марийской культуры ему создали небольшой отдел, дали небольшое финансирование, и такой же небольшой срок – полгода, за который нужно получить результат. Работа оказалась очень успешной, через некоторое время Андрея пригласили на работу в МарНИИЯЛИ. И кстати, он окончил магистратуру по финно-угорской филологии, то есть окончательно перековался на лингвиста.

- Первоначально я связался с отделом машинного перевода в Яндексе, и мы начали работу по включению марийского языка в Яндекс.Переводчик, собирали параллельные тексты, - говорит Андрей Чемышев. - Электронные марийские словари были сделаны до этого. В электронный вариант перевели марийско-русский десятитомник, с которым можно работать онлайн и оффлайн. Также создана система проверки правописания. Когда встал вопрос машинных переводчиков, я связался с Яндексом, и они включили в свой переводчик и луговой, и горномарийский языки. Это произошло пару лет назад.

В 2018 году мы начали большую работу по созданию Национального корпуса марийского языка, создаем такую же базу, как в Коми. Мы сканируем книги, потом распознаем их. Чтобы PDF-ки не пропадали, выкладываем в свою электронную библиотеку, пусть люди пользуются. Сейчас у меня в облаке находится более 5 тысяч изданий разной тематики, жанров, авторов.

Сохраняются как современные издания, так и уникальные тексты. Например, в  хранилище МарНИИЯЛИ я нашел очень интересную рукопись. В 30-х годах был такой академик Н.И. Марр. В Петербурге у него учились наши языковеды, в частности, Иван Андреев. Потом Андреев работал заведующим сектором языка, директором МарНИИ. Он написал книгу по имени прилагательному в марийском языке согласно учению Марра.  Но вышла знаменитая статья Сталина «Марксизм и вопросы языкознания», и марризм, как новое учение о языкознании,  был признан вредным, а все работы уничтожены. Уничтожена была и книга Ивана Андреева. Но забыли про его работу, сделанную еще в 1935 году, когда он учился. Это больше 400 страниц, написанных от руки,  неизданных. Я хочу эту работу отсканировать.

NId12pwzCqA.jpg

- Еще какие-то технологии планируете внедрять?

- Следующий шаг - работа с речевыми технологиями. Для языка еще очень важны синтезаторы речи, когда вы даете текст, а компьютер его озвучивает, и распознавание речи, когда речь переводится в текст. Плюс элементы искусственного интеллекта – это Алиса. Пока она с марийским языком никак, глупости говорит, неправильно ударение ставит. Идея у нас есть - сделать марийскую Алису. Для синтеза речи я выбрал голос Павла Ефимова, актера театра, а женский голос мы пока ищем. Но это в перспективе, у нас маленький коллектив, всего три человека: я, Геннадий Сабанцев и Надежда Тимофеева, так что, думаю, лет на пять нам работы хватит.

Работа Андрея и его команды сейчас очень востребована. 2020 год, который проходит под знаком коронавируса, показал, насколько своевременно она началась. Когда учебные заведения вышли на карантин, то оказалось, что марийских учебников в электронном варианте для дистанционного обучения нет. И тут опыт Чемышева помог быстро выйти из ситуации и не сорвать учебный процесс, обеспечив всех необходимыми материалами. Так что знайте, когда пользуетесь онлайн-словарем или листаете электронную книгу, за всем, что упрощает нашу жизнь и делает доступной практически любую информацию, стоит работа неравнодушных ребят, по сути, энтузиастов, которые очень любят свой язык и хотят его сохранить.

Коротко


Архив материалов

Март 2026
Пн Вт Ср Чт Пт Сб Вс
           
27 28 29
30 31          
Мы используем куки, в том числе в целях сбора статистических данных и обработки персональных данных с использованием интернет-сервиса «Яндекс.Метрика» (Политика обработки персональных данных). Если Вы не согласны, немедленно прекратите использование данного сайта.
СОГЛАСЕН
bool(true)