Для большого количества языков народов РФ существует проблема прохождения границы в цифровые языки Для большого количества языков народов РФ существует проблема прохождения границы в цифровые языки Фото: «БИЗНЕС Online»

«Я предлагаю считать язык оцифрованным, если заметная часть населения говорит с компьютером на нем»

Общественная платформа «За языки РФ» провела свою пятую онлайн-конференцию о передовых практиках сохранения языков народов России. Нынешнее мероприятие было посвящено IT-проектам. Тема эта выбрана не случайно, так как, по словам руководителя магистратуры по машинному обучению и искусственному интеллекту Якутского федерального университета Эллэя Шамаева, к 2030 году, меньше чем через каких-то 10 лет, значительная часть общения человека станет происходить с компьютером, наделенным искусственным интеллектом.

Выступая с докладом «Цифровизация малоресурсных языков», Шамаев привел данные американских исследователей, которые прогнозируют, что к 2022 году более половины семей в США — 55% — будут иметь дома умные колонки. «Сейчас в США наблюдается волна популярности умных колонок. На лето 2020 года 32 процента семей Америки, то есть треть, владеют умными колонками Amazon, Google Homе. Этот рост очень быстрый, он опережает подъем популярности смартфонов в начале 2010-х годов», — отметил представитель Якутии. Также, по словам Шамаева, в пределах 5–10 лет мы привыкнем к разговору с компьютером, на что указывает пример той же Америки — компании будут пользоваться компьютерами для общения со своими клиентами и станут внедрять голосовые помощники для повышения эффективности работы сотрудников.

«И здесь возникает такой термин — цифровизация языка. Я предлагаю считать язык оцифрованным, если заметная часть населения говорит с компьютером на нем. В данный момент мы не можем сказать, что заметная часть населения общается с компьютером на русском языке, то есть русский находится на стадии оцифровывания. А вот английский язык — оцифрованный. И поскольку он оцифрованный, то является языком компьютера», — поясняет спикер.

«Оцифровывание имеет определенные преимущества — такой язык будет ассоциироваться с деловым успехом человека, с карьерным ростом. Неоцифрованные языки станут постепенно маргинализироваться. Они не будут связываться с деловым успехом. Это одна из важнейших вещей, на которую я призываю обратить внимание на сегодняшней конференции», — сказал Шамаев. 

Еще одно преимущество оцифрованного языка, по словам спикера, — на нем будет производиться синхронный перевод: «Новости, фильмы и мультфильмы на лету станут переводиться с английского языка. Это очень важно. Мы бы хотели, чтобы синхронный перевод мультфильмов происходил на наши родные языки, потому что это один из важных инструментов воспитания детей, мультфильмы определяют будущий язык детей». По мнению представителя Якутии, цифровизация языков народов РФ имеет историческое значение, которое будет сравнимо с ролью создания национального алфавита и письменности языков.

Сам процесс цифровизации двухступенчатый: университеты, библиотеки, издательства, журналы и газеты создают электронный корпус языка, который открывает доступ для программистов, инженеров и исследователей машинного обучения, занимающихся цифровизацией языка. «А последние уже на основе электронных корпусов языков создают чат-боты, умные колонки, синхронные переводчики и прочее чудо, основанное на последних достижениях науки об искусственном интеллекте», — отмечает Шамаев.

По словам спикера, для большого количества языков народов РФ существует проблема прохождения границы в цифровые языки. «Основной сложностью является создание электронного корпуса языка. Язык в России, который прошел через такую границу в стране, — это, конечно же, русский. Вместе с ним, по данным, которые я вижу в интернете, татарский тоже перешел границу перехода в цифровые языки. Я предполагаю, что в нем происходит цифровизация в данный момент», — отмечает докладчик.

Что касается якутского языка, то для его цифровизации, утверждает Шамаев, предстоит решить задачу создания инфраструктуры, которая условно называется «библиотека для нейронных связей». «Проблема перехода через данную границу будет решаться увеличением электронного корпуса языка. В мире это обычно делается через традиционный перевод с английского или русского языка на якутский, а после перевода люди садятся и правят. Создание электронного корпуса языка занимает свыше 90 процентов времени, организационных усилий и трудовых ресурсов. Само программирование умных алгоритмов занимает менее 10 процентов времени и организационных усилий», — считает спикер.

По словам Шамаева, самые точные нейросети были выстроены для английского и китайского языков, поскольку эти языки имеют большие и качественные корпусы в миллиард единиц, определенный порядок слов в предложении, большие инвестиции и исследовательские команды. Для остальных же языков существуют проблемы: сравнительно малый размер корпуса, прямая адаптация нейросетей, сконструированных для английского языка, отсутствие закрепленного порядка слов в предложении, то есть нейросети при восприятии пропущенных слов сталкиваются с более сложной задачей. Как результат — нейросети работают с меньшей точностью. 

«Особенность заключается в том, что наши языки относятся к агглютинативным, а у слов в английском и китайском нет окончаний. Если это будет решено в татарском языке и опубликовано в научных статьях, то и другие смогут воспользоваться такими разработками. Я очень хотел бы увидеть прогресс в данном поле», — отметил первый спикер.

«Нам помогли сайты правительства Татарстана, которые ведутся на двух языках»

На вопрос, стоит ли ждать помощи со стороны татар, ответил представитель Института прикладной семиотики АН РТ Айрат Гатиатуллин. Он призвал сотрудничать и работать совместно, при этом отметив, что, действительно, 70–80% разработок для одного тюркского языка легко переносимо на другие тюркские. Как пример, институт, который занимается разработками для татарского, в последнее время начал делать продукты и для некоторых других тюркских языков. Сам Институт прикладной семиотики АН РТ был создан в 2009 году на базе лаборатории «Проблемы искусственного интеллекта КГУ, АН РТ и СНИИ „Прометей“» КГТУ, его основные разработки — татарская локализация различных продуктов: программы, клавиатуры, мобильные словари, инструмент для переводчиков. 

«Ключевые особенности тюркских языков — это агглютинативность, сингармонизм, отсутствие грамматической категории рода, порядок слов в предложении и так далее», — согласился представитель Татарстана со своим коллегой из Якутии.

Что касается татарского языка, то в настоящее время для него существует несколько электронных корпусов. Один из них — электронный корпус «Туган тел» — насчитывает более 180 млн словоформ. Институтом также был разработан электронный «Атлас татарских говоров», который включает говоры татар из 28 регионов РФ, 215 лингвистических явлений в 1 047 поселениях. «В АН РТ идет более глобальная работа — подключились археологи. Будет некий единый портал», — говорит Гатиатуллин.

Для татарского языка также разработаны интерактивные версии учебников и онлайн-учебники. «Направление, которое сейчас активно развивается на базе нейронных сетей, — это речевые технологии: анализаторы, распознаватели и синтезаторы речи. Нами было записано 500 дикторов, 100 часов аннотированных записей, четыре основных корпуса профессиональных дикторов. Данная работа началась еще в 1990-е годы», — отмечает спикер.

Институт прикладной семиотики АН РТ также занимается системой машинного перевода — translate.tatar. Этот проект разработан для русско-татарского перевода: «Мы расширяем продукт, делаем систему машинных переводов на 7 тюркских языках — башкирском, казахском, узбекском, киргизском, крымско-татарском и чувашском». В то же время с рядом языков существует большой дефицит, в первую очередь с крымско-татарским. «На крымско-татарском языке отсутствует материал и литература, нет устоявшейся орфографии», — отмечает оратор.

«Поэтому технологии машинного перевода мы пытаемся перенести на другие тюркские языки», — говорит он. Уже создан единый сайт, где размещены электронные корпуса алтайского, башкирского, казахского, крымско-татарского, тувинского, татарского, турецкого, хакасского и шорского языков. С 2013-го проводится научная конференция по компьютерным технологиям тюркских языков — в этом году она состоится в Туве. «Но все равно нет единого механизма, который объединял бы усилия ученых. С такой целью был создан портал „Тюркская Морфема“. Всеми разработками, представленными на данном сайте, смогут пользоваться разработчики на других языках. То, что создается для одного тюркского языка, намного легче переносить на другие родственные языки. Все это будет экономичней, быстрее и практичней», — подчеркивает Гатиатуллин.

В ходе конференции у спикера спросили, как удалось организовать процесс перевода на татарский язык миллиона пар слов? «Нам помогли сайты правительства Татарстана, которые ведутся на двух государственных языках — русском и татарском, переводные книги — художественная литература, переведенная с русского на татарский язык, также были задействованы законодательные акты — Конституция и законы, которые переведены на татарский язык, и другие источники», — ответил Гатиатуллин.

«Я эти проекты практически пинками заталкивал»

Еще один язык, который также активно представлен в интернете, — это башкирский. Разработчик, языковой активист и главный координатор сообщества «Башкирские проекты» Ильдар Киньябулатов рассказал, как в течение последних 10 лет в РБ разыгрывается своеобразная драма в области языков, в частности в сфере IT-проектов. Киньябулатов говорил о том, как в 2010 году его, начинающего айтишника, пригласили на работу во всемирный курултай башкир. Там выяснилось, что нет клавиатуры Windows на башкирском языке, для того чтобы набирать тексты: «Я вернулся домой, за ночь создал файл-клавиатуру, которую можно было поставить на компьютер. Пришел в оргкомитет курултая, где меня познакомили с одним из чиновников минобра, который очень негативно встретил мою идею. Оказывается, существовали какие-то другие разработки местного академического сообщества — хамелеоны, исковерканные шрифты, на которых можно было набирать башкирские тексты. Он показал мне одну из таких разработок с укором, мол, „что ты тут нам предлагаешь, мы и так это хорошо знаем“». По словам спикера, то, что чиновники занимались такими бесполезными разработками, оказало негативное влияние на развитие башкирского IT в целом.

В 2013 году отец Киньябулатова обратился к сыну с вопросом, почему на Android нет башкирской клавиатуры, что подвигло разработчика взяться за ее создание: «Мы со моим другом Юрием Бакуниным разработали первую башкирскую и одну из первых татарских клавиатур. Она быстро стала очень популярной, количество установок перевалило за несколько десятков тысяч. Оказалось, что потребность в таком продукте на тот момент была колоссальной. Так меня занесло в эту сферу языковых разработок». Затем активист разработал раскладку для Mac и написал статью с инструкцией о том, как это сделать. Далее появилось онлайн-радио на башкирском «Башкортса радио», куда внедрили все башкирские радиостанции. Затем — агрегатор новостей на башкирском языке, включая районные газеты. С помощью технологии Googlе был создан выделенный поисковик на башкирском языке.

«Все эти разработки привели к тому, что меня заметили другие активисты и начали предлагать сделать различные проекты. Предлагали разработать башкирскую социальную сеть, которую я оценивал как фантастическую. Но зато мы перевели на башкирский язык интерфейс „ВКонтакте“. За четыре месяца мы перевели весь интерфейс на башкирский, это привело к тому, что практически весь башкирский сегмент интернета полностью переместился во „ВКонтакте“», — продолжает докладчик.

По словам спикера, по времени и ресурсам все это выходило очень накладно, таким образом родилось сообщество «Башкирские проекты». Уже его силами активисты сначала перевели на башкирский язык социальную сеть «ВКонтакте», затем «Скайп», добавили еще несколько клавиатур, создали много башкирских шрифтов. Появилась библиотека Kitaptar, где несколько активистов на протяжении двух лет оцифровывали башкирские книги. Развивается словарь Glosbe, активисты внедряют башкирский язык в другие словари. «Наша цель заключалась в том, чтобы контент, который создается на башкирском языке, был не хуже русского или английского. Создание новых шрифтов привело к тому, что башкирский дизайн сделал большой скачок — визуальные материалы резко улучшились», — говорит представитель Башкортостана.

По его словам, участием в различных презентациях и мероприятиях языковые активисты привлекали внимание к своему движению: «У нас было очень много идей того, что еще можно было сделать. Так появилась карта всех возможных идей. Мы смогли реализовать только 10 процентов из них. Эта карта актуальна не только для башкир, но и для других народов».

В 2018 году Киньябулатов направил все силы, чтобы «заставить» государство влезть в данную сферу и поддержать финансово ее активистов: «До 2018 года ситуация у нас в республике никак не менялась: с одной стороны, чиновники не мешали делать, что хотим, с другой — никак не помогали. Я хотел это изменить, потому что по госпрограмме финансирование было предусмотрено, но деньги уходили бюрократам или академистам, разработки которых никак не касались жизни людей. Я хотел это поменять».

По словам спикера, изменить ситуацию помог языковой кризис. «В 2018 году у нас случился большой митинг в защиту башкирского языка, в этот день мне позвонили из администрации главы Башкортостана. Ранее я скидывал им разные идеи, в частности создания фонда поддержки башкирского языка, который занимался бы IT-проектами, предлагал переключить финансирование с формата субсидирования на гранты. В один день они объявили, что и фонд создается, и гранты будут выделяться. Мы собрали экспертный совет, подготовили аналитическую справку, в какой ситуации находится в целом языковая сфера. Закончилось тем, что создали дорожную карту. Прошло более двух лет с того момента, и сегодня примерно все развивается по этой дорожной карте. Результат был. Во время работы в курултае башкир я такие проекты практически пинками заталкивал», — делится своим опытом Киньябулатов.

По его словам, сегодня в Башкортостане выделяются очень большие гранты на языковые проекты: «Наверное, больше, чем в других республиках — 80 миллионов рублей в год. Плюс еще субсидии. Языковая сфера в республике сделала большой уклон на небюджетные организации и независимые проекты. Это большой плюс. Но есть один минус — из-за того, что государство стало более внимательно относиться к данной сфере, независимые айтишники постепенно уходят из этой области, вследствие чего происходит некая деградация потенциала. Чиновники все равно ограничены своим видением и скоростью развития проектов».

Таким образом, спикер пришел к выводу, что всем разработчикам нужно постепенно пытаться отойти от проектного, исключительно государственного финансирования и пытаться перейти на разработку продуктовую: «Не разрабатывать продукты только под один язык, поскольку рынок маленький. Скооперироваться языковому комьюнити по всей России и пытаться создавать продукты, которые работают на разные языки».

Сегодня Киньябулатов со своей супругой занимается детским проектом «Балалар», в рамках которого создаются анимационные фильмы, приложения для детей на башкирском языке.

«Тувинские бабушки в чатах обмениваются картинками и мотиваторами на тувинском»

Общественный активист из Тувы Али Кужугет также занимается разработкой различных приложений для тувинского языка — в одиночку: «С тувинским языком я работаю с 2010 года. Начиналось все с мотиваторов на тувинском языке во „ВКонтакте“. За два года я сделал около 2 тысяч мотиваторов, они все разлетелись по сети и чатам. Я их все распечатывал и клеил внутри автобусов, что повлияло на восприятие людьми языка в будущем».

Позже активист приступил к созданию тувинской «Википедии»: «Когда я начал делать проект с „Википедией“, мне было очень сложно — оказалось тяжело убедить людей, общественность, ученых в том, что это будущее для тувинского языка. И если мы хотим, чтобы тувинский язык жил, нам необходимо сделать платформу энциклопедии. До этого у тувинского не было масштабной энциклопедии, платформы, где на нем объясняются простые вещи». На создание тувинской «Википедии» ушло полтора года, после чего в Гонконге было получено официальное название и адрес.

Далее Кужугет перешел к созданию «базовых технологий, которые дают дыхание языку в сети»: клавиатура, анализаторы, технологии в виде открытых платформ, самая яркая из которых — это «Википедия», онлайн-переводчики, словари, технологии, которые являются частью глобальных корпораций — Google, Apple и т. д.

«Когда в 2016 году я начал работать в правительстве, мне удалось убедить огромное количество людей, что это стандарт для республики, что нужно использовать тувинскую клавиатуру и качественные тексты. Параллельно я создал сайт, который позволяет использовать русско-тувинский словарь, удалось оцифровать тувинско-русский словарь и сделать его обратную версию. Мы перевели интерфейс „ВКонтакте“ на тувинский язык. Один из молодых ученых даже защитил диплом по тувинскому интерфейсу „ВКонтакте“. Для молодых ученых это перспективное направление», — продолжил спикер делиться своим опытом.

«Когда я сделал клавиатуру, организовали конкурс стикеров на тувинском языке, произошел бум. Тувинские бабушки в чатах обмениваются картинками и мотиваторами на тувинском языке, сами создают стикеры, накладывая тувинский язык на картинки», — рассказывает разработчик.

Далее активист из Тувы обратил внимание на то, что такие крупные компании, как «Яндекс» или Google, с большим энтузиазмом сотрудничают с теми, кто представляет интересы государственных языков: «К ним они более отзывчивы, а остальные языки остаются на обочине. Если каким-то образом нам всем, объединившись, удастся наладить рабочий канал взаимодействия с этими компаниями, исчезнет непонимание, в каком формате нужно делиться с ними технологиями, в каком формате следует собирать данные. Сейчас я разрабатываю легкий вариант корпуса тувинского языка. Корпус языка довольно сложно собирать, и на это могут уйти годы», — обратился к участникам конференции Кужугет.

«Хотелось бы, чтобы тувинский язык появился на „Яндекс.Переводчике“, но там требуют как минимум миллион переводов. Сейчас у меня есть 250 тысяч, осталось каким-то образом сгенерировать еще 750 тысяч словоформ. На тувинском языке полноценного корпуса нет, поэтому проблема очень большая», — отмечает представитель Тувы. 

Еще одно направление, над которым в данный момент он работает, — это машинное зрение. «Если внести родной язык в дополненную реальность, в виртуальный мир, в машинное зрение, у нас появится шанс удержать интерес детей к родному языку. Для них это будет как игра. Они смогут видеть предметы, где будет написано их название на русском и тувинском, например, языках или башкирском. Через два года станут внедрять Apple-очки, и если мы сделаем классификацию предметов, то окажемся на передовой технологий, — призвал докладчик объединить усилия разработчиков из различных республик для создания этой технологии. — Надо общими усилиями сделать общий классификатор на тысячу элементов хотя бы на русском языке». Тогда, по его словам, исчезнет проблема говорящих на родном языке на уровне детского садика. «У многих народов потеря языка происходит именно на уровне детского сада. Филологов уже сегодня нужно готовить к реалиям машинного обучения, проводить курсы повышения квалификации для нынешних педагогов», — отметил спикер.

«Человек, который работал в отделе машинного перевода, ушел из «Яндекса», и вся работа по поддержке языков народов России заглохла»

Разработчик из Удмуртии Григорий Григорьев также занимается созданием мобильных приложений для популяризации удмуртского языка — в свободное от работы время. «Я начал делать это в 2012 году. Мой первый проект — система правописания на удмуртском языке и словарь для проверки корректности ввода удмуртских слов», — говорит спикер. Далее появилась удмуртская клавиатура: был создан установочный пакет, который включает в себя и клавиатуру, и систему проверки правописания, и шрифты, и словарь — все инструменты, необходимые для набора текста на удмуртском языке. Позже — удмуртская клавиатура для мобильных телефонов, туда же внедрен словарь Т9 и быстрый набор. На базе этой раскладки сделаны клавиатуры для марийского, коми, алтайского и тувинского языков. Затем появились различные приложения: удмуртско-русский словарь, удмуртско-русско-английский разговорник с аудированием и иллюстрациями, который работает без подключения к интернету, приложение для изучения удмуртского языка — тренажер слов и фраз, финно-угорское радио, где собраны радиостанции финно-угорских народов, удмуртский алфавит для детей в игровой форме, виджет календаря, который отражает на смартфоне текущую дату на удмуртском языке, а также удмуртские шрифты.

Преуспели в создании корпуса своего языка и марийцы. Над этим на протяжении последних трех лет работает группа разработчиков из троих человек под руководством Андрея Чемышева. Представители Марий Эл создавали корпус марийского языка путем сканирования книг. Сами отсканированные книги в формате pdf также сохранены в сети — всего их более 5 тысяч. Все проекты: клавиатура, электронные словари, проверка правописания, электронная библиотека, изучение марийского языка, русско-марийский словарь и т. д. — собраны на сайте Mari-Lab. Следующий этап — сделать синтезатор марийской речи, развивать нейронную сеть. Проект по разработке электронного корпуса марийского языка был запущен к 100-летию Марий Эл. На три года на создание корпуса выделено 20 млн рублей. В первый год закуплен книжный планетарный сканер, во второй — сервера и т. д.

За эти три года удалось включить марийский язык в «Яндекс.Переводчик», однако представители Марий Эл успели внести только 250 тыс. предложений в параллельном тексте из необходимого 1 миллиона. «Предполагалось дорабатывать переводчик и довести количество предложений до миллиона. Но человек, который работал начальником отдела машинного перевода, ушел из „Яндекса“, и вся работа по поддержке и улучшению языков народов России заглохла. На его место пришел человек из Google, он шотландец, и у них только одна цель, одна фишка — они соревнуются с Google, у кого лучше англо-русский перевод. На поддержку языков народов России они забили», — объясняет причину остановки этой работы Чемышев.

Один язык, несмотря на смену руководства, по словам Чемышева, в «Яндексе» все же появился. Это чувашский, который был внедрен в переводчик благодаря сотруднику «Яндекса», который работает не в отделе машинного перевода, а в другом. «В свободное от работы время он создавал чувашский переводчик на базе корпуса чувашского языка, который делал Николай Плотников. И когда он готовый материал передал в отдел машинного перевода, тогда они включили в свой переводчик чувашский язык», — говорит спикер.