Когда Google Translate заговорит по-казахски

Общественный фонд WikiBilim, инициировавший проект по включению казахского в Google Translate, обращается к носителям родного языка с просьбой чаще давать оценки тестовым вариантам переводов. Чем больше оценок будет получено, тем быстрее казахский язык станет доступным для всех пользователей машинного перевода от глобальной компании

Рауан Кенжеханулы.

Председатель попечительского совета казахстанского общественного фонда WikiBilim Рауан Кенжеханулы сообщил Forbes.kz, что полтора года назад они озаботились вопросом, как казахский язык сделать языком, который поддерживается Google Translate (тогда в этой системt было 54 языка, сейчас – 71).

Сколько миллионов предложений нужно перевести?

- Команда, которая занимается развитием сервиса Google Translate, сообщила, что компания не может заниматься включением локальных языков в систему, но они могут предоставить инструменты сообществу пользователей определенного языка, чтобы те провели работу по добавлению языка в систему, - рассказал предысторию Кенжеханулы.

Таким сообществом выступил фонд WikiBilim, точнее - команда из 300 волонтеров и 10 профессиональных переводчиков, владеющих казахским и английским языками, которая работает над созданием «Қазақша Википедия».

- Нам необходимо было снабдить систему максимально большим количеством зеркальных переводов с английского на казахский и обратно. Чем больше таких материалов получит система, тем быстрее она сможет разработать алгоритм перевода с казахского на все языки, которые поддерживает Google Translate, и обратно. И здесь нам помогла работа над «Қазақша Википедия»: тексты, которые переводились для этого проекта, отправлялись в Google Translate Toolkit (специальный инструмент, с помощью которого организуется работа переводчиков). То есть мы смогли совместить два масштабных проекта, поэтому я не могу сказать, сколько денег мы потратили именно на «переводческое дело». На казахскую свободную энциклопедию ФНБ «СамрукКазына» несколькими траншами выделил 50 млн тенге: это общеизвестная информация, - заявил председатель попечительского совета.

Инициаторы проекта по включению казахского языка в Google Translate настоятельно просили компанию сообщить, какой объем переведенных слов, фраз и предложений необходим - миллион или десять миллионов?

- Они не смогли назвать точную цифру, - отметил Рауан. - Дело в том, что все зависит от машины, которая делает переводы: как только она поймет, что уловила принцип построения языка, то предлагает запускать программу в тестовом режиме. Такое решение машина «приняла» полтора месяца назад. Мы сообщали об этом. Но желающих дать оценку нашей работе пока недостаточно, чтобы перевести систему в режим, когда казахский станет доступен всем пользователям интернета. Поэтому мы призываем всех, кто знает казахский и английский язык, голосовать за варианты переводов.

Как это сделать? Нужно зайти на страничку https://translate.google.com/about/intl/en_ALL/volunteer/kazakh.html и проставить одну из четырех предложенных оценок – от «excellent» до «poor».

Особенности национального перевода

– Эти оценки нужны для того, чтобы машина начала проверять качество перевода и вносить коррективы в свой алгоритм, - объяснил глава WikiBilim. – В вопросе привлечения большего количества людей нам помогает компания Beeline. Оператор сотовой связи предоставил нашим волонтерам бесплатный трафик, так что они могли в любое время заходить на соответствующую страничку и предлагать свои версии переводов, давать оценку другим. На этой неделе наши партнеры объявят о проведении конкурса на получение гранта для переводчиков.

С помощью грантов Beeline хочет привлечь 10 профессиональных «драгоманов» (не сотрудников фонда WikiBilim), чтобы они в течение определенного периода времени весь рабочий день посвящали проекту в Google Translate – ранжировали существующие варианты переводов.

После того, как машина сочтет приемлемой качество переводов, тогда казахский будет включен в глобальную систему. На этапе включения Рауан Кенжеханулы не ожидает идеальных результатов. Однако чем больше людей будет пользоваться машинным толмачом, тем у системы будет больше материала для анализа и тем быстрее она будет совершенствоваться.

- Сейчас наибольшее число пользователей Google Translate переводят с английского на испанский и обратно, поэтому качество текстов этой языковой пары самый высокий – до 90%, качество русский-английский – до 80%, то есть «тексты на выходе» можно понимать без редактуры, - сообщил Кенжеханулы.

Казахстанцы могут особо не переживать насчет качества переводов на қазақ тілі. По словам руководителя WikiBilim, если переводчиков фонда одолеваются какие-то сомнения, они обращаются за консультациями в Институт языкознания им. Ахмета Байтурсынова.

- В рамках этой программы мы просим специалистов не подбирать предложения для перевода, вокруг которых могут возникнуть лингвистические споры, - уточнил Рауан.

Еще одну проблему – возможный перевод на латиницу государственного языка – в Google Translate могут решить «нажатием одной клавиши».

- Тексты в программу загружаются в Word, каждый знак прочитывается. Поэтому специалисты нам сказали: «Когда Казахстан официально перейдет на другой алфавит, когда мы получим таблицу соответствия между кириллическими и латинскими символами, то с помощью одного маленького алгоритма мы все переведем на латиницу», – рассказал Рауан.

Словом, сейчас дело стопорится из-за недостаточной активности «оценщиков», поэтому Кенжеханулы еще раз призвал всех заходить на Google Translate и голосовать.

FЕсли вы обнаружили ошибку или опечатку, выделите фрагмент текста с ошибкой и нажмите CTRL+Enter

Об авторе


журналист Forbes Kazakhstan

 

Статистика

15026
просмотров