Когда Google Translate заговорит по-казахски
Председатель попечительского совета казахстанского общественного фонда WikiBilim Рауан Кенжеханулы сообщил Forbes.kz, что полтора года назад они озаботились вопросом, как казахский язык сделать языком, который поддерживается Google Translate (тогда в этой системt было 54 языка, сейчас – 71).
Сколько миллионов предложений нужно перевести?
- Команда, которая занимается развитием сервиса Google Translate, сообщила, что компания не может заниматься включением локальных языков в систему, но они могут предоставить инструменты сообществу пользователей определенного языка, чтобы те провели работу по добавлению языка в систему, - рассказал предысторию Кенжеханулы.
Таким сообществом выступил фонд WikiBilim, точнее - команда из 300 волонтеров и 10 профессиональных переводчиков, владеющих казахским и английским языками, которая работает над созданием «Қазақша Википедия».
- Нам необходимо было снабдить систему максимально большим количеством зеркальных переводов с английского на казахский и обратно. Чем больше таких материалов получит система, тем быстрее она сможет разработать алгоритм перевода с казахского на все языки, которые поддерживает Google Translate, и обратно. И здесь нам помогла работа над «Қазақша Википедия»: тексты, которые переводились для этого проекта, отправлялись в Google Translate Toolkit (специальный инструмент, с помощью которого организуется работа переводчиков). То есть мы смогли совместить два масштабных проекта, поэтому я не могу сказать, сколько денег мы потратили именно на «переводческое дело». На казахскую свободную энциклопедию ФНБ «СамрукКазына» несколькими траншами выделил 50 млн тенге: это общеизвестная информация, - заявил председатель попечительского совета.
Инициаторы проекта по включению казахского языка в Google Translate настоятельно просили компанию сообщить, какой объем переведенных слов, фраз и предложений необходим - миллион или десять миллионов?
- Они не смогли назвать точную цифру, - отметил Рауан. - Дело в том, что все зависит от машины, которая делает переводы: как только она поймет, что уловила принцип построения языка, то предлагает запускать программу в тестовом режиме. Такое решение машина «приняла» полтора месяца назад. Мы сообщали об этом. Но желающих дать оценку нашей работе пока недостаточно, чтобы перевести систему в режим, когда казахский станет доступен всем пользователям интернета. Поэтому мы призываем всех, кто знает казахский и английский язык, голосовать за варианты переводов.
Как это сделать? Нужно зайти на страничку https://translate.google.com/about/intl/en_ALL/volunteer/kazakh.html и проставить одну из четырех предложенных оценок – от «excellent» до «poor».
Особенности национального перевода
– Эти оценки нужны для того, чтобы машина начала проверять качество перевода и вносить коррективы в свой алгоритм, - объяснил глава WikiBilim. – В вопросе привлечения большего количества людей нам помогает компания Beeline. Оператор сотовой связи предоставил нашим волонтерам бесплатный трафик, так что они могли в любое время заходить на соответствующую страничку и предлагать свои версии переводов, давать оценку другим. На этой неделе наши партнеры объявят о проведении конкурса на получение гранта для переводчиков.
С помощью грантов Beeline хочет привлечь 10 профессиональных «драгоманов» (не сотрудников фонда WikiBilim), чтобы они в течение определенного периода времени весь рабочий день посвящали проекту в Google Translate – ранжировали существующие варианты переводов.
После того, как машина сочтет приемлемой качество переводов, тогда казахский будет включен в глобальную систему. На этапе включения Рауан Кенжеханулы не ожидает идеальных результатов. Однако чем больше людей будет пользоваться машинным толмачом, тем у системы будет больше материала для анализа и тем быстрее она будет совершенствоваться.
- Сейчас наибольшее число пользователей Google Translate переводят с английского на испанский и обратно, поэтому качество текстов этой языковой пары самый высокий – до 90%, качество русский-английский – до 80%, то есть «тексты на выходе» можно понимать без редактуры, - сообщил Кенжеханулы.
Казахстанцы могут особо не переживать насчет качества переводов на қазақ тілі. По словам руководителя WikiBilim, если переводчиков фонда одолеваются какие-то сомнения, они обращаются за консультациями в Институт языкознания им. Ахмета Байтурсынова.
- В рамках этой программы мы просим специалистов не подбирать предложения для перевода, вокруг которых могут возникнуть лингвистические споры, - уточнил Рауан.
Еще одну проблему – возможный перевод на латиницу государственного языка – в Google Translate могут решить «нажатием одной клавиши».
- Тексты в программу загружаются в Word, каждый знак прочитывается. Поэтому специалисты нам сказали: «Когда Казахстан официально перейдет на другой алфавит, когда мы получим таблицу соответствия между кириллическими и латинскими символами, то с помощью одного маленького алгоритма мы все переведем на латиницу», – рассказал Рауан.
Словом, сейчас дело стопорится из-за недостаточной активности «оценщиков», поэтому Кенжеханулы еще раз призвал всех заходить на Google Translate и голосовать.