Google сделал рекордно точную систему машинного перевода на основе нейросетей

Google сделал рекордно точную систему машинного перевода на основе нейросетей

Специалисты по искусственному интеллекту из Google представили новую систему машинного перевода, которая основана на принципах глубинного обучения. По формальным оценкам и по мнению опрошенных добровольцев, точность перевода системой существенно выше, чем у существующих аналогов, хотя и не достигает пока точности живых переводчиков. Описание системы выложено в виде препринта в базе arXive.org.

Точный машинный перевод с одного языка на другой является одной из классических задач в области искусственного интеллекта. Пока существующие системы не способны конкурировать с живыми переводчиками, однако быстро их догоняют. За последние годы точность перевода существенно выросла за счет применения продвинутых методов машинного обучения, развития параллельного вычисления на графических процессорах и появления большого количества баз данных с текстами на разных языках, которые могут служить в качестве обучающей выборки.

Популярные системы машинного перевода можно грубо разделить на традиционные, основанные на переводе отдельных фраз, и на более новые, основанные на нейронных сетях, учитывающих не только типичное значение фразы, но и ее контекст. Нейронные сети, которые используются в этом последнем случае, чаще всего относятся к классу рекуррентных, их основным отличием является то, что их ответ зависит не только от поступающих на вход данных, но и от предыдущего состояния сети. Это позволяет системам «помнить» о том, что они «видели» раньше, и учитывать это при выборе того или иного ответа. Грубо говоря, именно это позволяет системе понимать, что при переводе фразы «тугой лук» второе слово не следует трактовать как onion — на это намекает первое слово исходной фразы, которое должно изменить состояние нейросети. При этом программисты не обязаны заранее указывать или даже знать правила сочетаемости слов друг с другом, этому нейросеть учится самостоятельно на базе готовых текстов.

Следует отметить, что элементарными единицами данных в нейросети GMNT, в отличие от аналогов, являются не слова, а их фрагменты (wordpieces), которых в данной работе используется 32 тысячи штук. По словам создателей, это позволяет добиться компромисса между универсальностью и точностью с одной стороны, и скоростью вычислений и обучения — с другой. Дело в том, что рекуррентные нейросети могут работать не только на уровне слов, но и на уровне букв. Так работают, например, нейросети в развлекательных проектах, где идет генерация текстов или музыки «в стиле» некоторого образца. В области машинного обучения это, теоретически, может позволить добиться перевода даже таких понятий, которых нет в обычных словарях (позволит делать транслитерацию, «кальку» с одного языка на другой и т.д.). Однако работа на уровне букв в случае машинного перевода технически существенно сложнее из-за вычислительных проблем и необходимости длительного обучения. В свою очередь, работа на уровне целых слов приводит к проблемам с суффиксами, окончаниями и прочими флексиями, что для перевода очень нежелательно.

Другие пары дали сравнимые результаты, однако в каждом из них «человеческие» переводы пока все-таки немного точнее, чем нейросетевые. Следует, однако, отметить, что авторы в своей работе не пытались добиться максимально точного результата, а скорее стремились к балансу между правильностью перевода и вычислительной сложностью. Для этого использовалось множество эвристик, которые упрощают и ускоряют работу системы, но могут вести к ошибкам. Поэтому увеличение времени обучения и доступность вычислительных ресурсов могут еще больше увеличить точность перевода даже без существенной переработки архитектуры новой системы.

Ранее нейросети (другого типа) уже использовались в системе Google Translate. Однако тогда их роль в перевода ограничивалась лишь распознаванием текста на изображении. Сам перевод надписей "на ходу" проводился традиционным путем. Подобные системы перевода дополненной реальности создают несколько компаний, в некоторых случаях они даже обходятся без подключения к интернету. 

Александр Ершов

N+1

Похожие новости:
Голосовой переводчик Skype научился понимать русскую речь
Компания Microsoft в новом обновлении версии Skype с голосовым переводом включила поддержку распознавания голосового ввода на русском языке. Об этом сообщается в официальном блоге Skype, приложение Skype Translator доступно для загрузки в Windows Store.Skype Translator — расширенная версия мессенджера Skype, ..
2016-10-11 1611 0 Интернет, IT
1
Google создает универсальный синхронный переводчик
Google разрабатывает универсальную систему для синхронного перевода речи. Как рассказал вице-президент по операционной системе Android Хьюго Барра, его компания уже создала несколько прототипов такой программы. Он подчеркнул, что в последних тестах система показала себя "почти совершенной", особенно при переводе ..
2013-07-29 1887 2 Интернет, IT
-1
Google Translate начал понимать 99 процентов человечества
Разработчики добавили поддержку 13 новых языков в Google Translate. Таким образом, общее число поддерживаемых сервисом языков выросло до 103, говорится в официальном блоге Google Translate. По словам разработчиков сервиса, теперь Google Translate может переводить на языки, ..
2016-02-18 2249 0 Интернет, IT
0
Google Translate: 200 миллионов человек ежедневно
Google Translate является одним из тех ресурсов, которым ежедневно пользуются люди во всём мире. Мы имеем в виду 200 миллионов человек, которые каждый день используют переводчик, в той или иной форме, в общей сложности набивая миллиард переводов. Из 200 миллионов, большинство ..
2013-05-19 1500 0 Интернет, IT
-1
Google Translate для Android заговорил по-русски
Сервис голосового перевода в реальном времени Conversation Mode ("Режим разговора"), встроенный в приложение Google Translate для Android, получил поддержку 12 новых языков, среди которых и русский. Ранее этот сервис, запущенный в январе текущего года, работал только с английским ..
2011-10-19 1890 0 Интернет, IT
0
Google-переводчик изобрел собственный язык
Свой собственный язык разработал искусственный интеллект, используемый в сервисе переводов от Google. Данный факт выявили разработчики, изучая схему работы ИИ c новыми для себя парами языков.ИИ, используемый в Google-переводах, подключен к нейросети, благодаря чему разработчики в процессе обучения ..
2016-12-18 4817 0 Интернет, IT
0
Twitter научился разбираться в российских трендах
Сервис микроблогов Twitter теперь дает пользователям возможность просматривать актуальные темы, обсуждаемые в данный момент российской аудиторией. Список 10 главных тем формируется по частоте упоминаний тех или иных слов. Ранее россиянам были доступны лишь глобальные "тренды". Помимо общероссийских ..
2012-03-16 1307 0 Интернет, IT
0
Машинное обучение помогло нанести на карту рыболовные суда
Google совместно с организациями SkyTruth и Oceana запустил картографический сервис Global Fishing Watch, который помогает следить за активностью рыболовных судов. Об этом сообщается в блоге сервиса Google Maps.Высокие темпы рыбной ловли в различных районах могут приводить к сильному ..
2016-09-17 1463 0 Интернет, IT
0
Facebook наняла человека, который учит компьютеры думать
Социальная сеть Facebook взяла на работу известного профессора Нью-Йоркского университета Яна ЛеКуна, специалиста в области машинного обучения, компьютерного зрения и мобильной робототехники. Он также известен как соавтор технологии сжатия изображений DjVu и один из создателей языка программирования Lush. Внутри ..
2013-12-10 1070 0 Интернет, IT
0
Microsoft научит Skype быть переводчиком
На организованной ресурсом Re/code конференции, сотрудники Microsoft продемонстрировали встроенную в Skype систему голосового перевода с одного языка на другой в режиме реального времени. В присутствии обозревателей научно-технической колонки Wall Street Journal, Уолта Моссберга и Кары Свишер, состоялся ..
2014-05-28 1531 0 Интернет, IT
1
Google запустил сервис по переводу Android-приложений
Google предоставила Android-разработчикам новый сервис для перевода приложений на любые языки. Создатели программ получили возможность выбирать из единого списка отобранных Google компаний-переводчиков, что должно привести к повышению качества их услуг и падению цен. App Translation Service, анонсированный еще в мае на конференции Google ..
2013-11-12 1717 0 Интернет, IT
0
Google привлечет искусственный интеллект к борьбе со спамом
Google будет использовать искусственный интеллект и машинное обучение, чтобы избавить своих пользователей от спам-рассылок. Об этом сообщается в официальном блоге компании. Почтовый сервис Gmail теперь использует искусственные нейронные сети, элемент системы искусственного интеллекта, чтобы выявлять ..
2015-07-13 4870 0 Интернет, IT
0
Google Translate для Android научился работать без Интернета
Google Translate - это прекрасный инструмент для  перевода текстов. Благодаря тому, что переведенную фразу можно озвучить, он незаменим при зарубежных поездках. Правда, стоимость Интернета в роуминге может быть очень высокой, так что Google научила свое детище работать в офлайн-режиме. Чтобы ..
2013-03-29 1691 0 Интернет, IT
0
Google предложила поиграть с искусственным интеллектом
Компания Google запустила проект A.I. Experiments, призванный на простых практических примерах продемонстрировать возможности искусственного интеллекта (ИИ) всем желающим. В последние годы технологии ИИ, в первую очередь машинное обучение, стали одним из приоритетных направлений разработок Google. Компания активно применяет их в своих ..
2016-11-18 4136 0 Интернет, IT
0
Google Earth покажет Землю с воздушного змея
Компания Google добавила в программу Google Earth (в русском переводе - "Google Планета Земля") снимки земной поверхности, сделанные с аэростатов и с воздушных змеев.  В данный момент доступны снимки более чем сорока мест со "впечатляющим" разрешением, отмечает Google ..
2012-04-23 1415 0 Интернет, IT
0