Google сделал рекордно точную систему машинного перевода на основе нейросетей

Опубликовано: 2016-09-28

Специалисты по искусственному интеллекту из Google представили новую систему машинного перевода, которая основана на принципах глубинного обучения. По формальным оценкам и по мнению опрошенных добровольцев, точность перевода системой существенно выше, чем у существующих аналогов, хотя и не достигает пока точности живых переводчиков. Описание системы выложено в виде препринта в базе arXive.org.

Точный машинный перевод с одного языка на другой является одной из классических задач в области искусственного интеллекта. Пока существующие системы не способны конкурировать с живыми переводчиками, однако быстро их догоняют. За последние годы точность перевода существенно выросла за счет применения продвинутых методов машинного обучения, развития параллельного вычисления на графических процессорах и появления большого количества баз данных с текстами на разных языках, которые могут служить в качестве обучающей выборки.

Популярные системы машинного перевода можно грубо разделить на традиционные, основанные на переводе отдельных фраз, и на более новые, основанные на нейронных сетях, учитывающих не только типичное значение фразы, но и ее контекст. Нейронные сети, которые используются в этом последнем случае, чаще всего относятся к классу рекуррентных, их основным отличием является то, что их ответ зависит не только от поступающих на вход данных, но и от предыдущего состояния сети. Это позволяет системам «помнить» о том, что они «видели» раньше, и учитывать это при выборе того или иного ответа. Грубо говоря, именно это позволяет системе понимать, что при переводе фразы «тугой лук» второе слово не следует трактовать как onion — на это намекает первое слово исходной фразы, которое должно изменить состояние нейросети. При этом программисты не обязаны заранее указывать или даже знать правила сочетаемости слов друг с другом, этому нейросеть учится самостоятельно на базе готовых текстов.

Следует отметить, что элементарными единицами данных в нейросети GMNT, в отличие от аналогов, являются не слова, а их фрагменты (wordpieces), которых в данной работе используется 32 тысячи штук. По словам создателей, это позволяет добиться компромисса между универсальностью и точностью с одной стороны, и скоростью вычислений и обучения — с другой. Дело в том, что рекуррентные нейросети могут работать не только на уровне слов, но и на уровне букв. Так работают, например, нейросети в развлекательных проектах, где идет генерация текстов или музыки «в стиле» некоторого образца. В области машинного обучения это, теоретически, может позволить добиться перевода даже таких понятий, которых нет в обычных словарях (позволит делать транслитерацию, «кальку» с одного языка на другой и т.д.). Однако работа на уровне букв в случае машинного перевода технически существенно сложнее из-за вычислительных проблем и необходимости длительного обучения. В свою очередь, работа на уровне целых слов приводит к проблемам с суффиксами, окончаниями и прочими флексиями, что для перевода очень нежелательно.

Другие пары дали сравнимые результаты, однако в каждом из них «человеческие» переводы пока все-таки немного точнее, чем нейросетевые. Следует, однако, отметить, что авторы в своей работе не пытались добиться максимально точного результата, а скорее стремились к балансу между правильностью перевода и вычислительной сложностью. Для этого использовалось множество эвристик, которые упрощают и ускоряют работу системы, но могут вести к ошибкам. Поэтому увеличение времени обучения и доступность вычислительных ресурсов могут еще больше увеличить точность перевода даже без существенной переработки архитектуры новой системы.

Ранее нейросети (другого типа) уже использовались в системе Google Translate. Однако тогда их роль в перевода ограничивалась лишь распознаванием текста на изображении. Сам перевод надписей "на ходу" проводился традиционным путем. Подобные системы перевода дополненной реальности создают несколько компаний, в некоторых случаях они даже обходятся без подключения к интернету.

Александр Ершов

N+1

Похожие новости:

Google Earth покажет Землю с воздушного змея

Компания Google добавила в программу Google Earth (в русском переводе - "Google Планета Земля") снимки земной поверхности, сделанные с аэростатов и с воздушных змеев. В данный момент доступны снимки более чем сорока мест со "впечатляющим" разрешением, отмечает Google ..

2012-04-23 2172 0 Интернет, IT

Google Translate научился переводить по фотографии

Мобильный переводчик Google Translate научился переводить текст с фотографии, сделанной на камеру смартфона. О нововведении сообщает 9 августа The Verge.У пользователей Android появилась возможность выбрать фотографию в качестве метода ввода текста, который нужно перевести. На снимке нужно ..

2012-08-11 2850 0 Интернет, IT

Google обвинили в публикации недостоверной рекламы

В Австралии компанию Google признали виновной в размещении и распространении рекламы, которая вводит пользователей в заблуждение. В прошлом году суд постановил, что интернет-поисковик не несет никакой ответственности за контекст в спонсорских рекламных ссылках, однако Австралийская комиссия по вопросам конкуренции и защиты прав ..

2012-04-3 1919 0 Интернет, IT

"Помощник" Google Now добрался до браузера Chrome

В альфа-сборке браузера Chrome нашли карточки персонального ассистента Google Now, который раньше был доступен только на мобильных устройствах. Чтобы включить помощника на компьютере, нужно скачать тестовую версию программы (Canary) для Windows или компьютеров Mac, а потом ..

2014-01-18 2281 0 Интернет, IT

Google разрабатывает систему голосового управления

На сайте Управления США по патентам и торговым маркам (USPTO) обнародована патентная заявка Google на систему голосового управления для платформы интерактивного телевидения Google TV. На сайте Управления США по патентам и торговым маркам (USPTO) обнародована патентная заявка Google на систему голосового ..

2012-02-21 2206 0 Интернет, IT

YouTube освежили новым дизайном

Популярнейший видеохостинг YouTube анонсировал новый дизайн сервиса. Особый акцент сайт теперь сделал на кнопке "подписаться". При этом интерфейс YouTube стал больше похож на другие сайты Google. Панель со списком каналов, на которые подписан пользователь, будет отображаться ..

2012-12-9 2056 0 Интернет, IT

Google Now заменит домашнюю страницу поисковика

На смену персонализированной домашней странице iGoogle придет мобильный ассистент Google Now, который пока доступен только на Android-смартфонах. На такую возможность намекает новое расширения для браузера Chrome ("Новая вкладка"), а также исходный код одного из сайтов, принадлежащих ..

2013-04-23 1921 0 Интернет, IT

В браузере Chrome нашли "Центр уведомлений"

Независимый разработчик Франсуа Бофор обнаружил в исходном коде браузера Chromium последней сборки для Windows "Центр уведомлений" (Notofication Center). Чтобы его активировать, нужно набрать в адресной строке chrome://flags и включить Rich Notifications. На основе Chromium построен браузер ..

2013-02-2 2045 0 Интернет, IT

Google Maps 7.0.0 теперь доступен для Android

Базирующийся в Маунтин-Вьюинтернет-гигант Google сделал доступным для загрузки новое приложение Google Maps версии 7.0.0 для владельцев Android устройств, сообщает it-site.net. Новая версия приложения поступает на смартфоны и планшетные ПК с новым интерфейсом и имеет ряд расширенных возможностей навигации, любезно такие ..

2013-07-11 2599 0 Интернет, IT

Android и Chrome могут объединить

Энди Рубин, руководитель направления по разработке мобильной платформы Android, сложил полномочия. В Google он займется новыми проектами, но какими именно — пока не уточняется. "Энди решил, что пришло время передать бразды правления и начать новую главу в Google", ..

2013-03-14 2166 0 Интернет, IT

Музыкальная индустрия готовится принудить Google к цензуре

Ведущие звукозаписывающие компании готовятся подать в суд на корпорацию Google. По их мнению, ведущая поисковая система злоупотребляет своим доминирующим положением и наносит вред рынку онлайн-музыки, выдавая "пиратские" поисковые результаты. Такой иск готовят Международная федерация звукозаписывающей индустрии (IFPI) ..

2012-02-17 2117 0 Интернет, IT

ФАС признала Google нарушителем антимонопольного законодательства

Федеральная антимонопольная служба (ФАС) признала американскую корпорацию Google виновной в нарушении закона «О защите конкуренции», сообщили «Ленте.ру» в пресс-службе ведомства. Теперь Google грозит штраф в размере от 1 до 15 процентов от выручки компании на рынке, рассказал РИА Новости начальник управления информационных ..

2015-09-15 2205 0 Интернет, IT

Создатель платформы Android Энди Рубин ушел из Google

Один из создателей платформы Android Энди Рубин покидает компанию Google, чтобы создать собственный инкубатор для стартапов в сфере робототехники. Об этом сообщает издание The Wall Street Journal. Рубин участвовал в создании Android, которая в 2005 году была куплена ..

2014-11-01 1959 0 Интернет, IT

Google вернет 19 миллионов долларов за детские покупки в приложениях

Интернет-компания Google возместит как минимум 19 миллионов долларов родителям, чьи дети без разрешения совершали покупки в мобильных приложениях. Об этом говорится на сайте Федеральной комиссии по торговле США (FTC), иск которой таким образом Google урегулировала. В иске FTC говорилось, что Google незаконно взимала ..

2014-09-07 1876 0 Интернет, IT

Mail.Ru откажется от поисковых услуг Google

Российский интернет-холдинг Mail.Ru Group откажется от поисковых технологий Google в пользу собственного движка. Контракт с американской компанией истекает в феврале следующего года, и продлевать его Mail.Ru не планирует. Об этом газете "Известия" рассказал источник, близкий к Mail.Ru. Mail.Ru запустила поисковую ..

2012-11-26 2012 0 Интернет, IT