Когда-нибудь замечали, что ваша речь звучит так, словно вы бегло говорите на китайском, французском или другом языке, которого вы не знаете? Новая программа, находящаяся в разработке, может дать вам представление об этом. "Майкрософт" создали программу, разработанную для того, чтобы предоставлять "на лету" разговорный перевод голосом пользователя.
"Нам нет нужды ждать до 22-го века ради пользовательского подобия универсального переводчика из Star Trek`а", - написал в своем блоге 8 ноября Рик Рашид, главный научный сотрудник "Майкрософт". Рашид также отметил, что переводчик от "Майкрософт" все еще делает ошибки с заметной частотой, но существенно превосходит предыдущие голосовые переводчики.
"Результаты иногда вызывают смех, - сказал он. - Но тем не менее, технология разработана достаточно, чтобы быть довольно полезной".
Рашид представил программу 25 октября, переведя некоторые из своих замечаний на мандаринский диалект китайского во время конференции в Тяньцзине, Китай. На видео, которое "Майкрософт" выложили в сеть, программа не воспроизводит в точности голос Рашида, но сохраняет общий тон.
Одной из самых больший проблем в разработке программы, по словам Рашида, являлось обучение ее распознаванию того, что говорит пользователь. Ученые работали над этим вопросом еще с тех пор, как появились первые компьютеры, и плоды поколения исследований включали, в частности, автоматизированную систему, которую банки США использовали для вызовов в клиентскую службу ("Пожалуйста, введите или назовите номер вашего счета"). В такой системе распознаватель речи должен понимать только цифры и некоторые пункты меню, например, "осуществить перевод" или "часы работы банка".
Как бы то ни было, гораздо сложнее для компьютера понимать более свободную речь. До недавних пор программы, распознающие речь, могли понять только 75-80% слов, которые произносит человек во время беседы, как сказал Рашид. "Майкрософт Ресерч" работали над тем, чтобы увеличить эти показатели, используя Глубокие Нейронные Сети - подключенные сети компьютерных процессоров, которые ведут себя немного похоже на связи между клетками в мозгу человека или животного. "Гугл" использовали такую же технику этим летом, чтобы создать компьютер, который будет самостоятельно обучаться распознавать картинки с кошками в Интернете.
Распознаватель речи от "Майкрософт" может корретно идентифицировать от 80 до 86 процентов слов в произвольной речи. "Пока все еще далеко от совершенства, но это самые драматичные изменения в точности с момента представления скрытых моделей Маркова в 1979 году", - сказал Рашид, ссылаясь на ключевой момент в истории исследований распознавания речи. "Скрытые модели Маркова - статистическая техника, позволяющая исследователям объединять записи разных людей в общие речевые модели", - объяснил он.
Согласно пояснениям Рашида, после того, как программа распознает, что пользователь сказал на английсом, она подбирает соответствующие слова на китайском и расставляет их в грамматически верном для этого языка порядке.
Как он отметил, для того, чтобы научить ее повторять его голос, ему пришлось записать около часа своей речи на английском. Также программе требуется несколько часов записи голоса носителя китайского языка.
Источник: wordscience.ru