«Яндекс» научился ловить «длинный хвост» поисковых запросов

«Яндекс» научился ловить «длинный хвост» поисковых запросов

«Яндекс» запустил новый поисковый алгоритм «Палех», в основе которого лежит использование нейронных сетей. Благодаря «Палеху» поиск лучше находит страницы, которые соответствуют не только ключевым словам, но и смыслу запроса. Об этом компания сообщает в своем блоге.

Обработка поисковых запросов — это сложная и порой нетривиальная задача для решения которой, как правило, успешно используется машинное обучение. Однако оно имеет некоторые ограничения: дело в том, что для обучения искусственного интеллекта необходимо большое количество разнообразной пользовательской статистики. Эта статистика существует в большом объеме для популярных и среднечастотных запросов, но практически отсутствует для уникальных запросов — то есть тех, которые не повторяются хотя бы дважды в течение всего периода наблюдений. При этом, до 40 процентов поисковых запросов в Яндексе являются именно уникальными (их еще называют «длинным хвостом», так как они составляют существенную долю обращений к поиску): это могут быть запросы от детей, которые обращаются к системе, как к живому собеседнику («дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика»), или запросы от людей, которые хотят узнать название фильма или книги по эпизоду («фильм про человека который выращивал картошку на другой планете»). Трудность их обработки заключается в том, что поисковнику в таком случае необходимо искать не только соответствие по словам, но и по смыслу.

Разработчики «Яндекса» запустили новый алгоритм, который позволяет справиться с этой проблемой. Он был назван «Палех» в честь Жар-птицы с длинным хвостом, которая часто появляется на палехской миниатюре. В основе «Палеха» лежит использование нейросети и метод семантических векторов.

Разработка и обучение нейросети происходило в несколько этапов. Сначала исследователи использовали модель разработчиков из Microsoft Research под названием Deep Structured Semantic Model. На ее вход подавались тексты запросов и заголовков, которые разбивались на буквенные триграммы (для запроса «палех» получаются триграммы «па», «але», «лех», «ех»). Так как словарь всех известных триграмм ограничен, то текст запроса можно представить в виде вектора размером в несколько десятков тысяч элементов, и отметить вхождение триграмм из запроса в словарь (совпадающие триграммы отмечаются единицей, остальные — нулем). Сравнивая эти векторы можно узнать о наличии совпадающих триграмм в заголовке страницы и запросе, однако для получения вектора со «свойствами семантической близости» исследователи выполняли преобразование. Его суть заключалась в том, что на выходе модель выдавала результат скалярного умножения последних векторов заголовка и запроса. Система обучалась таким образом, что для положительных обучающих примеров выходное значение было большим, а для отрицательных — маленьким. Сравнивая векторы последнего слоя, исследователи могли вычислить ошибку предсказания и «подкрутить» нейросеть так, чтобы эта ошибка уменьшилась.

Сравнение работы «Палеха» и простого алгоритма BM25, основанного на поиске соответствия между словами в тексте запроса и заголовка показало, что нейросеть значительно лучше справляется с задачей поиска. Например, она может понять, что запросу «келлская книга» соответствует не только страница с названием «келлская книга википедия», но и может подходить страница «ирландские иллюстрированные евангелия vii viii вв». Кроме того, «Палеху» не страшна и переформулировка запроса, которая существенно затрудняет работу алгоритма BM25, и он все равно правильно определяет релевантные заголовки страниц. В будущем разработчики планируют научиться строить модель по полному тексту, так как заголовок содержит неполную информацию о документе.

Недавно программисты разработали поисковую систему для видеороликов на YouTube, которая в качестве запроса принимает от пользователя последовательность пиктограмм. В ее основе лежит также использование нейросети, которыя умеет выделять кадры из роликов Youtube, определять, что именно изображено на экране в данный момент и сопоставилять кадр с определенным набором пиктограмм (эмодзи).

Кристина Уласович



N+1

Похожие новости:
В Яндекс.Браузере появилась синхронизация
Компания «Яндекс» во вторник, 14 мая, представила новую версию веб-обозревателя «Яндекс.Браузер», говорится в поступившем в редакцию «Ленты.ру» пресс-релизе. В новой версии браузера появилась функция синхронизации. Она позволяет синхронизировать между «Яндекс.Браузерами» на разных компьютерах закладки, настройки, пароли, расширения ..
2013-05-16 1797 0 Интернет, IT
0
Яндекс.Деньги позволят платить за билеты Аэрофлота
Оплатить билеты «Аэрофлота» можно на сайте перевозчика через платежную систему «Яндекса». Теперь пользователи могут оплачивать «Яндекс.Деньгами» билеты «Аэрофлота» непосредственно на сайте авиакомпании. Об этом сообщается в пресс-релизе, поступившем в редакцию «Руформатора». На сегодняшний день платежная система ..
2011-10-19 1818 0 Интернет, IT
0
Яндекс проведет чемпионат по программированию
Российская интернет-компания «Яндекс» летом 2013 года проведет открытый чемпионат по программированию «Яндекс.Алгоритм». Об этом говорится в официальном блоге «Яндекса». Чемпионат будет состоять из нескольких раундов: тестового, квалификационного, трех отборочных и финального.Каждый раунд длится сто минут; в его ходе участникам ..
2013-06-6 1747 0 Интернет, IT
0
Яндекс будет стандартным поисковиком для смартфонов
Поисковый сервис компании «Яндекс» по умолчанию будут использоваться в Windows-коммуникаторах мировых производителей, сообщает "АйтиБук". В настоящее время российский «Яндекс» имеет целью сотрудничество с компаниями HTC, Nokia и Samsung. Например, на этой неделе в продажу уже поступил коммуникатор Samsung ..
2011-12-29 2603 0 Интернет, IT
0
Яндекс запустил аналог Kickstarter под названием Вместе
Компания «Яндекс» запустила новую платформу краудфандинга «Вместе», которая станет аналогом Kickstarter. Платформа краудфандинга «Вместе» облегчит совместный сбор средств в интернете. Пользователи и компании с помощью нового сервиса могут организовать полноценный сбор денег на собственных страницах ..
2014-10-24 2067 0 Интернет, IT
0
В телевизоры Samsung встроили Яндекс
Поиск «Яндекса» стал основным в телевизорах Samsung Smart TV на территории стран СНГ. В дальнейшем сервисы популярнейшего российского поисковика появятся на мобильной платформе bada 2.0, разрабатываемой южнокорейской компанией Samsung Electronics. Как сообщает пресс-служба российской компании, поиск ..
2011-10-19 2612 0 Интернет, IT
0
Яндекс запускает прозрачный браузер
Российская компания решила изменить привычный дизайн программ просмотра веб-страниц Компания «Яндекс» представила предварительную версию нового браузера — программы для просмотра страниц в интернете. Создатели нового браузера назвали его прозрачным — он отличается минималистичным дизайном, без привычных ..
2014-11-28 1981 0 Интернет, IT
0
Яндекс купил разработчика мобильных интерфейсов
«Яндекс» за $38 млн приобрел компанию SPB Software, разработчика мобильных продуктов и создателя знаменитого интерфейса Spb Mobile Shell. Поисковик «Яндекс» сообщил о приобретении компании SPB Software, известного разработчика программного обеспечения для мобильных устройств и мобильных операторов. Одна из самых известных разработок ..
2011-11-29 1957 0 Интернет, IT
0
Яндекс поможет собрать деньги на митинг
Платежная система «Яндекс.Деньги» представила новое приложение для социальной сети Facebook. Приложение под названием «Собирайте деньги» поможет собрать средства для любых целей, будь то благотворительный проект или вечеринка, сообщает «ВордАйти».Пользователи, организовавшие акцию, могут опубликовать на своей странице ..
2011-12-21 2211 0 Интернет, IT
2
"Яндекс" научился прогнозировать пробки
Сервис "Яндекс.Пробки" научился прогнозировать загруженность дорог. Как сообщается в официальном блоге "Яндекса", пользователи смогут узнать о возможном уровне пробок на ближашие 15, 30, 45 и 60 минут.Как отмечается в блоге, прогноз пробок дает более точную информацию, чем при использовании режима "пробки обычно", ..
2012-09-29 1930 0 Интернет, IT
0
"Яндекс.Деньги" выводят на рынок мобильные терминалы
Компания «Яндекс.Деньги» начнет продажи мобильных терминалов, которые подключаются к смартфонам и планшетам, и принимают платежи с любых банковских карт Visa и MasterCard, сообщает пресс-служба компании. Устройство совместимо с большинством смартфонов Apple, Samsung, HTC, LG, Sony и других производителей. Техническим ..
2014-04-23 2166 0 Интернет, IT
0
Яндексу исполнилось 15 лет
Сегодня, 23 сентября, исполнилось 15 лет «Яндексу», который является самой популярной поисковой системой на территории Российской Федерации. Ровно 15 лет назад, 23 сентября 1997 года, поисковая система «Яндекс» была анонсирована на выставке Softool в Москве. Презентованная версия Яндекса учитывала морфологию ..
2012-09-23 2571 0 Интернет, IT
0
Яндекс опроверг пиратские способности своего браузера
В «Яндекс.Браузере» не используются никакие технологии, направленные на получение доступа к запрещенным на территории России сайтам. Об этом «Ленте.ру» заявили в «Яндексе». Ранее о том, что встроенный в браузер режим «Турбо» позволяет смотреть сайты из «черного списка», написала в твиттере Председатель Комитета Государственной ..
2014-02-24 1675 0 Интернет, IT
0
Яндекс запустил собственный голосовой поиск
Российская интернет-компания «Яндекс» в среду, 2 октября, представила собственную технологию мобильного голосового поиска. Технология получила название Yandex SpeechKit; она работает на Android и iOS и «понимает» только запросы на русском языке.Руководитель проекта Yandex SpeechKit Денис Филиппов рассказал «Ленте.ру», ..
2013-10-3 1871 0 Интернет, IT
0
«Яндекс» научился находить песни по «пу пу пиду»
Интернет-поисковик «Яндекс» научился искать песни по фразам, имитирующим их текст или музыкальный мотив. Сообщение об этом 12 февраля появилось в официальном блоге «Яндекса». Теперь пользователи сервиса могут вводить в поисковую строку фрагменты «напевов» той или иной песни, а поисковик на основании предыдущих ..
2014-02-14 1913 0 Интернет, IT
2