Группа исследователей из Массачусетского технологического института, университета Ватерлоо и Университета Южной Калифорнии предложила новый, пока еще гипотетический способ анализа больших данных. Работа была опубликована в журнале Nature Communications.
Топологический анализ данных подразумевает использование некоторых топологических структур внутри данных для их анализа. Обычно данные представлены в виде набора точек в пространстве достаточно большой размерности. Вокруг каждой точки предлагается построить шар фиксированного радиуса r.
Объединение шаров задает структуру, называемую симплициальным комплексом Чеха. Полученная геометрическая структура может распадаться на отдельные куски, иметь полости, дырки и прочие топологические эффекты. Характеристикой этих свойств является так называемые группы гомологий.
Меняя r, можно следить за тем, как меняются топологические свойства комплекса. Какие-то свойства будут проявляться только при конкретных значениях параметра r, а потом исчезать. Какие-то свойства будут оставаться неизменными. Именно эти, устойчивые свойства и интересуют ученых при топологическом анализе.
Идея анализа такова: шумы, искажения, ошибки, недостаток данных не будут влиять на устойчивые свойства, создавая особенности только для конкретных r. Опыт анализа показывает, что это предположение верно и устойчивые топологические свойства позволяют много сказать о данных.
В новой работе ученые предложили решение задачи вычисления чисел Бетти. Числа Бетти — это не сами группы гомологий, а просто их размерности. Этот инвариант проще, то есть меньше говорит о топологической структуре, однако тоже бывает крайне полезен при анализе. Решение ученых основано на квантовых вычислениях, то есть на использовании квантовых компьютеров.
Квантовые компьютеры используют для работы разного рода квантовые эффекты — суперпозицию, запутанность и другие. Все квантовые алгоритмы имеют вероятностную природу, то есть дают правильный ответ с некоторой известной вероятностью, однако высокая скорость работы в некоторых задачах позволяет получить ответ с высокой степенью достоверности гораздо быстрее классических алгоритмов.
В новой работе ученые адаптировали алгоритм быстрого обращения матриц для квантовых компьютеров к топологическому анализу. Рост скорости по сравнению с классическим алгоритмом был экспоненциальным.
Есть много видов больших данных , для которых может быть
полезен квантово-топологический подход. Например, исследование
взаимосвязей в мозге. Применяя топологический анализ наборов данных,
полученных с помощью электроэнцефалографии или функциональной МРТ, будет
возможно выявить сложную взаимосвязь и топологию последовательностей
активных нейронов. Тот же метод можно применить к мировой экономике,
социальным сетям и почти любой системе, представляющей собой сеть
обменов товарами или информацией.
Большие данные, в широком смысле, это информация столь большого объема и сложного состава, что обычные методы ее поиска, структуризации, анализа или визуализации перестают быть эффективными. В рамках научного направления, называемого наукой о данных (data science), ученые разрабатывают подходы массово-параллельной обработки данных с помощью современных алгоритмов.
Александр Еникеев