Американские исследователи совершенствуют моделирования, показывающие производительность ядерного оружия в точных молекулярных деталях — инструменты, которые становятся критически важными для национальной обороны, так как международные договоры запрещают испытания ядерного оружия, сообщает «PC-News.info».
«Расчёты должны работать на суперкомпьютерах, содержащих тысячи процессоров, но при этом поставлять надёжность и точность проблемы», — сказал Заураб Багчи, адъюнкт-профессор в Школе электрической и компьютерной инженерии (School of Electrical and Computer Engineering) при Университете Пердью (Purdue University).
Теперь же исследователи из Пердью и высококвалифицированные эксперты из «Национального управления по ядерной безопасности» (National Nuclear Security Administration) в «Ливерморской национальной лаборатории» (Lawrence Livermore National Laboratory) решили несколько проблем, препятствующих использованию ультра-точного моделирования. Национальное управление по ядерной безопасности является квази-независимым агентством в Министерстве энергетики США, которое осуществляет надзор за ядерной деятельностью страны.
Для моделирований, которые необходимы для более эффективной сертификации ядерного оружия, может потребоваться 100000 машин — уровень сложности, который имеет важное значение для точного отображения молекулярного масштаба реакций, протекающих в течение миллисекунд, или тысячных долей секунды. Эти же типы моделирования, также могут быть использованы в таких областях, как моделирование климата и изучение динамических изменений в форме белка.
«Такие очень сложные задания должны быть разделены на многочисленные процессы, которые выполняются параллельно на разных машинах, объединённых в большие кластеры», — сказал Багчи.
«Из-за естественных неисправностей в среде исполнения существует высокая вероятность того, что некоторые обработки элемента будут иметь ошибки во время выполнения приложения, в результате повреждения памяти или потери связи между машинами», — добавил Багчи. «Имеются узкие места с точки зрения коммуникаций и вычислений».
Эти ошибки усложняются, пока моделирование продолжает работать. Далее может последовать сбой, который приведёт к приостановке моделирования или сбоя системы в целом.
«Мы особенно обеспокоены ошибками, которые «молча» повреждают данные и обеспечивают неверными результатами без указания о том, что произошла ошибка», — сказал Бронис Р. де Супински, один из лидеров в области развития «ASC» приложений в Ливерморской команде. «Ошибки, которые значительно снижают производительность системы, также вызывают серьёзную озабоченность, поскольку системы, на которых работает моделирование стоят невероятно дорого».
«Advanced Simulation and Computing» является вычислительным мозгом «NNSA’s Stockpile Stewardship Program», которая обеспечивает безопасностью и надёжностью ядерный потенциал страны без проведения подземных испытаний.
Новые данные будут подробно описаны в документе, который будет представлен на ежегодном «Annual IEEE/IFIP International Conference on Dependable Systems and Networks» с 25-го по 28-го 2012-го года июня в Бостоне. Последние результаты исследований были подробно изложены в прошлом году в двух статьях, представленных на «IEEE Supercomputing Conference» во время Международного симпозиума по высокопроизводительной параллели и распределённым вычислениям (Symposium on High-Performance Parallel and Distributed Computing).
Исследователи разработали автоматизированные методы для обнаружения сбоев сразу же, после их возникновения.
«Мы добились того, чтобы система автоматически определяла, когда и на какой машине произошла ошибка, а также часть кода, который был вовлечён», — поделился Багчи. «Теперь же, разработчик может быстро обнаружить ошибку и решить данную проблему».
Одним узким местом является то, что данные протекают на центральный сервер.
«Центральный сервер хорошо принимает потоковые данные от ста машин, но он не может поддерживать высокий уровень работы, когда происходит передача данных от тысячи машин», — сказал докторант Игнасио Лагуна (Университет Пердью), работавший совместно с Ливерморскими учёными. «Мы устранили этот центральный мозг, таким образом у нас больше нет этого узкого места».
Каждая машина в суперкомпьютерном кластере содержит несколько ядер или процессоров, а каждое ядро во время моделирования может запускать один «процесс». Исследователи создали автоматизированный метод «кластеризации», чтобы сгруппировать большое количество процессов в наименьшее число «классов эквивалентности» с аналогичными признаками. Группировка процессов на классы эквивалентности позволяет быстро обнаружить и определить проблемы.
«Недавний прорыв должен был иметь возможность расширения кластеров, чтобы работать с большим суперкомпьютером», — Bagchi сказал. Поэтому, программист Тодд Гамблин из «Ливерморской национальной лаборатории» придумал масштабируемый подход кластеризации.
Узкое место в моделировании связанное с процедурой, называется контрольной точкой или периодическим хранением данных, которое предотвращает потерю данных в случае сбоя машины или приложений. Информация сохраняется в файл, названным контрольно-пропускным пунктом и хранится на параллельной системе, отдалённой от машины, на которой выполняется приложение.
«Проблема заключается в том, что при масштабировании до 10000 машин, эта параллельная файловая система падает», — сказал Багчи. «Это примерно в 10 раз мощнее системы предназначенной для обработки и это несоответствие будет только ухудшаться, поскольку мы продолжаем создавать все более быстрые и быстрые компьютеры».
Докторант Танзима Зерин и Рудольф Айгенманн, профессор электротехники и вычислительной техники, привёл работу по разработке метода сжатия контрольно-пропускных пунктов, похожих на сжатие данных для изображений.
«Мы начинаем решать проблемы контрольных точек», — сказал Багчи. «Проблема пока ещё полностью не решена, но мы на верном пути.»
Узкие места контрольных точек должны быть решены и только после этого мы сможем создавать суперкомпьютеры, которые будут способны производить супермасштабные вычисления, или выполнять 1000 квадриллионов операций в секунду.
Данное исследование финансируется Ливерморским и Национальным научным фондом.
Источник: pc-news.info