99

Отечественные реконфигурируемые суперкомпьютеры

Уже 15 лет у нас в стране производятся реконфигурируемые суперкомпьютеры, но только сейчас появилась возможность рассказать о них благодаря статье Сергея Шаракшанэ. Дополню текст автора фотографиями и примечаниями для популяризации материала. Этого так не хватает нашим отечественным научным статьям!

Если страна хочет обеспечить национальную безопасность, создать конкурентоспособную продукцию, предложить инновации завтрашнего дня — то сегодня ей нужно лидировать в супервычислениях. Нужно участвовать в гонке передовых государств мира по созданию все более высокопроизводительных суперкомпьютеров. Вместе с тем, в самой этой гонке возникли принципиальные трудности, и теперь создателям суперкомпьютеров сейчас нужны новые решения. Один из таких оригинальных подходов предложили российские ученые из Таганрогской школы во главе с член-корр. РАН Игорем Каляевым.

С этим подходом, как выразился академик А.С. Бугаев, мы оказались «впереди планеты всей». И хотя он не позволяет кардинально решить все проблемы современных вычислительных систем — это сейчас никому в мире не по силам, — он позволяет повысить основные характеристики на один-два-три порядка при решении ряда актуальных научно-технических задач. Речь идет о так называемых реконфигурируемых компьютерах. И 12 мая с.г. Президиум РАН заслушал научное сообщение «Многопроцессорные вычислительные и управляющие системы с реконфигурируемой архитектурой» члена-корреспондента Игоря Анатольевича Каляева, директора НИИ многопроцессорных вычислительных систем Южного федерального университета.

* * *

Итак, суть подхода Таганрогской школы в следующем: у суперкомпьютера есть временны́е затраты, связанные с организацией вычислительного процесса и с ними надо бороться, так вот, ученые предложили их минимизировать путем создания специализированной многопроцессорной вычислительной системы. Грубо говоря, отказаться от стремления к универсальности машины, а наоборот — конкретно под задачу сконструировать такую конфигурацию суперкомпьютера, которая наиболее подходит именно под данный тип задач. И выигрыш на этом пути оказался огромным, поскольку множество важнейших задач, имеющих для страны стратегическое значение, как раз оказались такими: они потребовали бы колоссальной, почти нереальной на сегодня производительности суперкомпьютеров, но суперкомпьютеры, созданные с конфигурацией строго под данные узкие классы задач, будучи на порядки более экономичными, с блеском с данными задачами справляются.

* * *

Какова в настоящее время основная тенденция в мире в области супервычислений?

Член-корреспондент И.А. Каляев. Если с 1964 г. по 1984 г. производительность суперкомпьютеров повысилась на три порядка, то дальше каждые десять лет производительность повышалась именно на эти три порядка. Список ТОП-500, который включает в себя 500 наиболее производительных вычислительных систем мирового сообщества, обновляется два раза в год. Сегодня первое место занимает китайский суперкомпьютер «Тианхэ-2» («Млечный путь») с производительностью 33,9 петафлопс, то есть 1015 операций в секунду. Далее идут два американских суперкомпьютера — «Titan» Оук-Риджской национальной лаборатории и «Sequoia» Ливерморской лаборатории.

Суперкомпьютеры, занимающие первые места в этом списке ТОП-500, потребляют очень много электроэнергии — около 10 мегаВатт, а суперкомпьютер «Тианхэ-2», занимающий первое место, потребляет почти 18 мегаватт!

Для достижения же экзафлопсной производительности при использовании современных технологий потребуется предположительно 1 гигаватт мощности (это примерно шестая часть энергии, даваемой Саяно-Шушенской ГЭС) и потребуется 250 тысяч кубических метров объема оборудования (это здание с основанием 50 на 50 метров и высотой в 100 метров). Не решены также и принципиальные проблемы с отводом тепла.

В действительности ситуация еще хуже. Большинство суперкомпьютеров, входящих в список ТОП-500, имеют жесткую кластерную архитектуру. Компьютеры данного класса показывают высокую производительность при решении только так называемых связанных задач, которые не требуют большого числа информационных обменов — т. е. которые могут быть разрезаны на взаимно несвязанные подзадачи. При решении же сильно связанных задач — скажем, задач цифровой обработки сигналов и изображений, задач математической физики, задач символьной обработки — их реальная производительность резко падает и составляет всего 5-10 процентов от пиковой.

Более того, спад производительности наблюдается и при увеличении числа процессоров в системе. В жесткой архитектуре таких систем возникают большие непродуктивные временны́е затраты, связанные не с полезными вычислениями, а с организацией вычислительного процесса: часть процессоров простаивает, часть занимается транзитом информации — все это ведет к большим временны́м потерям при организации вычислительного процесса. В качестве примера можно привести задачу моделирования и оптимизации режимов работы газотурбинного двигателя: даже с использованием суперкомпьютера производительностью 1 петафлопс (что эквивалентно производительности суперкомпьютера «Ломоносов»), необходимо 2,5 тысячи дней машинного времени, т. е. почти семь лет!

Академик Б.Н. Четверушкин. Производительность, если вы берете много процессоров или ядер, резко падает, получается — машина есть, а с решением больших задач возникает проблема. С этим сейчас столкнулись наши зарубежные партнеры. В конце апреля на одной конференции мы беседовали с директором китайского центра: у них к концу года будет машина 100 петафлопс, но — как использовать? Та же самая проблема в Штутгарте. Когда одновременно работает сотня тысяч ядер, они мешают друг другу.

Словом, исследователи в области суперокомпьютеростроения подошли к некоторому технологическому пределу.

* * *

Вывод: нужны новые подходы к созданию высокопроизводительных вычислительных систем.

Академик Ф.Л. Черноусько. Игорю Анатольевичу принадлежит новый, оригинальный подход к построению компьютеров, который он называет «реконфигурируемыми системами», который дает возможность пользователю программировать архитектуру компьютера под структуры решаемой задачи. Этот проблемно-ориентированный подход дает большой выигрыш.

Академик А.С. Бугаев. Сделан, по сути дела, завод по производству спецкомпьютеров, которые широко востребованы для различных применений — они по своим параметрам на порядки превосходят универсальные спецвычислители, поэтому имеют огромную нишу для применений.

Академик В.Г. Бондур. Обычно суперкомпьютеры созданы по т.н. кластерной архитектуре, когда берутся микропроцессоры, коммутаторы и собираются для решения кластерных задач. И слабосвязанные задачи, по терминологии Игоря Анатольевича, решаются отдельно на каждом кластере.

Мы, как математики, идем другим путем: стараемся создать логически простые, но эффективные алгоритмы. Это крайне сложно, но во многих случаях получается. У нас сейчас есть примеры расчетов вместе с коллегами из Таганрога — на миллиардах узлов и полных трехмерных задач астрофизики с магнитной гидродинамикой, полные трехмерные задачи гидродинамики.

* * *

О преимуществах «реконфигурируемых систем».

Академик В.Г. Бондур. Это, во-первых, высокая производительность — до 60 процентов пиковой производительности может быть реализовано в этой архитектуре. Во-вторых, высокая энергетическая эффективность — количество операций на Ватт или мегаВатт энергопотребления больше, чем в случае с обычными кластерными процедурами, почти на два порядка. И, в-третьих, это маленькие объемы, которые занимает оборудование — примерно на два порядка меньше, чем у кластерных вычислительных систем.

Академик Ф.Л. Черноусько. Очень важно, что при этом улучшается и отказоустойчивость системы. Обычный способ борьбы с отказами — это резервирование, то есть создание, дублирование системы: если одна выйдет из строя, ее заменяет вторая. В подходе, который развивается И.А. Каляевым, отказоустойчивость увеличивается за счет того, что некоторые блоки в случае отказа берут на себя часть работы, которая должна быть выполнена.

Академик А.С. Бугаев. Можно было ожидать серьезных проблем с тем, как транслировать обычные программы, которые созданы для кластерных компьютеров. Но коллектив И.А. Каляева придумал замечательный язык, который позволяет создавать некий ретранслятор программ, созданных для других вычислительных систем, и превращать в системы, которые можно реализовывать на этих суперкомпьютерах — это очень важно.

* * *

Научное сообщение члена-корреспондента И.А. Каляева.

Минимизировать временные затраты, связанные с организацией вычислительного процесса в процессорной системе, можно следующим образом. В каждой операционной вершине информационного графа необходимо вставить свой вычислительный элемент и связать их друг с другом в соответствии с топологией информационного графа. В этом случае все непродуктивные затраты будут минимизированы и реальная производительность такой многопроцессорной системы практически равна пиковой, то есть теоретически достижимой.

  • Структурно-процедурная организация вычислений в поле ПЛИС
  • Структурно-процедурная организация вычислений в поле ПЛИС

Понятно, что создание подобной проблемно-ориентированной вычислительной процессорной системы под каждую задачу слишком накладно. Поэтому мы предлагаем совместить преимущество кластерных многопроцессорных вычислительных систем, учитывая их универсальность, и специализированных, а именно, их высокую реальную производительность — предоставив возможность пользователю формировать архитектуру вычислительной системы.

Для этого у него должно быть в распоряжении некоторое вычислительное поле, состоящее из набора вычислительных элементов и средств коммутации между ними. Тогда при решении очередной задачи с помощью средств схемотехнического программирования пользователь может создать проблемно-ориентированную вычислительную структуру, которая адекватна решаемой задачи, и минимизирует все непродуктивные расходы.

При изменении задачи, он в рамках этого поля может создать новую структуру, которая опять-таки будет оптимальна для решения текущей задачи.

Так обеспечиваем универсальность: при решении каждой задачи за счет того, что создается проблемно-ориентированная структура, минимизирующая временны́е затраты, связанные с организацией вычислительного процесса.

Эта идея своими корнями восходит еще к аналоговым вычислительным машинам, в которых вычислительное поле состояло из набора решающих блоков, построенных на базе операционных усилителей, а коммутация между этими блоками осуществлялась вручную с помощью штекерного поля. В результате формировалась физическая модель решаемой задачи. В той или иной степени идеи реконфигурации были использованы также в цифровых интегрирующих машинах, однородных вычислительных средах, многопроцессорных вычислительных системах с программируемой архитектурой.

Тем не менее, несмотря на большое число исследований в этом направлении, до реальных масштабных внедрений дело не дошло — вследствие отсутствия элементной базы, отвечающей концепции реконфигурируемости архитектуры.

Наконец, в начале 21 века такая элементная база появилась — это так называемые ПЛИС (программируемые логические интегральные схемы) высокой степени интеграции. В настоящее время основной рынок ПЛИС занимают, в основном, две американские фирмы — фирма «Альтера» и фирма «Ксайленкс».

С помощью таких ПЛИС строится вычислительное поле путем их объединения в некоторую структуру, например — ортогональную решетку. В рамках этого поля каждый раз будет формироваться проблемно-ориентированная структура, которая наилучшим образом отвечает структуре решаемой задаче. Т. е. пользователь с помощью средств схемотехнического программирования ПЛИС может формировать различные вычислительные структуры, адекватные решаемым им задачам.

Чем больше будет такое вычислительное поле, тем проще будет отображать его вычислительные задачи без необходимости разрезания их на подзадачи. Поэтому в конструктивном исполнении такое вычислительное поле предлагается формировать на основе т.н. «базовых модулей», каждый из которых включает в себя некоторое количество ПЛИС и представляет фрагмент общего вычислительного поля ПЛИС.

  • Базовый модуль 16М50 Медведь, 2006 год
  • Базовый модуль 16М50 Медведь, 2006 год

Эти базовые модули дальше собираются в реконфигурируемые вычислительные блоки,

  • Вычислительный блок Медведь, 2006 год
  • Вычислительный блок Медведь, 2006 год

дальше — в вычислительные стойки,

  • РВС-1Р - Мицар, 2008 год
  • РВС-1Р - Мицар, 2008 год

и все это завязывается в единый вычислительный ресурс. Иными словами: в системе отсутствуют стандартные процессоры — весь ресурс ПЛИС используется как один огромный процессор, в рамках которого можно формировать любые вычислительные структуры под решаемые задачи.

Мы развиваем эту технологию более 15 лет и на основе этой технологии создали большое количество различных систем. В качестве примера приведу базовый модуль 2013 года — он включает восемь ПЛИС, каждый из которых содержит 58 млн. вентилей. Все это завязано в общий вычислительный ресурс, в рамках которого можно разместить 1 300 параллельно работающих процессоров. Производительность такой платы составляет 70 гигафлопс или 700×109 операций в секунду при потребляемой мощности 300 Ватт (Информацию по данному модулю я не смог найти в интернете. Скорее всего автор назвал очень приблизительную цифру в производительности.)

Это — достаточно сложная технология. Такая плата содержит более 20 слоев. Каждая такая ПЛИС имеет около 2 тыс. «ножек». Это т.н. БГА-корпус, то есть ножки расположены снизу в виде шариков. ПЛИС надо очень точно разместить на плате, прежде чем паять, потом идет сложная технология пайки. Тем не менее, вся эта технология нами освоена, она работает в нашей стране — платы разрабатываются в стране, сборка происходит в стране, настройка — в стране, единственное, к сожалению, сами чипы — зарубежные.

Здесь показан один из первых таких комплексов, созданный в 2009 году — он стоит в МГУ.

  • РВС-5 Бенетнаш, 2009 год
  • РВС-5 Бенетнаш, 2009 год
  • РВС-5 Бенетнаш, 2009 год
  • РВС-5 Бенетнаш, 2009 год

Он построен на основе

  • Базовый модуль 16V5-75 Алькор (Большая медведица), 2008 год
  • Базовый модуль 16V5-75 Алькор (Большая медведица), 2008 год

Здесь задействовано одновременно более 1200 ПЛИС (1280) и в этом вычислительном поле размещается более 25 тыс. параллельно работающих процессоров. (РВС-5 состоит из пяти стоек РВС-1. Параметры стойки: 1 ТФлопс двойной точности, 4,8 кВт, 0,21 ГФлопс/Вт, 0,99 ТФлопс/м3)

Еще пример — реконфигурируемая система 2011 года.

  • Базовый модуль Ригель, 2011 год
  • Базовый модуль Ригель, 2011 год
  • Вычислительный блок Ригель, 2011 год
  • Вычислительный блок Ригель, 2011 год
  • Стойка на основе вычислительных блоков Ригель, 2011 год
  • Стойка на основе вычислительных блоков Ригель, 2011 год

Всего в вычислительном поле задействовано более 1100 ПЛИС, общее число размещаемых процессоров — 130 тыс. параллельно работающих процессоров, производительность — 51 терафлопс (одинарной точности) или 51×1012 при потребляемой мощности всего 50 кВт. (Параметры стойки: 16,2 ТФлопс двойной точности, 50,4 кВт, 0,32 ГФлопс/Вт, 17,98 ТФлопс/м3)

Система «Орфей» для цифровой обработки сигналов (о ней я еще скажу более подробно) имеет производительность 6,5×1014(Система предназначена для обработки телекоммуникационных данных, например шифрование или мониторинг потоков и состоит из двух стоек. В ней были применены оптические каналы. Параметры стойки: 16 ТФлопс двойной точности, 10 кВт, 1,6 ГФлопс/Вт, 23,3 ТФлопс/м3)

  • Базовый модуль Орфей, 2011 год
  • Базовый модуль Орфей, 2011 год
  • Вычислительный модуль Орфей, 2011 год
  • Вычислительный модуль Орфей, 2011 год
  • РВС Орфей-Т, 2011 год
  • РВС Орфей-Т, 2011 год

Реконфигурируемая система РВС-7 (2013 год) содержит 864 ПЛИС, производительность 1,5×1015 операций в секунду при потребляемой мощности 50 кВт (Параметры стойки: 29,4 ТФлопс двойной точности, 50 кВт, 0,59 ГФлопс/Вт, 29,16 ТФлопс/м3)

  • Базовый модуль 6V7-180 Плеяда, 2013 год (не вырезана из текстолита)
  • Базовый модуль 6V7-180 Плеяда, 2013 год (не вырезана из текстолита)
  • Вычислительный блок 24V7-750 Плеяда, 2013 год
  • Вычислительный блок 24V7-750 Плеяда, 2013 год
  • РВС-7, 2013 год
  • РВС-7, 2013 год

Для сравнения: суперкомпьютер «Ломоносов» (использует процессоры Xeon X5570/X5670/E5630 2.93/2.53 GHz и в качестве спецвычислителей Nvidia 2070 GPU, PowerXCell 8i) потребляет около 3 мегаВатт электроэнергии, занимает 250 кв.метров площади. Эта же система — одностоечная, занимает чуть больше 1 кв.метра площадь и потребляет всего 50 кВт электроэнергии, а по производительности они практически эквивалентны, если не считать, что здесь используется фиксированная запятая.

Переход на новое поколение ПЛИС потребовал разработки принципиально новой системы охлаждения таких суперкомпьютеров. Плотность компоновки ПЛИС поколения «Вертекс-8» уже такова, что уже невозможно использовать воздушную систему охлаждения, которая была применена в предыдущих сериях таких суперкомпьютеров. Совместно со специалистами ИПС РАН нами была разработана принципиально новая технология — технология жидкостного погружного охлаждения.

То есть плата просто опускается в специальную инертную жидкость, через которую производится отвод тепла. Такой подход позволил в пять-десять раз повысить теплоотвод по сравнению с воздушной системой охлаждения. На базе этой технологии в настоящее время нами создается суперкомпьютер в одностоечном варианте, имеющий производительность 1 петафлопс при потребляемой мощности всего 154 кВт. В рамках этого суперкомпьютера задействовано вычислительное поле, содержащее 1,5 тыс. ПЛИС. (Предположительные характеристики стойки: 333 ТФлопс двойной точности, 154 кВт, 2,16 ГФлопс/Вт, 330 ТФлос/м3. На основе таких модулей можно построить суперкомпьютер с пиковой экзафлопсной производительностью двойной точности и энергопотреблением менее полгигаватта, а не один гигаватт как на зарубежных системах. При этом вычислитель в отличие от своих конкурентов будет высокопроизводительным для любых задач!)

  • Вычислительный модуль Скат
  • Вычислительный модуль Скат
  • Вычислительный модуль Скат
  • Вычислительный модуль Скат
  • Вычислительный модуль Скат
  • Вычислительный модуль Скат
  • Вычислительный модуль Скат
  • Вычислительный модуль Скат

(Только вдумайтесь в эти цифры. Производительность одного вычислительного модуля Скат около 30 ТФлопс двойной точности!!!)

Раньше в процессе программирования реконфигурируемых суперкомпьютеров необходимо было задействовать по крайней мере двух специалистов — схемотехника, который должен был формировать вычислительные структуры, адекватные решаемой задаче, и программиста, который должен был программировать ПЛИС для отображения этих структур. Но сейчас нами создан комплекс системного программного обеспечения, который позволяет полностью автоматизировать процесс программирования реконфигурируемых вычислительных систем. Задача пишется на языке высокого уровня — это наша разработка. (язык высокого уровня COLAMO)

Далее с помощью средств отображения автоматически строится граф задачи, разрезается на подграфы в зависимости от имеющегося вычислительного ресурса и отображается уже в вычислительное поле ПЛИС. При этом заполняемость вычислительного поля ПЛИС составляет не менее 60%. Иными словами реальная производительность реконфигурируемых суперкомпьютеров при решении прикладных задач составляет не менее 60% от пиковой, т. е. теоретически достижимой максимальной производительности.

Поскольку это — нестандартная система программирования, наиболее эффективное применение такие машины находят при решении так называемых потоковых задач, когда нужно по единому алгоритму обрабатывать большие массивы или потоки данных. В качестве примеров можно привести задачу корректировки атмосферных изображений, получаемых с помощью большого телескопа специальной Астрофизической обсерватории РАН. Наша небольшая машинка, величиной с обычный ноутбук, позволяет в реальном масштабе времени обрабатывать картинку, которая получается с телескопа, и преобразовывать ее к нужному виду для дальнейших исследований. Ускорение составляет 142 раза.

  • Автономный вычислительный модуль Caleano-V
  • Автономный вычислительный модуль Caleano-V

Совместно со специалистами МГУ нами была разработана система диагностики дорожных покрытий взлетно-посадочных полос. Такая небольшая машинка, установленная непосредственно в автомобиле, в реальном масштабе времени обрабатывает данные, получаемые от георадара, строит трассы радарограмм и формирует соответствующую информацию. Ускорение по сравнению с обычной системой составляет около 200 раз.

Хорошие перспективы использования таких реконфигурируемых вычислительных систем в бортовых комплексах — их обеспечивают высокие технические характеристики соотношений производительности к объему и производительности к потребляемой мощности.

Принцип реконфигурации может быть использован не только для повышения вычислительных характеристик многопроцессорных вычислительных информационных и управляющих систем, но и для повышения их отказоустойчивости.

В настоящее время проблема отказоустойчивости решается, в основном, за счет принципа резервирования, то есть в состав системы вводится несколько дополнительных процессорных узлов, находящихся в резерве, и в случае выхода из строя любого процессорного узла его задача переносится на один из резервных узлов. Однако понятно, что введение в состав системы дополнительных резервных узлов приводит к повышенному энергопотреблению, повышенным габаритам системы, что зачастую недопустимо, особенно в случае работы таких систем в мобильном варианте.

Поэтому нами предложен способ, позволяющий повысить отказоустойчивость таких сетевых информационно управляющих систем без дополнительных аппаратурных затрат, только за счет их реконфигурации. Идея заключается в следующем. Каждый процессорный узел системы имеет некоторый резерв производительности. Под резервом производительности понимаем возможность выполнения большего объема вычислений в отведенный промежуток времени, чем задана ему в соответствии с изначальным распределением подзадач, общей задачей управления по процессорам.

Тогда в случае выхода из строя любого процессорного узла мы можем перенести задачи, которые решал этот процессорный узел, на работоспособные процессорные узлы, не выходя за ограничения по лимиту времени. При этом преимуществом такого подхода является то, что мы не вводим в состав системы никакого дополнительного оборудования. Обеспечиваем отказоустойчивость только за счет реконфигурации системы. Показано, что метод реконфигурации по сравнению с методом резервирования обеспечивает большую вероятность безотказной работы таких многопроцессорных информационно управляющих систем, причем потребление уменьшается, а число парируемых отказов не увеличивается.

Кто должен осуществлять мониторинг работоспособности всех процессорных узлов и выполнения процедуры реконфигурации? В простейшем случае это можно поручить некоторому специально выделенному процессорному узлу, играющему роль центрального диспетчера. Но тогда эта система становится неустойчивой: выход из строя «центрального диспетчера» будет приводить к отказу системы в целом. Поэтому нами разработан новый подход, использующий множество программных агентов, размещенных в процессорных узлах. Каждый такой программный агент отслеживает работоспособность процессорного узла, в котором он расположен, и информирует об этом всех остальных программных агентов.

Если в какой-то момент времени программный агент перестал отвечать на запросы других программных агентов, они понимают, что соответствующий процессор вышел из строя, и предпринимают шаги по реконфигурации, то есть по переразмещению задач, возложенных на этот процессорный узел, на работоспособные узлы. При этом в состав системы не вводится никакое дополнительное оборудование, и, соответственно, вероятность безотказной работы такой системы не уменьшается. Разработаны алгоритмы такой реконфигурации, они характеризуются временем реконфигурации, что эквивалентно времени восстановления вычислительного процесса, и качеством реконфигурации.

В качестве примера использования данной технологии можно привести информационно-управляющую систему транспортно-технологического комплекса перегрузки ядерного топлива на АЭС. Мы создаем такие вычислительные комплексы. Они используются и применяются на целом ряде отечественных и зарубежных атомных станций, в частности — на всех энергоблоках Ростовской атомной станции, Нововоронежской атомной станции. Эти процессоры имеют многопроцессорную сетевую архитектуру и решают комплекс задач, которые в объединенном виде показаны на данном слайде.

Использование метода реконфигурации без дополнительных аппаратурных затрат позволило увеличить количество гарантированного отказа с одного до пяти, а гамма-процентную наработку на отказ — на 56 процентов, с 1,5 до 2,5 тыс. часов.

Еще один пример — информационно-управляющая система перспективного авиационного комплекса. Эта система разрабатывается нами совместно со специалистами концерна «Вега». Использование метода реконфигурации без введения в состав системы дополнительного оборудования позволило увеличить число гарантированных отказов с одного до пяти, а гамма-процентную наработку почти на 200 процентов. При этом время реконфигурации для восстановления вычислительного процесса после обнаружения отказа составляет не более двух секунд.

Таким образом, разработаны теоретические основы и новая технология создания реконструируемых вычислительных и управляющих систем, обеспечивающие решение ряда практически важных прикладных задач обработки информации и управления, повышения их вычислительной эффективности:

— соотношение реальной пиковой производительности в пять-десять раз,

— удельной производительности, то есть производительности единицы объема, — в 100-150 раз,

— энергоэффективности производительности, на Ватт потребляемой мощности — в пять-десять раз,

— отказоустойчивости, то есть гамма-процентной наработки на отказ, — в полтора-три раза.

Пока за рубежом таких машин нет. В лучшем случае они используют ПЛИС в качестве сопроцессоров в ускорителях, а мы используем их как полный вычислительный ресурс.

Подпишитесь на наш канал в Яндекс.Дзен и сделайте вашу ленту объективнее!

  • 14
    Zveruga Zveruga
    06.08.1519:32:57

    Мировая архитектурная школа построения вычислительных систем, будь то процессоры или суперкомпьютеры, шагает по принципу универсальных центров управления к которым подключают узкоспециализированные вычислители. В результате процессоры Intel обросли кучей специализированных вычислительных блоков, а в современные суперкомпьютеры за границей добавляют спецвычислители в виде видеокарт или ускорителей на основе DSP. Такие системы могут выполнять только определённые задачи в пике своей производительности. Когда дело доходит до других задач, которые специализированные модули не могут оптимально вычислять, производительность катастрофически падает, иногда на порядок.

    Отечественная наука из-за отсутствия собственного производства современных микросхем не может производить современные специализированные вычислители предназначенные для выполнения узкого круга задач. По этой прчине в нашей стране стали развивать другой способ, построение необходимых архитектур на основе перепрограммируемых микросхем.

    Если сравнивать производительность ПЛИС и DSP, то ПЛИС уступают. Но построение суперкомпьютеров из одних только DSP не возможно так как такие высокопроизводительные вычислители будут приспособлены только под одну задачу, а стоимость больших систем велика. Слишком дорого делать узкоспециализированные вычислители.

    Используя ПЛИС российские учёные получили наилучший вариант для высокопроизводительных вычислителей, в которых для каждой задачи происходит перепрограммирование архитектуры. В результате во время любой задачи вычислительные блоки ПЛИС задействованы максимально эффективно и не простаивают, как это происходит в традиционных зарубежных архитектурах.

    Первый вычислительный модуль на основе ПЛИС был создан в 2003 году и назывался 16Р25 Рысь, на основе ПЛИС Virtex-II. Он похож на вот этот модуль.

    Современные отечественные военные компьютеры для ракет, танков, кораблей и самолётов тоже используют ПЛИС, но только радстойкие. В таких ПЛИС вентилей на два порядка меньше чем в современных коммерческих ПЛИС, но задачи выполняемые в оборонке на мобильных системах не такие уж и серьёзные.

    Самая современная отечественная ПЛИС военной приёмки это 5510ХСЗТ на 100 000 вентилей выпускаемая заводом Микрон с 2015 года. Я не знаю имеет ли она защиту от радиации. Для сравнения, самая высокопроизводительная зарубежная ПЛИС военного применения это Vertex-7Q имеющая 580 000 вентилей. Самая высокопроизводительная радиационностойкая зарубежная ПЛИС это Vertex-5QV имеющая 130 000 вентилей.

    Одной из важных особенностей ПЛИС является врождённая защищённость от копирования записанной в них архитектуры. По этому в случае чего можно заказать производство разработанных у нас ПЛИС в Китае по современным технологическим нормам, а дома записать в них любую секретную архитектуру и применять в ответственных системах.

    Единственным ограничением является производство радстойких ПЛИС. Этой технологией в мире ни кто не делится. Создаются такие микросхемы по не самым тонким топонормам, по этому в этой области нам есть куда развиваться. Микрон пока обеспечивает технологические размеры мирового уровня для производства радстойкой компонентной базы, но заказы на отечественные радстойкие микросхемы появились только в последние 4 года.

    Отредактировано: Zveruga~10:24 07.08.15
    • 0
      Нет аватара Larin
      02.01.1609:54:49

      А ОНО ХОРОШО СОВМЕСТИМО С АМЕРИКАНСКИМИ ЯЗЫКАМИ ПРОГРАМИРОВАНИЯ И ТЕХНОЛОГИЯМИ? ЧТО ПРИМЕНЯЕТСЯ?

      • 0
        Zveruga Zveruga
        15.01.1622:30:52

        А оно вообще уникально для мира, это сравнивать в мире не с чем.

  • -7
    Нет аватара Александр Белехов
    06.08.1520:25:11

    Ну, а в массовое производство к потребителю они не пойдут? Чтобы свои системные блоки были.

    Отредактировано: Александр Белехов~21:25 06.08.15
    • 9
      Zveruga Zveruga
      06.08.1520:50:11

      Программистов на COLAMO очень мало. Подобные системы смогут стать ширпотребными только если все ширпотребные программы будут писать на COLAMO.

      В бытовой технике, автомобилях и даже персональных компьютерах простейшие ПЛИС вы можете встретить, а вот вычислители на основе ПЛИС наврядли.

      У Эльбруса перспектив оказаться в домашнем компьютере больше чем у реконфигурируемых вычислителей.

      С другой стороны эти вычислители находятся в свободной продаже. Можете поинтересоваться их ценой. Возможно могут заинтересовать малые ускорители к персональным компьютерам для решения каких-нибудь небольших задач на дому или в офисе.

      Вот этот вычислитель может работать и как ускоритель подключаемый к обычному ноутбуку и как автономный компьютер. Caleano-V имеет производительность 220 ГФлопс двойной точности и потребляет 300 Вт.

      Отредактировано: Zveruga~22:22 06.08.15
      • Комментарий скрыт по причине низкого рейтинга. показать
        • 20
          Zveruga Zveruga
          06.08.1522:01:56

          Вы так и не поняли о чём была статья. В суперкомпьютерных вычислениях системы на основе ПЛИС показывают более лучшие характеристики чем процессоры Intel или AMD. И чем дальше развивается эта система тем дальше она удаляется в производительности от западных конкурентов. Т. е. реконфигурируемые компьютеры со временем будут только отрываться ещё дальше в производительности.

          Тут скорее Intel отомрёт за ненадобностью, так как в суперкомпьютерах они уже не всех устраивают, а в мобильных системах появились другие сильные конкуренты.

          Единственная ниша в которой могла бы задержаться архитектура х86 это сервера, но и в этом направлении идут изменения. Так как Linux позволяет заменить Windows Server и способен работать не только на архитектуре x86. В данном случае виновата не архитектура, а монополист программного обеспечения, слишком дорого берёт за ПО.

          Стране необходимо огромное количество высокопроизводительных вычислителей. Каждому производителю в стране они необходимы.

          В статье приводится пример. Полный расчёт с оптимизацией двигателя самолёта на суперкомпьютере Ломоносов, который построен на процессорах Intel и использует графические ускорители NVidia, занимает 7 лет (что обошлось бы в 800 миллионов рублей). Аналогичная по энергетической мощности отечественная система Плеяда потратит на эту задачу в 60 раз меньше времени, т. е. 43 дня! И обойдётся это в 14 миллионов рублей. А аналогичная по потребляемой энергии вычислительная система Скат-8, которую планируют построить в 2016 году, могла бы выполнить эту задачу за 3,5 дня!!! И обошлось бы это в 1 миллион рублей.

          Отредактировано: Zveruga~21:10 07.08.15
          • 1
            Денис Демидович Денис Демидович
            07.08.1512:23:35

            В суперкомпьютерных вычислениях системы на основе ПЛИС показывают более лучшие характеристики чем процессоры Intel или AMD.

            Судя по тому что удалось понять, показывает он их ровно до тех пор пока не возникнет проблема работать с памятью, отлично понял как связываются вычислительные блоки и сколько гигафлопов это все дает, но мне совсем не понятно что там с памятью, какой её объем, какая латентность и прочие параметры, у современных видеокарт и процессоров это большая проблема, самая большая. И дело далеко не всегда в количестве операций сложения, как только у вас случился промах кеша ( это означает что процессор не угадал и не подгрузил данные заранее) те же операции сложения начинают работать в 1000 раз медленнее. Грубо говоря вместо одного такта надо 1000 из-за того что нет данных и их грузят из памяти.

            Судя по всему эти кластеры это очень специфичное решение которое может решать быстро только те задачи где нет необходимости работать с данными, с большими данными.

            • 3
              Zveruga Zveruga
              07.08.1516:52:21

              Вот базовый модуль третьего поколения на основе ПЛИС IV.

              Память интегрирована на каждом модуле. В 2010 году поднимался вопрос о нехватке каналов доступа к памяти. Похоже они эту проблему решили.

              У РВС-7 памяти всего 192 Гб. Похоже это связано с тем, что данные во время вычислений хранятся не во вне, а на ПЛИС. В буферах и аккумуляторах.

              Кластерные суперкомпьютеры хранят программу в памяти. В реконфигурируемых компьютерах программа хранится в виде аппаратного алгоритма в самих ПЛИС. Память нужна только для хранения начальных и конечных данных.

              Пример применения для мониторинга сетей. На фотографии похоже модуль Кентавр.

              Отредактировано: Zveruga~17:53 07.08.15
              • 0
                Денис Демидович Денис Демидович
                07.08.1517:11:49

                У меня в компьютере стоят две Radeon 280x суммарно 6 ГБ памяти, НО вы понимаете что в каждой по 3ГБ и могу оперировать только этими тремя ГБ, хотя мой алгоритм может выполняться параллельно на каждой видеокарте( упрощенно), поэтому общее количество памяти не отвечает на заданные вопросы.

                Эти видеокарты крайне быстро считают биткойны( не пробовал, но знаю что в 1000 раз быстрее процессора), если же попытаться на них работать с чем-то напоминающим базу данных они мгновенно сдуются и если такую задачу вообще можно решить скорее всего будут медленнее или около процессора.

                Задача с лексическим анализатором хорошая задача, но все же хочется конкретных параметров и примеров. Это вопрос не к вам, это просто так.

                Сейчас расскажу что мне интересно, про интеловские процы примерно все известно, известно как организованна память, известно что есть КЭШ, известно как туда попадают данные, известно как примерно писать так что бы алгоритмы не выбивали кэш, известны примерные соотношения скорости работы при разных случаях, примерно то же самое знаю про видеокарту, собственно это же интересно про эти самые кластеры, там много плис, какой у каждого кэш, как они синхронизируются, какой для каждого объем памяти, общая ли у них память, сколько уровней памяти, как исполняются алгоритмы(в смысле если ли там какие-то методы синхронизации потоков)

                • 3
                  Zveruga Zveruga
                  07.08.1517:46:16

                  В ПЛИС можно зашить любой алгоритм. При этом зашить так, чтобы все модули ПЛИС работали на благо задачи. По этому ПЛИС максимально эффективно работают на всех задачах.

                  В графическое ядро видеоадаптера вы не сможете добавить недостающие вычислительные блоки, которые позволили бы вычислять определённые функции за 1 такт. А в ПЛИС вы сами творите любые нужные вам блоки.

                  Модуль цифровой обработки 4V2P-32 для ответственных систем. Год производства где-то 2007. Работает он на древних процессорах Virtex II Pro, которые были разработаны ещё в 2002 году. Модуль на таких ПЛИС сравнивается с зарубежными модулями разработанными в 2005 и 2007 годах.

                  И для примера сравнительная производительность в разных задачах у другого модуля работающего на Virtex 5. Возможно, что это модуль 16V5-50 Фекда 2006 года выпуска.

                  Обратите внимание на процент реальной производительности от пиковой. Именно этот параметр и является важным отличием реконфигурируемых систем от универсальных кластерных.

                  Это именно Фекда обрабатывает изображение с телескопа. Картинку Калеано-В в статье я привёл лишь для примера.

                  Отредактировано: Zveruga~21:37 07.08.15
          • 5
            shigorin shigorin
            07.08.1513:37:10

            Так как Linux позволяет заменить Windows Server

            Мнээ… когда тот Windows Server появился, а когда линукс. Винду на сервера берут в основном подневольные или тупые, которые не смотрят, что им впаривают; а впаривают потому, что «винсервер мне продать -- ОДНУ кнопку нажать, а [названиелинуксовойконторы] -- поприседать с бубном вокруг представительства» (близко к цитате по памяти).

            PS: сам-то линуксом пользуюсь с 1998 года, среди прочего участвовал и в создании «Ломоносова».

            • 2
              Zveruga Zveruga
              07.08.1516:59:54

              Да, как серверная система Линукс появился раньше. Но на Линукс спецов маловато по сравнению с Windows Server. Это и играет решающую роль при построении корпоративной сети.

              • 2
                shigorin shigorin
                07.08.1517:07:26

                Да если бы. Я по виндовсам знаю двоих (2 шт.) спецов, а не обладателей сертификата о прослушанном курсе.

                Эт всё тоже FUD как раз -- более чувствителен lock-in по протоколам взаимодействия, но за последние лет пять лёд тронулся и в части эксчанжозамещения со всякими Zimbra (хотя тот же CGP есть куда как давнее).

          • 2
            Нет аватара quark
            07.08.1518:30:40

            Тут скорее Intel отомрёт за ненадобностью, так как в суперкомпьютерах они уже не всех устраивают, а в мобильных системах появились другие сильные конкуренты.

            Это вряд ли, особенно если учесть, Intel недавно купила фирму Altera и новые FPGA — Stratix-10 будут теперь делать на заводах Intel по технологии 14 нм.

            А аналогичная по потребляемой энергии вычислительная система Скат-8, которую планируют построить в 2016 году, могла бы выполнить эту задачу за 3,5 дня!!! И обошлось бы это в 1 миллион рублей.

            Вы забыли указать стоимость этих чудо-микросхем. Старшие Virtex-7 (XC7V2000T) стоят 40000 $ за штуку. Старшие Virtex UltraScale+ (XCVU13P) будут стоить не меньше, а может и больше раза в два. Если же считать, что в стандартную 19-дюймовую стойку влезет 672 Virtex’ов UltraScale+, то стоимость этой «вычислительной системы» будет: 672*40000[$]*60[Руб/$] = 1,6 млрд рублей. И даже если урезать свои аппетиты и ограничиться одним 1U шасси c 16-ю Virtex’ами UltraScale+, то все равно стоимость этой системы составит: 16*40000[$]*60[Руб/$] = 38,4 млн рублей. И это только стоимость Virtex’ов! Прибавьте к этому стоимость PCB, стоимость монтажа, стоимость системы охлаждения и источников питания и можете смело рассчитывать на сумму в 50 млн. рублей. Но никак не на 1 миллион!

            А в целом да, тема перспективная.

            В одной только XCVU13P почти 12 тысяч целочисленных умножителей, что дает 21213 GMAC/s целочисленной арифметики на одной только этой микросхеме. А если их 100500?

            Отредактировано: quark~19:34 07.08.15
            • 4
              Zveruga Zveruga
              07.08.1518:50:46

              Да. Я хотел эту новость написать в комментарии внизу, но вы меня опередили. Действительно Intel решила делать ПЛИС. Вопрос зачем?

              Похоже американцы очухались. Они поняли, что кластерные системы привели их в тупик и решили тоже делать суперкомпьютеры на ПЛИС. Но вот вопрос, мы для функционирования таких вычислителей разработали специальный язык COLAMO. Уже 15 лет это всё исследуем, модернизируем. Ломаем голову математикам для создания лучших алгоритмов. А они смогут так? И если смогут то во сколько человеко-лет и соответственно долларов им это выльется?

              Я поправлюсь в связи со всплывшей информацией. Умирает не Intel, а x86.

              Что касается стоимости ПЛИС, то наши не используют топовые модели. Плеяда РВС-7 Построена на XC7V585T, в которой вентилей в 3,3 раза меньше. Сейчас он стоит 4 000 долларов, что в 10 раз дешевле топовой модели.

              Самые большие затраты тратятся во время эксплуатации суперкомпьютеров. День работы Ломоносова стоит 350 000 рублей. Вот и представьте, в день по процессору сгорает. Поэтому лучше заплатить дорого за систему, которую будет дёшево эксплуатировать.

              Нужно разрабатывать свои ПЛИС и заказывать в Китае. Для оборонки производить радстойкие на территории России.

              Отредактировано: Zveruga~22:10 07.08.15
              • 0
                Омутин Зафар Омутин Зафар
                08.08.1521:25:32

                Похоже американцы очухались. Они поняли, что кластерные системы привели их в тупик и решили тоже делать суперкомпьютеры на ПЛИС. Но вот вопрос, мы для функционирования таких вычислителей разработали специальный язык COLAMO. Уже 15 лет это всё исследуем, модернизируем. Ломаем голову математикам для создания лучших алгоритмов. А они смогут так? И если смогут то во сколько человеко-лет и соответственно долларов им это выльется?

                Как бы не перекупили кого-либо из наших. При расхлябанности властей в нынешней РФ, всепрощении предателей-возможный вариант.

                Нужно разрабатывать свои ПЛИС и заказывать в Китае. Для оборонки производить радстойкие на территории России.

                а вот в этом -уже американцы обогнали на 15 или более лет. представляется, что сделать обмен технологиями-наши и их, было бы выгодно обеим сторонам.

                Отредактировано: Омутин Зафар~22:28 08.08.15
    • 2
      Нет аватара Cinik
      06.08.1522:00:36

      А для решения каких задач массовому пользователю нужны реконфигурируемые компьютеры? Массовый пользователь сможет их программировать?

      • 4
        Zveruga Zveruga
        06.08.1522:14:34

        Биткоины считать.    

        На самом деле я часто в интернете встречаю любителей что-нибудь посчитать. Они любят использовать для этого CUDA на видеокартах. Некоторые покупают специальные ускорители на основе графических технологий.

        Но все эти люди гики или учёные работающие дома.

        Отредактировано: Zveruga~23:15 06.08.15
        • 0
          Нет аватара Cinik
          06.08.1523:18:28

          Ну так не массовый же потребитель! А так, конечно, в частные руки такое тоже надо продавать.

          • 2
            Zveruga Zveruga
            06.08.1523:52:38

            Такое скорее можно будет увидеть в каком нибудь приборе выполняющем специальную задачу. Например автопилот для машины или эхолот для лодки детально рисующий рельеф дна в режиме реального времени.

            • 1
              Нет аватара Cinik
              07.08.1501:51:22

              А нахрена, извините, в специализированных гаджетах реконфигурация? Эхолот периодически в автопилот переделывать и обратно? Там нужна дешёвая и сердитая поточная штамповка одной конкретной конфигурации без всякой там гибкой архитектуры.

              • 5
                Zveruga Zveruga
                07.08.1502:09:18

                Для автопилота нужна одна высокопроизводительная специализированная микросхема, для эхолота другая. Дорого выходит. И алгоритмы на ПЛИС можно каждый день обновлять. Как прошивка. Лучше универсальную высокопроизводительную ПЛИС поставить.

                 http://oesd.ru/files/urvs.pdf 

                • 0
                  Нет аватара Lynx
                  07.08.1507:12:33

                  а сколько времени занимает реконфигурация на современных FPGA?

                  • 2
                    Zveruga Zveruga
                    07.08.1519:17:41

                    Не напишу вам полное время программирования всего суперкомпьютера, но приведу абзац из статьи о скорости реконфигурирования бортовой системы (предположительно МС-21) в случае возникновения сбоя.

                    Еще один пример — информационно-управляющая система перспективного авиационного комплекса. Эта система разрабатывается нами совместно со специалистами концерна «Вега». Использование метода реконфигурации без введения в состав системы дополнительного оборудования позволило увеличить число гарантированных отказов с одного до пяти, а гамма-процентную наработку почти на 200 процентов. При этом время реконфигурации для восстановления вычислительного процесса после обнаружения отказа составляет не более двух секунд.

  • 10
    NovaM3 NovaM3
    07.08.1501:05:34

    Почти все блоки имеют название звезд или звездных скоплений (Плеяды). Так и чувствуется будущее за такими приборами.   

    Если еще наши доведут до ума оптические компьютеры, технологию которых описывают несколькими статьями выше, так это вообще прорыв.

    • 9
      Zveruga Zveruga
      07.08.1502:35:17

      ПЛИС на основе оптических технологий будет работать гораздо быстрее.

      • 4
        NovaM3 NovaM3
        07.08.1508:52:32

        И я про то же. При таких обстоятельствах, постигнуть пространство и время останется делом нескольких десятков лет… Наверно.   

    • 5
      Zveruga Zveruga
      07.08.1509:44:20

      Среди неуказанных в статье вычислителей на основе ПЛИС наша страна также производила или производит системы со следующими наименованиями:

      Рысь

      Мегрец

      Мицар

      Фекда

      Кентавр

      Триада

      Орион

      Мангуст

      Саиф

      Атлас

      Тайгета (первая фотография)

      Отредактировано: Zveruga~19:21 07.08.15
    • 1
      shigorin shigorin
      07.08.1513:39:00

      Там несколько другие алгоритмические подходы имеют смысл. Точнее говоря, даже не алгоритмические, но не уверен, что это уже публиковалось…

  • 1
    MAF MAF
    07.08.1501:08:21

    не плохо, очень не плохо. Но размеры, увы. Как-то по работе наблюдал терафлопную ноду с водяным охлаждением.

    • 4
      Zveruga Zveruga
      07.08.1502:10:18

      Это наверное старый вариант был. Мы такие штуки оказывается с 2003 года делаем.

      Отредактировано: Zveruga~03:10 07.08.15
  • Комментарий удален
  • 0
    goryachee_leto goryachee_leto
    07.08.1512:11:43

    Так ПЛИС же вроде только в США производят?

    Не закроют поставки?

    • 4
      Олег Бахарев Олег Бахарев
      07.08.1512:31:08

      Не только. У нас тоже делают. Например тут: ОАО «Воронежский завод полупроводниковых приборов-Сборка». Правда они пока слабенькие — но это больше чем ничего.

  • 2
    Jonatan01 Jonatan01
    07.08.1513:50:08

    Оень круто!!!

    Много интересного узнал.

  • 2
    Нет аватара PhotonInside
    07.08.1514:50:30

    Интересный материал. Большое спасибо!

  • 3
    Zveruga Zveruga
    07.08.1519:30:08

    Приведу здесь в дополнение новости прошлых лет, которые выглядели странными… тогда.

    В 2010 г. Ядерный центр передал 15 универсальных персональных суперкомпьютеров 11 российским промышленным предприятиям — участникам президентской программы. Примерно половину стоимости этих систем предприятиям профинансировало государство, пояснили в РФЯЦ-ВНИИЭФ. Еще 6 экземпляров суперкомпьютеров институт собрал для коммерческих заказчиков. Стоимость одного суперкомпьютера составляет 1,6 млн руб.

    После публикации материала с редакцией CNews связался Алексей Волгин, главный специалист департамента развития научно-производственной базы ядерного оружейного комплекса госкорпорации «Росатом», и сообщил некоторые подробности о разрабатываемых суперкомпьютерах.

    1. Так, по его словам, пиковая производительность разработанной универсальной (т.е. на платформе x86-64) компактной супер-ЭВМ (КС-ЭВМ 1, «персональный суперкомпьютер») составляет 1,1 Тфлопс на арифметических операциях двойной точности. Энергопотребление от 0,7 до 2,2 кВт в зависимости от загрузки вычислительного поля. Цена от 1,45 млн руб. в зависимости от аппаратной и программной комплектации. Зарубежные аналоги типа Cray XT дороже в 2-4 раза, утверждает он.

    2. Пиковая производительность разработанной специализированной компактной супер-ЭВМ на базе арифметических ускорителей, по словам Волгина, составляет 3,5 Тфлопс на арифметических операциях двойной точности. Энергопотребление до 1,5 кВт. Цена от 400 тыс. руб. в зависимости от аппаратной и программной комплектации. «Здесь также, как и в универсальных КС-ЭВМ 1, используется уникальная воздушно-водяная система охлаждения, позволяющая достаточно бесшумно (45-50 дБ на расстоянии 1 м — уровень шумности ПК) работать в обычных условиях офиса», — говорит он.

    Тогда все обратили внимание на первый абзац, а второй мимо ушей пропустили.

    Если кому интересно, могут покапать интернет на новость о создание Росатомом суперкомпьютера рекордной в России производительности на отечественной архитектуре. Я считаю, что это суперкомпьютер на ПЛИС.

    Отредактировано: Zveruga~20:31 07.08.15
Написать комментарий
Отмена
Для комментирования вам необходимо зарегистрироваться и войти на сайт,