99

Отечественные реконфигурируемые суперкомпьютеры

Уже 15 лет у нас в стране производятся реконфигурируемые суперкомпьютеры, но только сейчас появилась возможность рассказать о них благодаря статье Сергея Шаракшанэ. Дополню текст автора фотографиями и примечаниями для популяризации материала. Этого так не хватает нашим отечественным научным статьям!

читать полностью


  • 20
    Zveruga
    06.08.1522:01:56

    Вы так и не поняли о чём была статья. В суперкомпьютерных вычислениях системы на основе ПЛИС показывают более лучшие характеристики чем процессоры Intel или AMD. И чем дальше развивается эта система тем дальше она удаляется в производительности от западных конкурентов. Т. е. реконфигурируемые компьютеры со временем будут только отрываться ещё дальше в производительности.

    Тут скорее Intel отомрёт за ненадобностью, так как в суперкомпьютерах они уже не всех устраивают, а в мобильных системах появились другие сильные конкуренты.

    Единственная ниша в которой могла бы задержаться архитектура х86 это сервера, но и в этом направлении идут изменения. Так как Linux позволяет заменить Windows Server и способен работать не только на архитектуре x86. В данном случае виновата не архитектура, а монополист программного обеспечения, слишком дорого берёт за ПО.

    Стране необходимо огромное количество высокопроизводительных вычислителей. Каждому производителю в стране они необходимы.

    В статье приводится пример. Полный расчёт с оптимизацией двигателя самолёта на суперкомпьютере Ломоносов, который построен на процессорах Intel и использует графические ускорители NVidia, занимает 7 лет (что обошлось бы в 800 миллионов рублей). Аналогичная по энергетической мощности отечественная система Плеяда потратит на эту задачу в 60 раз меньше времени, т. е. 43 дня! И обойдётся это в 14 миллионов рублей. А аналогичная по потребляемой энергии вычислительная система Скат-8, которую планируют построить в 2016 году, могла бы выполнить эту задачу за 3,5 дня!!! И обошлось бы это в 1 миллион рублей.

    Отредактировано: Zveruga~21:10 07.08.15
    • 1
      Денис Демидович
      07.08.1512:23:35

      В суперкомпьютерных вычислениях системы на основе ПЛИС показывают более лучшие характеристики чем процессоры Intel или AMD.

      Судя по тому что удалось понять, показывает он их ровно до тех пор пока не возникнет проблема работать с памятью, отлично понял как связываются вычислительные блоки и сколько гигафлопов это все дает, но мне совсем не понятно что там с памятью, какой её объем, какая латентность и прочие параметры, у современных видеокарт и процессоров это большая проблема, самая большая. И дело далеко не всегда в количестве операций сложения, как только у вас случился промах кеша ( это означает что процессор не угадал и не подгрузил данные заранее) те же операции сложения начинают работать в 1000 раз медленнее. Грубо говоря вместо одного такта надо 1000 из-за того что нет данных и их грузят из памяти.

      Судя по всему эти кластеры это очень специфичное решение которое может решать быстро только те задачи где нет необходимости работать с данными, с большими данными.

      • 3
        Zveruga
        07.08.1516:52:21

        Вот базовый модуль третьего поколения на основе ПЛИС IV.

        Память интегрирована на каждом модуле. В 2010 году поднимался вопрос о нехватке каналов доступа к памяти. Похоже они эту проблему решили.

        У РВС-7 памяти всего 192 Гб. Похоже это связано с тем, что данные во время вычислений хранятся не во вне, а на ПЛИС. В буферах и аккумуляторах.

        Кластерные суперкомпьютеры хранят программу в памяти. В реконфигурируемых компьютерах программа хранится в виде аппаратного алгоритма в самих ПЛИС. Память нужна только для хранения начальных и конечных данных.

        Пример применения для мониторинга сетей. На фотографии похоже модуль Кентавр.

        Отредактировано: Zveruga~17:53 07.08.15
        • 0
          Денис Демидович
          07.08.1517:11:49

          У меня в компьютере стоят две Radeon 280x суммарно 6 ГБ памяти, НО вы понимаете что в каждой по 3ГБ и могу оперировать только этими тремя ГБ, хотя мой алгоритм может выполняться параллельно на каждой видеокарте( упрощенно), поэтому общее количество памяти не отвечает на заданные вопросы.

          Эти видеокарты крайне быстро считают биткойны( не пробовал, но знаю что в 1000 раз быстрее процессора), если же попытаться на них работать с чем-то напоминающим базу данных они мгновенно сдуются и если такую задачу вообще можно решить скорее всего будут медленнее или около процессора.

          Задача с лексическим анализатором хорошая задача, но все же хочется конкретных параметров и примеров. Это вопрос не к вам, это просто так.

          Сейчас расскажу что мне интересно, про интеловские процы примерно все известно, известно как организованна память, известно что есть КЭШ, известно как туда попадают данные, известно как примерно писать так что бы алгоритмы не выбивали кэш, известны примерные соотношения скорости работы при разных случаях, примерно то же самое знаю про видеокарту, собственно это же интересно про эти самые кластеры, там много плис, какой у каждого кэш, как они синхронизируются, какой для каждого объем памяти, общая ли у них память, сколько уровней памяти, как исполняются алгоритмы(в смысле если ли там какие-то методы синхронизации потоков)

          • 3
            Zveruga
            07.08.1517:46:16

            В ПЛИС можно зашить любой алгоритм. При этом зашить так, чтобы все модули ПЛИС работали на благо задачи. По этому ПЛИС максимально эффективно работают на всех задачах.

            В графическое ядро видеоадаптера вы не сможете добавить недостающие вычислительные блоки, которые позволили бы вычислять определённые функции за 1 такт. А в ПЛИС вы сами творите любые нужные вам блоки.

            Модуль цифровой обработки 4V2P-32 для ответственных систем. Год производства где-то 2007. Работает он на древних процессорах Virtex II Pro, которые были разработаны ещё в 2002 году. Модуль на таких ПЛИС сравнивается с зарубежными модулями разработанными в 2005 и 2007 годах.

            И для примера сравнительная производительность в разных задачах у другого модуля работающего на Virtex 5. Возможно, что это модуль 16V5-50 Фекда 2006 года выпуска.

            Обратите внимание на процент реальной производительности от пиковой. Именно этот параметр и является важным отличием реконфигурируемых систем от универсальных кластерных.

            Это именно Фекда обрабатывает изображение с телескопа. Картинку Калеано-В в статье я привёл лишь для примера.

            Отредактировано: Zveruga~21:37 07.08.15
    • 5
      shigorin
      07.08.1513:37:10

      Так как Linux позволяет заменить Windows Server

      Мнээ… когда тот Windows Server появился, а когда линукс. Винду на сервера берут в основном подневольные или тупые, которые не смотрят, что им впаривают; а впаривают потому, что «винсервер мне продать -- ОДНУ кнопку нажать, а [названиелинуксовойконторы] -- поприседать с бубном вокруг представительства» (близко к цитате по памяти).

      PS: сам-то линуксом пользуюсь с 1998 года, среди прочего участвовал и в создании «Ломоносова».

      • 2
        Zveruga
        07.08.1516:59:54

        Да, как серверная система Линукс появился раньше. Но на Линукс спецов маловато по сравнению с Windows Server. Это и играет решающую роль при построении корпоративной сети.

        • 2
          shigorin
          07.08.1517:07:26

          Да если бы. Я по виндовсам знаю двоих (2 шт.) спецов, а не обладателей сертификата о прослушанном курсе.

          Эт всё тоже FUD как раз -- более чувствителен lock-in по протоколам взаимодействия, но за последние лет пять лёд тронулся и в части эксчанжозамещения со всякими Zimbra (хотя тот же CGP есть куда как давнее).

    • 2
      Нет аватара
      07.08.1518:30:40

      Тут скорее Intel отомрёт за ненадобностью, так как в суперкомпьютерах они уже не всех устраивают, а в мобильных системах появились другие сильные конкуренты.

      Это вряд ли, особенно если учесть, Intel недавно купила фирму Altera и новые FPGA — Stratix-10 будут теперь делать на заводах Intel по технологии 14 нм.

      А аналогичная по потребляемой энергии вычислительная система Скат-8, которую планируют построить в 2016 году, могла бы выполнить эту задачу за 3,5 дня!!! И обошлось бы это в 1 миллион рублей.

      Вы забыли указать стоимость этих чудо-микросхем. Старшие Virtex-7 (XC7V2000T) стоят 40000 $ за штуку. Старшие Virtex UltraScale+ (XCVU13P) будут стоить не меньше, а может и больше раза в два. Если же считать, что в стандартную 19-дюймовую стойку влезет 672 Virtex’ов UltraScale+, то стоимость этой «вычислительной системы» будет: 672*40000[$]*60[Руб/$] = 1,6 млрд рублей. И даже если урезать свои аппетиты и ограничиться одним 1U шасси c 16-ю Virtex’ами UltraScale+, то все равно стоимость этой системы составит: 16*40000[$]*60[Руб/$] = 38,4 млн рублей. И это только стоимость Virtex’ов! Прибавьте к этому стоимость PCB, стоимость монтажа, стоимость системы охлаждения и источников питания и можете смело рассчитывать на сумму в 50 млн. рублей. Но никак не на 1 миллион!

      А в целом да, тема перспективная.

      В одной только XCVU13P почти 12 тысяч целочисленных умножителей, что дает 21213 GMAC/s целочисленной арифметики на одной только этой микросхеме. А если их 100500?

      Отредактировано: quark~19:34 07.08.15
      • 4
        Zveruga
        07.08.1518:50:46

        Да. Я хотел эту новость написать в комментарии внизу, но вы меня опередили. Действительно Intel решила делать ПЛИС. Вопрос зачем?

        Похоже американцы очухались. Они поняли, что кластерные системы привели их в тупик и решили тоже делать суперкомпьютеры на ПЛИС. Но вот вопрос, мы для функционирования таких вычислителей разработали специальный язык COLAMO. Уже 15 лет это всё исследуем, модернизируем. Ломаем голову математикам для создания лучших алгоритмов. А они смогут так? И если смогут то во сколько человеко-лет и соответственно долларов им это выльется?

        Я поправлюсь в связи со всплывшей информацией. Умирает не Intel, а x86.

        Что касается стоимости ПЛИС, то наши не используют топовые модели. Плеяда РВС-7 Построена на XC7V585T, в которой вентилей в 3,3 раза меньше. Сейчас он стоит 4 000 долларов, что в 10 раз дешевле топовой модели.

        Самые большие затраты тратятся во время эксплуатации суперкомпьютеров. День работы Ломоносова стоит 350 000 рублей. Вот и представьте, в день по процессору сгорает. Поэтому лучше заплатить дорого за систему, которую будет дёшево эксплуатировать.

        Нужно разрабатывать свои ПЛИС и заказывать в Китае. Для оборонки производить радстойкие на территории России.

        Отредактировано: Zveruga~22:10 07.08.15
        • 0
          Омутин Зафар
          08.08.1521:25:32

          Похоже американцы очухались. Они поняли, что кластерные системы привели их в тупик и решили тоже делать суперкомпьютеры на ПЛИС. Но вот вопрос, мы для функционирования таких вычислителей разработали специальный язык COLAMO. Уже 15 лет это всё исследуем, модернизируем. Ломаем голову математикам для создания лучших алгоритмов. А они смогут так? И если смогут то во сколько человеко-лет и соответственно долларов им это выльется?

          Как бы не перекупили кого-либо из наших. При расхлябанности властей в нынешней РФ, всепрощении предателей-возможный вариант.

          Нужно разрабатывать свои ПЛИС и заказывать в Китае. Для оборонки производить радстойкие на территории России.

          а вот в этом -уже американцы обогнали на 15 или более лет. представляется, что сделать обмен технологиями-наши и их, было бы выгодно обеим сторонам.

          Отредактировано: Омутин Зафар~22:28 08.08.15
Написать комментарий
Отмена
Для комментирования вам необходимо зарегистрироваться и войти на сайт,