MAX
Подпишись
стань автором. присоединяйся к сообществу!
20 мая 23
84

Первый в мире обзор российского 4-ядерного процессора Эльбрус-4С. Часть 3.

Часть 1. История создания:  http://zoom.cnews.ru/publication/printed/51620 

Часть 2. Архитектура:  http://zoom.cnews.ru/publication/printed/51720 

 

Обзор российского 4-ядерного процессора Эльбрус-4С. Часть 3: тесты, сравнение с Intel.

Модули на микропроцессорах «Эльбрус»


В настоящее время ЗАО «МЦСТ» выпускает несколько готовых модулей на основе процессоров R1000 архитектуры SPARC, а также серию модулей на основе «Эльбрус». Каждый из модулей изготовлен в виде системной платы с набором необходимых внешних интерфейсов, по сути представляя собой готовый компьютер, требующий лишь подключения источника питания и накопителей для хранения данных, да и то не всегда (зачастую флеш-диск достаточного объёма распаян прямо на плате). Он выполнен в стандартном форм-факторе потребительского либо промышленного стандарта, и устанавливается в корпус заказчика. В настоящее время модули комплектуются процессорами «Эльбрус-2С+», а с началом серийного выпуска «Эльбрус-4С» элементная база будет обновлена.

[читать статью полностью...]

Кстати, а вы знали, что на «Сделано у нас» статьи публикуют посетители, такие же как и вы? И никакой премодерации, согласований и разрешений! Любой может добавить новость. А лучшие попадут в наш Телеграм @sdelanounas_ru. Подробнее о том как работает наш сайт здесь👈

Источник: zoom.cnews.ru

Комментарии 0

Для комментирования необходимо войти на сайт

  • 0
    Нет аватара guest20.05.14 17:51:37
    Почему он не подойдёт для офисных задач?

    И правда почему вы сделали такой вывод, я сказал "с трудом, но пойдет" почему с трудом, ну офисные задачи разные бывают, эксель собака достаточно прожорливым может быть, если много данных и формул, ну и бухгалтерские базы имеют свойство жиреть до очень больших объемов, а это скорость выборки. Функционально - не сомневаюсь что на нем можно делать работу, комфортно ли будет, вопрос, надо смотреть более развернутыми тестами, потянет ли он обработку он например сжатие видеопотока для того же удаленного рабочего стола или будет ли успевать кодировать звук для скайпа.
    В принципе должен. Опять же обработка изображений, а это верстка для типографии, к примеру, очень трудоемкая задача для процессора.
    По производительности 4-х процессорная плата с Эльбрус-4С будет соответствовать Core i7 2600

    Не будет, я же написал что далеко не все можно скалировать на количество потоков, есть ряд задач которые в принципе нельзя исполнить на двух ядрах. Но большинство алгоритмов перестают давать бонус к производительности после того как вы сделаете 4-ре потока.
    да и вообще сервер требует исполнения множества потоков для своих демонов.

    Для сервера подойдет, для Супер-ЭВМ, а вот для того что бы ява-скрипт в браузере молотить может не хватить скорости, вот в чем пичаль. Офисно-пользовательский компьютер - это одна слабо параллезируемая задача которую надо делать очень быстро. Сервер это наоборот много маленьких задач для которых лучше подходит как можно большее количество вычислителей.
    Эльбрус будет вести себя лучше при росте ядер чем Интел коре.

    Вы не поняли. Я сейчас не вспомню как называется этот математический закон, мож кто меня поправит. Есть фундаментальное математическое ограничение зависимости степени параллелизации задачи, скорости выполнения и количество потоков. Если ваш алгоритм параллелизируется на 90% ( это очень много) то производительность начнет падать после 8-ми потоков, если на 97%(почти недостижимый для алгоритмов уровень), то после 16.
    Но тут не надо путать с процессами ведения целей, каждый процесс никак не связан друг с другом и у них нет общих данных, такие задачи скалируются хоть на миллион ядер. А вот простые задачи интерполирования вообще не параллельны. Следующий шаг зависит от результат шага ранее, и хоть обложись ядрами никакого ускорения не будет. Будет сидеть и считать в один поток.
    • 0
      RadiantConfessor RadiantConfessor20.05.14 18:17:50
      Этот математический закон напрямую связан с системой коммутации ядер.

      Например графические процессоры очень быстро исполняют определённые задачи, а ядер в современных видеокартах уже за сотни. При этом Интел не способен так же быстро решать те же задачи будь у него столько же ядер, так как шина не позволит.
      • 0
        Нет аватара guest20.05.14 18:49:29
        Если бы все так было бы просто, это был бы не закон, а инженерная задача
         http://ru.wikipedia.org/w...i/Закон_Амдала 

        Я немного напутал с конкретными данными, но общая идея ясна.
        Например графические процессоры очень быстро исполняют определённые задачи

        Которые не связанны между собой, не пишут в общие данные( а значит почти нет блокировок), читают данные линейно.
        При этом Интел не способен так же быстро решать те же задачи будь у него столько же ядер

        Потому что интел способен решать другие задачи, которые GPU не может решить вообще, вы не путайте пожалуйста процессор общего назначения и специализированный чип, который создан для решения определенных вещей, если выпаять в кристалле алгоритм синуса, то он будет очень быстро его делать, но только его.
        Вообще у меня сложилось мнение что вы далеки от программирования и понимания процессов происходящих в процессоре. Может быть вам перед высказыванием своего мнение было бы неплохо изучить мат часть? Я знаю это долго и тяжело и не каждый способен, можно заменить альтернативой, не высказываться в областях знаний где твой собственный опыт примерно равен нулю.
        • 0
          RadiantConfessor RadiantConfessor20.05.14 18:56:46
          Я не оспариваю закон, задача распараллеливания конечна. Но вот то каким образом решается эта задача и даёт возможность создавать одни суперкомпьютеры мощнее других на тех же самых и с тем же количеством процессоров.

          К примеру есть алгоритмы, которые можно выполнить параллельно, но нет технических возможностей исполнять эти алгоритмы параллельно. Монополизм Интел тому виной.

          И видео карта один из частных случаев этой общей задачи, так как натягивать однотипные текстурки на множество треугольников всё-таки приходится. Причём видеоядро описано в одной из строк таблицы в описании закона Амдала. Этот частный случай подразумевает глубокую возможность распараллеливания частной задачи 3D моделирования. Смотрите первую строку, когда альфа равна нулю.

          Короче, если задача может быть выполнена параллельно это ещё не значит, что вы её сможете выполнить параллельно на процессоре Интел или НВидиа, но возможно сможете выполнить параллельно на процессоре Эльбрус или Мультиклет.
          Отредактировано: Zveruga~19:18 20.05.14
        • 0
          Нет аватара achbri20.05.14 19:02:56
          Которые не связанны между собой, не пишут в общие данные

          еще как пишут, только в кеш 2 уровня короче читай про CUDA
          там еще продвинутая схема синхронизации. При множестве логических процессов там всего физических 16 ядер. по вышеприведенному графику оптимальным числом процев становится тоже где то 16, 32, 64. Но это на "обычной" микроэлектронике. Если сделают какую то наночегототам где каждая графеновая трубка или слой будет ядром там будут другие инженерные задачи)
        • 0
          Нет аватара guest20.05.14 19:38:07
          Денис Демидович, а этот Закон Амдала верен для 1 задачи или для множества задач ?    

          Наверное Амдалу в 1967 году было трудно представить, что современный многоядерный процессор будет способен решать сразу Несколько задач одновременно, а не Одну пытаться распаралелить.

          Откройте Ваш Диспечер задач на ПК и удивитесь    
          Отредактировано: Region~19:40 20.05.14
          • 0
            Нет аватара achbri20.05.14 20:00:29
            для многозадачности может быть еще хуже так как шедьюлинг задач намного сложнее а просто распредилить паралельные задачи по ядрам топором( одно ядро на ядро системы, каждое другое по другому процессу) почему то так никто не делает, не в курсе почему...
      • 0
        Нет аватара Vedomir21.05.14 09:41:21
        А почему вы решили что Intel не может? Вы про серию процессоров Xeon Phi слышали? Или только про их игровые продукты?

        У текущего поколения производительность в 1 Терафлопс и на их базе построен самый быстрый в мире суперкомпьютер на июнь и ноябрь 2013 года.

        Актуальная версия 7120A - это 61 ядро на частоте 1,2 ГГц и технологии 22 нм.
        • 2
          RadiantConfessor RadiantConfessor22.05.14 08:24:11
          А тут всё зависит от задачи. Видеокарты тож хорошо справляются с полностью параллельными потоками, но плохо решают параллельные задачи другого рода, где есть зависимости по данным вычисляемым в разных ядрах.

          Конечно я знаю про Phi. И дело в том, что они и в нём так и оставили кольцевую двунаправленную шину. При этом они покупали одну фирму, которая разработала новую шину с коммутацией по системе "многосвязные звёзды" (ячеистая сеть), но отказались от её разработки из-за причины, которую я опишу далее.

          Со старой кольцевой шиной Phi быстро решает независимые параллельные потоки, но титанически не может переварить большое количество зависимых потоков, которые исполняются на ядрах больше 10, сильно падает время синхронизации. Представьте, чтобы передать байт от одного ядра к другому может понадобиться от 1 такта до 30. 30 тактов это максимальная пауза между двумя вычислениями выполненными в двух ядрах, это эпические тормоза! Т. е. Phi на широкопараллельных задачах ведёт себя точно также как и видеокарта, а следовательно определённое количество задач исполняемых на Phi выгоднее считать на видеокартах, менееэнергозатратно выйдет, так как в видеокартах ядро легче.

          В общем пока Интел упорно развивал своё ядро, отечественные ученые изучали и развивали шины. И Мультиклетовцы тем и молодцы, что успели запатентовать последний вариант шины "все-со-всеми", который в процессорах пока ни кем реализован не был.

          Шина Мультиклета позволяет создавать до 16 клеток со скоростью межклеточного обмена в 1 такт. Далее идёт объединение кластеров клеток такой же шиной "все-со-всеми", что позволяет создать 16*16=256 клеток с максимальным временем синхронизации всего в три такта! Такая скорость синхронизации между клетками, которые к тому же способны работать абсолютно независимо, позволит эффективно решать как задачи 3D моделирования так и обыкновенные офисные задачи. Тем самым архитектура Мультиклет позволяет отказаться от второго графического ядра в пользу всего одного, универсального ядра.

          Последним сообщением от Интел по R & D был поиск новых систем межядерной коммутации, т. е. и они задумались над этой проблемой, но решить её со значительным прорывом в скорости не получится с сохранением текущей системы команд. Придётся выбирать, или они и дальше поддерживают устаревшую архитектуру или создают нечто кардинально новое и тратят кучу денег на программистов.

          В Эльбрусе используется двухуровневая шина, в которой на внешнем контуре используется двунаправленное кольцо как в Интел, а на внутреннем контуре, между АЛУ, используется система коммутации вида "звезда". Но для повышения производительности используя преимущества системы коммутации вида звезда пришлось применять широкое командное слово, что бы как можно меньше АЛУ простаивало во время исполнения широкой команды. А для этого пришлось написать супернавороченный компилятор и только за этот компилятор им можно вручить научную премию.
          Отредактировано: Zveruga~08:35 22.05.14
          • 1
            Нет аватара Vedomir22.05.14 11:20:04
            Спасибо, интересная информация про шины и Мультиклет.

            Основная сила Intel не столько в прорывных решениях, сколько в правильной стратегии развития и огромной экосистеме накопленный за счет правильных стратегических решений в прошлом. У них были очень крупные технические провалы вроде NetBurst но они всегда их исправляли.

            Собственно общая идеология Intel - это именно вывод на первое место совмести и легости использования и программирования ценой меньшей красоты инженерных решений.

            Классический пример - Pentium, в котором вместо полного отказа от CISC и перехода на несовместимый RISC что теоретически правильнее сделали внутренний транслятор CISC в RISC.

            Нам к сожалению не хватает единой стратегии развития электроники и ИТ в целом на уровне страны, аналогичной развитию авиации или атомной отрасли.

            На хабре недавно обсуждение той же темы было.
            • 1
              RadiantConfessor RadiantConfessor22.05.14 13:06:40
              Для начала нужно отечественную основу разработать, чтобы потом уже стандартизировать её.

              Вот Эльбрус это уже один из стандартов, они сохраняют совместимость на протяжении серии чипов разного поколения.

              А вот Мультиклет ещё "не устаканился". В процессоре R1 появились ассемблерные команды отсутствующие в P1. Причём эти команды не вычислительного характера, а логического. Они позволяют уменьшить число параграфов в коде уменьшая число условных переходов.

              Думаю после отработки чипа R1 Мультиклетовцам можно будет идти уже по экстенсивному пути наращивания мощности без серьёзных изменений архитектуры
    • 0
      Нет аватара achbri20.05.14 18:50:13
      А вот простые задачи интерполирования вообще не параллельны

      приведи простейший пример такой задачи, посмотрю, действительно ли ))

      а вот ява и паралельность это вообще отдельная отрасль проблем явы и паралельности)))
      по концепции явы паралелить байт код должна виртуальная машина, но они в ближайшие лет 30 не будут настолько умны )))