Реклама:

Процессоры с массовым параллелизмом (Massively Parallel Processors, МРР) - это огромные суперкомпьютеры стоимостью в несколько миллионов долларов. Они используются в различных отраслях науки и техники для выполнения сложных вычислений, обработки большого числа транзакций в секунду, управления большими базами данных, и т. д. Изначально это были суперкомпьютеры, предназначенные в основном для научных расчетов, но сейчас многие из них находят применение в коммерции. В каком-то смысле они являются наследниками мощных мэйнфреймов 60-х годов (хотя связь между ними столь же эфемерная, как между воробьем и тиранозавром). В целом, можно говорить, что МРР-мультикомпьютеры вытеснили SIMD-машины, векторные суперкомпьютеры и матричные процессоры с вершины "пищевой" компьютерной цепочки.

В большинстве МРР-машин используются стандартные процессоры. Это могут быть процессоры Intel Pentium, Sun UltraSPARC, IBM RS/6000 и DEC Alpha. Отличает мультикомпьютеры наличие высокопроизводительной коммуникационной сети, по которой можно передавать сообщения с низким временем запаздывания и высокой пропускной способностью. Обе характеристики (время запаздывания и пропускная способность) очень важны, поскольку сообщения в основном невелики по размеру (менее 256 байт), хотя при этом главный вклад в общий трафик вносят большие сообщения (более 8 Кбайт). МРР-мультикомпьютеры поставляются вместе с весьма дорогостоящим программным обеспечением и библиотеками.

Еще одна характеристика МРР - огромные объемы ввода-вывода. С помощью МРР-мультикомпьютеры обычно приходится обрабатывать огромные массивы данных, иногда терабайты. Эти данные должны быть распределены по многочисленным дискам, и их с большой скоростью нужно передавать среди устройств машины.

Наконец, важно помнить о еще одной черте МРР - отказоустойчивости. При наличии тысяч процессоров несколько неисправностей в неделю неизбежны. Прекращать работу системы из-за сбоев в одном из процессоров неприемлемо, особенно если ожидается, что сбои будут случаться каждую неделю. Поэтому в больших МРР-машинах всегда имеется специализированная аппаратная и программная поддержка постоянного мониторинга системы, обнаружения неполадок и их исправления.

Теперь, по идее, надо было бы заняться изучением основных принципов организации МРР-машин, но этих принципов, по правде говоря, совсем не много. На данном этапе достаточно знать, что МРР-машина представляет собой ряд более или менее стандартных вычислительных узлов, связанных друг с другом высокоскоростной коммуникационной сетью. Поэтому далее мы просто рассмотрим несколько конкретных примеров МРР-машин, в частности BlueGene и Red Storm.

BlueGene

В качестве первого примера процессор а с массовым параллелизмом рассмотрим систему IBM BlueGene. Этот проект был задуман IBM в 1999 году как суперкомпьютер для решения вычислительных задач большой сложности в биологии. В частности, биологи считают, что функции белка определяются его трехмерной структурой. Но определение формы даже одной небольшой молекулы белка на суперкомпьютерах того времени потребовало бы нескольких лет вычислений. При этом в человеческом организме около полумиллиона различных белков, некоторые из которых исключительно сложны, и нарушения в структуре любого могут приводить к серьезным наследственным заболеваниям. Очевидно, что для расчета трехмерной структуры всех человеческих белков требуется на несколько порядков повысить вычислительную мощность, и моделирование формы белковой молекулы - лишь одна из задач, на решение которых направлен проект BlueGene. Столь же сложные задачи из молекулярной динамики, моделирования климата, астрономии и даже финансового моделирования также требуют совершенствования суперкомпьютеров.

Почувствовав потребность рынка в суперкомпьютерах, в IBM вложили в разработку и постройку BlueGene 100 млн долларов. В ноябре 2001 года появился и первый заказчик первого компьютера из семейства BlueGene под названием BlueGene/L. Заказчиком стала национальная лаборатория Ливмора, работающая под началом департамента энергетики США.

Целью проекта BlueGene была постройка МРР-машины, которая не только была бы самой быстрой, но и самой эффективной в отношении показателей те-рафлоп/доллар, терафлоп/ватт и терафлоп/м3. По этой причине в IBM отказались от принципов, которые были положены в основу разработки предыдущих МРР-машин и согласно которым применялись самые быстрые компоненты независимо от их цены. Вместо этого было решено выпустить собственный однокристальный компонент, работающий с умеренной скоростью и обладающий низким энергопотреблением, чтобы на его основе построить большую машину с эффективным расположением компонентов. Первая микросхема появилась в июне 2003 года, а первая четверть BlueGene/L из 16 384 вычислительных узлов была полностью работоспособна в ноябре 2004. Тогда же она была сертифицирована как самый быстрый на Земле суперкомпьютер с производительностью 71 терафлоп/с. Потребляя мощность 0,4 мегаватт, эта система оказалась в своем классе победителем и в гонке на эффективность энергопотребления с показателем 177,5 мегафлоп/ватт. В целом система должна содержать 65 536 узлов.

Сердцем системы BlueGene/L является узел, образованный из специализированной микросхемы, структура которой показана на рис. 8.32. Она состоит из двух ядер PowerPC 440, работающих с частотой 700 МГц. PowerPC 440 - это конвейеризованный сдвоенный суперскалярный процессор, популярный во встраиваемых системах. В каждом ядре имеется пара сдвоенных блоков выполнения операций с плавающей точкой (Floating Point Unit, FPU), что в сумме позволяет за один цикл выполнять 4 команды с плавающей точкой. Эти блоки дополнены поддержкой SIMD-команд, которые могут быть полезны при обработке массивов. Таким образом, в отношении производительности этот процессор никак нельзя причислить к рекордсменам.

Процессоры с массовым параллелизмом

Рис. 8.32. Специализированный микропроцессор в системе В1иеСепе/1_

Два процессора на этой микросхеме идентичны, но программируются отдельно. Первый предлагается использовать для вычислений, а второй - для взаимодействия с остальными 65 535 узлами.

На микросхеме поддерживаются три уровня кэширования. Кэш первого уровня раздельный, в нем 32 Кбайт отводится для команд и еще 32 Кбайт - для данных. Кэши первого уровня на двух процессорах не согласованы, так как стандартные ядра PowerPC 400 не поддерживают этой возможности, и было принято решение специально для этого проекта их не модифицировать. Размер объединенного кэша второго уровня составляет 2 Кбайта. В действительности это не столько кэши, сколько буферы предвыборки. В кэшах второго уровня реализован механизм слежения друг за другом, благодаря которому поддерживается их согласованность. Третий уровень представлен объединенным целостным кэшем объемом 4 Мбайт, который совместно используется обоими кэшами второго уровня. Обращение к памяти, которое вызывает кэш-промах на первом уровне и кэш-попадание на втором, обрабатывается 11 тактов. При кэш-промахе на втором уровне кэш-попадание на третьем обрабатывается уже 28 тактов. Наконец, при кэш-промахе на третьем уровне приходится обращаться к главной памяти (DDR SDRAM), на что требуется около 75 тактов.

С кэшами второго уровня соединяется небольшой модуль памяти (SRAM). Модуль SRAM, в свою очередь, соединяется с JTAG-контактами и предназначается для отладки, загрузки и взаимодействия с главным хостом, на котором хранится системный стек, а также для предоставления семафоров и других средств синхронизации.

Для более высокого уровня в IBM была разработана специализированная плата, на которую устанавливается пара описываемых микросхем, а также оперативная память на 1 Гбайт. В будущих версиях на плату предполагается устанавливать до 4 Гбайт памяти. Микросхема показана на 8.33, я, плата - на рис. 8.33, б.

Процессоры с массовым параллелизмом

Рис. 8.33. В1иеОепе/1_: микросхема (а), плата (б), панель (б), стойка (г), система {д)

Платы монтируются на встраиваемой панели, по 16 плат на панель, что дает 32 микросхемы (то есть 32 вычислительных процессора) на панель. Так как на каждой плате имеется SDRAM объемом 1 Гбайт, всего на панели получается 16 Гбайт памяти (рис. 8.33, в).

На следующем уровне 16 этих панелей вставляются в верхнюю часть стойки, другие 16 - в нижнюю, в результате в стойке размером 60 х 90 см оказываются

1024 процессора. Две группы панелей разделены переключателем, благодаря которому одну группу можно извлечь из системы для обслуживания, а на это время подключить резервную группу. Стойка показана на рис. 8.33, г.

Наконец, вся система, состоящая из 65 536 вычислительных и 65 536 коммуникационных процессоров, изображена на рис. 8.33, д. Имея 131 072 сдвоенных блока целочисленной арифметики и 262 144 сдвоенных блока выполнения операций с плавающей точкой, система должна обрабатывать за цикл до 786 432 команд. Однако один из блоков целочисленной арифметики предназначен для подготовки данных для блоков выполнения операций с плавающей точкой, поэтому максимальная производительность снижается до 655 360 команд за цикл, или 4,6 х 1014 команд в секунду. Таким образом, эта система является самым большим компьютером из всех построенных в мире.

Система представляет собой мультикомпьютер в том смысле, что ни один из процессоров не имеет непосредственного доступа к памяти, если не считать 512 Мбайт собственной памяти на плате. Ни у одной пары процессоров нет общей памяти. Кроме того, не поддерживается вызов страниц по требованию, поскольку для размещения страниц нет локальных дисков. Вместо этого в системе имеются 1024 узла ввода-вывода, которые соединяются с дисками и другими периферийными устройствами.

Несмотря на исключительные размеры системы, она довольно проста и в ней не используются какие-либо особенные технологии, за исключением, разве что, чрезвычайно плотного размещения узлов. Это не случайно, так как основными целями были надежность и доступность. Соответственно, весьма тщательно были спроектированы системы питания, охлаждения, кабельные системы и т. д., все это позволило поднять среднее время наработки на отказ до 10 дней.

Для подключения всех микросхем требуется масштабируемая и высокопроизводительная схема соединений. В качестве топологии был выбран трехмерный тор размером 64 х 32 х 32. Таким образом, каждой микросхеме требуются 6 линий связи: 2 для соседей, логически расположенных сверху и снизу, 2 для соседей с севера и юга, 2 для соседей с запада и востока (см. соответствующие обозначения на рис. 8.32). Конструктивно, каждая стойка на 1024 узла образует тор размером 8 х 8 х 16. Пара соседних стоек соединяется в тор размером 8 х 8 х 32. Четыре пары стоек из одного ряда образуют тор размером 8 х 32 х 32, и, наконец, все 8 рядов дают тор размером 64 х 32 х 32.

Таким образом, все соединения являются двухточечными и работают на скорости 1,4 Гбит/с. Так как от каждого из 65 536 узлов к "следующим по порядку" узлам идут три линии связи, по одной на каждое измерение, общая пропускная способность системы составляет 275 Тбайт/с. Информационная емкость книги, которую вы держите в руках, включая рисунки в формате Encapsulated PostScript, составляет около 300 млн. бит, таким образом, BlueGene/L может за секунду передать внутри себя до 900 тысяч ее копий. Куда девать эти копии, и кто мог бы их прочесть - эти вопросы мы оставляем читателю.

Взаимодействие в трехмерном торе поддерживается в форме виртуальной сквозной маршрутизации (virtual cut through routing). Этот подход в чем-то напоминает коммутацию с сохранением и продвижением пакетов (см. раздел "Сопроцессоры"), за исключением того, что перед дальнейшим продвижением по линии связи пакеты целиком не сохраняются. Как только очередной байт пакета прибывает на транзитный узел, он передается вдоль маршрута далее, не дожидаясь получения всего пакета. Допускается как динамическая (адаптивная), так и статическая (фиксированная) маршрутизация. Для реализации виртуальной сквозной маршрутизации на микросхеме имеются несколько специализированных устройств.

В дополнение к основному трехмерному тору, обеспечивающему обмен данными, есть и другие коммуникационные сети. Вторая сеть имеет древовидную структуру. В системах с высокой степенью параллелизма, таких как BlueGene/L, для выполнения многих операций требуется участие всех узлов. В качестве примера рассмотрим задачу поиска наименьшего из 65 536 значений, каждое из которых хранится в отдельном узле. Если все узлы связаны в древовидную структуру, каждые два узла могут отправить вышестоящему узлу свои значения, тот может выбрать из них меньшее и передать его выше. При таком подходе в корневой узел попадает лишь необходимый минимум информации (представьте, если бы каждый из 65 535 узлов непосредственно передал сообщение корневому узлу).

Третья сеть используется для глобальных приостановок и прерываний. Некоторые алгоритмы требуют поэтапного выполнения, когда каждый узел, закончив свой этап, не переходит к следующему, а ожидает, пока тот же этап закончат все остальные. Особая барьерная сеть позволяет программно задавать эти этапы и приостанавливать вычисления на всех процессорах, завершивших свой этап раньше остальных. Когда все процессоры завершают свой этап, вычисления продолжаются. Та же барьерная сеть используется для прерываний.

Четвертая и пятая сети построены на основе технологии Gigabit Ethernet. Одна из них соединяет узлы ввода-вывода с файловыми серверами, не входящими в систему BlueGene/L, а также с Интернетом; другая используется для отладки системы.

На каждом вычислительном и коммуникационном узле работает специализированная малая операционная система, поддерживающая одного пользователя и один процесс. Процесс может иметь два программных потока, по одному на каждый процессор в узле. Эта простая структура была выбрана за ее высокую производительность и надежность.

Для повышения надежности прикладная программа может создать точку сохранения, вызвав библиотечную процедуру. После того как в сети закончится передача всех еще не переданных сообщений, можно создать глобальную точку сохранения, чтобы при сбое системы задание можно было запустить с этой точки, а не с самого начала. Узлы ввода-вывода работают под управлением традиционной ОС Linux и поддерживают многозадачность. Дополнительную информацию о BlueGene/L можно найти в [2, 7, 8, 26].

Red Storm

В качестве второго примера систем МРР рассмотрим разработанную в национальной лаборатории Sandia машину Red Storm (также называемую Thor's hammer). Лаборатория Sandia выполняет секретные и несекретные задания департамента энергетики США. Среди секретных работ можно назвать моделирование ядерных взрывов, требующее очень интенсивных вычислений.

Sandia давно в этом бизнесе и многие годы обладает самыми мощными суперкомпьютерами. В течение десятилетий здесь отдавалось предпочтение векторным суперкомпьютером, но в определенный момент, благодаря развитию технологии и изменениям в экономике, на смену им стали приходить МРР-машины. Начиная с 2002 года, использовавшаяся тогда МРР-машина под названием ASCI Red, стала все сильнее "пробуксовывать". Хотя в ней было 9460 узлов, вместе они предлагали лишь 1,2 Тбайт ОЗУ и 13,5 Тбайт дискового пространства, к тому же система в целом с трудом поддерживала производительность 3 тера-флоп/с. Поэтому в 2002 году в Sandia решили заменить ASCI Red, выбрав в качестве долгосрочного поставщика суперкомпьютеров компанию Cray Research.

Новая система была поставлена в августе 2004 года, что очень быстро для разработки и реализации столь большой машины. Причина такой оперативности состоит в том, что мультикомпьютер Red Storm построен почти исключительно из обычных имеющихся в продаже компонентов. Исключение составляет только специализированная микросхема, используемая для маршрутизации.

Для Red Storm был выбран процессор Opteron производства компании AMD. Этот выбор обусловили несколько его ключевых характеристик. Первая - поддержание трех режимов работы. В унаследованном режиме на этом процессоре без всякой модификации можно выполнять обычные программы, рассчитанные на Pentium. В режиме совместимости операционная система работает как 64-разрядная и может адресовать до 264 байт памяти, в то время как прикладные программы являются 32-разрядными. Наконец, в 64-разрядном режиме машина целиком становится 64-разрядной и может адресовать все 64-разрядное адресное пространство. Причем в 64-разрядном режиме одновременно могут работать и 32-разрядные, и 64-разрядные программы, что упрощает обновление системы.

Еще одной ключевой характеристикой Opteron является тщательная проработка вопросов пропускной способности памяти. В последние годы процессоры становились все быстрее и быстрее, заметно опережая в этой гонке память. В результате, в случае кэш-промаха в кэше второго уровня время обращения к памяти значительно возрастает. Инженеры AMD установили в процессор Opteron контроллер памяти, работающий на частоте процессора, а не на частоте шины памяти, что повышает производительность памяти. Контроллер может работать с восемью модулями DIMM по 4 Гбайт каждый, что дает максимальный объем памяти в 32 Гбайт. В системе Red Storm для каждого процессора Opteron устанавливается 2-4 Гбайт, но нет сомнений, что со временем, по мере удешевления памяти, это значение будет увеличено. Другая возможность повышения производительности системы - замена процессоров Opteron двухъядерными моделями, что теоретически должна удвоить вычислительную мощность.

Каждому процессору Opteron выделяется собственный специализированный сетевой процессор под названием Seastar производства IBM. Это критически важный элемент системы, так как практически весь обмен информацией между процессорами происходит через сеть Seastar. Без высокоскоростной коммуникационной сети, функционирование которой поддерживают эти микросхемы, система быстро бы "утонула" в данных.

Хотя процессоры Opteron - это обычные процессоры, имеющиеся в продаже, в Red Storm они устанавливаются в собственные специализированные платы

(рис. 8.34). На каждой такой плате располагаются 4 процессора Opteron, оперативная память на 4 Гбайт, 4 процессора Seastar, процессор RAS (Reliability, Availability and Service - надежность, работоспособность и удобство эксплуатации), микросхема Ethernet на 100 Мбит/с.

Процессоры с массовым параллелизмом

Рис. 8.34. Размещение компонентов Red Storm

Набор из восьми плат устанавливается в панель и вставляется в кассету. В каждой стойке есть 3 таких кассеты, что позволяет установить 96 процессоров Opteron, а также необходимые источники питания и систему охлаждения. Вся система состоит из 108 стоек, что дает 10 368 процессоров с модулями памяти SDRAM объемом 10 Тбайт. Каждый процессор имеет доступ только к своему модулю SDRAM, общей памяти нет. Теоретическая вычислительная мощность системы равна 41 терафлоп/с.

Для взаимосвязи отдельных центральных процессоров Opteron служат специализированные маршрутизаторы Seastar, по одному маршрутизатору на процессор. Они соединены друг с другом в трехмерный тор размером 27 х 16 х 24, в каждом узле которого находится один маршрутизатор. У каждого маршрутизатора 7 двусторонних высокоскоростных (24 Гбит/с) линий связи. Шесть из них ведут к соседям: на север, восток, юг, запад, вверх и вниз, а еще одна соединяет маршрутизатор с процессором Opteron. Время передачи между соседними узлами решетки составляет 2 мкс. Для прохождения всего набора вычислительных узлов требуется 5 мкс. Еще одна сеть построена на основе технологии Ethernet со скоростью 100 Мбит/с и служит для обслуживания и поддержки системы.

В дополнение к 108 вычислительным стойкам в системе имеется 16 стоек для процессоров ввода-вывода и обслуживания. В каждом из них установлено 32 процессора С^егоп. Из этих 512 процессоров 256 отвечают за ввод-вывод и 256 - за обслуживание. Остальное место занимают диски, организованные в КАШ-массивы уровня 3 и 5, каждый с диском четности и диском "горячей" замены. Общий объем дискового пространства составляет 240 Тбайт. Объединенная производительность дисковой системы равна 50 Гбайт/с.

Система при помощи механических переключателей разбивается на две части, секретную и несекретную, которые при необходимости можно разъединять. Из общего числа процессоров 2688 всегда находятся в секретной секции, еще 2688 - всегда в несекретной. Остальные 4992 вычислительных процессора можно переключать между секциями, как показано на рис. 8.35. Все процессоры Opteron из секретной секции имеют по 4 Гбайт памяти, все остальные - по 2 Гбайт. Процессоры ввода-вывода и обслуживания поделены между секциями.

/

Процессоры с массовым параллелизмом

Рис. 8.35. Система Red Storm, вид сверху

Вся система располагается в отдельном здании площадью 2000 м2, спроектированном и построенном так, чтобы в будущем при необходимости можно было бы расширить систему до 30 000 процессоров. Энергопотребление вычислительных узлов составляет 1,6 МВт, еще 1 МВт потребляют диски. Вместе с системой вентиляции и кондиционирования воздуха общее энергопотребление равно 3,5 МВт.

Стоимость аппаратного и программного обеспечения компьютера равна 90 млн долларов, здание и вентиляция стоят еще 9 млн, что в общем дает немногим меньше 100 млн. долларов, хотя часть этих денег составляют единовременные расходы на саму разработку. То есть если вы хотите получить точную копию, приготовьте порядка 60 млн. долларов. К тому же в Cray рассчитывают продавать уменьшенные версии этой системы для правительственных и частных организаций под названием ХЗТ.

Вычислительные узлы работают под управлением облегченного ядра, названного Catamount ("дикая кошка"). Узлы ввода-вывода управляются обычной ОС Linux с небольшими дополнениями, связанными с поддержкой интерфейса MPI (см. далее в этой главе). В RAS-узлах работает урезанная версия Linux. На Red

Storm можно запускать имеющиеся в изобилии программы для ASCI Red, среди которых есть программы выделения процессоров, планировщики, MPI-библио-теки, математические библиотеки, прикладные программы.

Для такой большой системы вопросы надежности выходят на первый план. На каждой плате имеется RAS-процессор, предназначенный для обслуживания системы, а также специализированные аппаратные средства. Целью разработчиков было обеспечить показатель MTBF (Mean Time Between Failures - среднее время наработки на отказ), равный 50 часам. У аппаратного обеспечения ASCI Red этот показатель был равен 900 часам, но все портила операционная система - полный отказ системы случался каждые 40 часов. И хотя новая аппаратура намного надежнее старой, слабым местом по-прежнему остаются программы.

Более подробные сведения о Red Storm можно найти в [30].

Сравнение систем BlueGene/L и Red Storm

Системы BlueGene/L и Red Storm, будучи схожими во многих отношениях, имеют немало отличий, поэтому сравнить их друг с другом достаточно интересно. В табл. 8.6 приведены значения некоторых их ключевых параметров.

Таблица 8.6. Сравнение систем BlueGene/7 и Red Storm

Параметр

BlueGene/L

Red Storm

Центральный процессор

32-разрядный PowerPC

64-разрядный Opteron

Частота

700 МГц

2 ГГц

Количество вычислительных процессоров

65 536

10 368

Количество процессоров на плате

Количество процессоров в стойке

1024

Количество вычислительных стоек

Производительность терафлоп/с

Объем памяти на одном процессоре

512 Мбайт

2-4 Гбайт

Общий объем памяти

32 Тбайт

10 Тбайт

Маршрутизатор

PowerPC

Seastar

Количество маршрутизаторов

65 536

10 368

Топология

Тор размером 64 х 32 х 32

Тор размером 27 х 16 х 24

Дополнительные сети

Gigabit Ethernet

Fast Ethernet

Возможность деления на секции

Нет

Есть

ОС для вычислительных узлов

Специализированная

Специализированная

ОС ввода-вывода

Linux

Linux

Производитель

IBM

Cray Research

Стоимость

Высокая

Высокая

Эти две машины построены примерно в одно и то же время, поэтому различия между ними определяются не технологией, а склонностями разработчиков, а также, в некоторой степени, различиями между компаниями IBM и Cray. Система BlueGene/L с самого начала была спроектирована как коммерческая машина, ориентированная на продажу биотехнологическим, фармацевтическим и другим компаниям. В противоположность этому, система Red Storm была построена по индивидуальному заказу лаборатории Sandia, к тому же компания Cray планирует выставлять на продажу уменьшенные версии системы.

Подход IBM очень прост: из существующих ядер построить, хотя и специализированную, но низкоскоростную и дешевую в массовом производстве микросхему, а затем очень большое количество этих микросхем объединить не слишком скоростной сетью. Другой, но столь же понятный подход выбрали в Sandia: взять наиболее мощный из имеющихся в продаже 64-разрядный процессор, снабдить его высокоскоростным специализированным маршрутизатором и большим объемом памяти, получив гораздо более мощные вычислительные узлы, чем узлы BlueGene/L. Таких узлов потребуется гораздо меньше, поэтому и обмен информацией между ними будет происходить, соответственно, быстрее.

Каждое решение повлияло на размещение элементов по-своему. Благодаря тому, что в IBM разработали специализированную микросхему, объединившую процессор и маршрутизатор, удалось добиться более высокой плотности упаковки - 1024 процессора в стойке. В Sansia на каждый узел установили обычный массовый процессор и память объемом 2-4 Гбайт, поэтому в стойке удалось разместить только 96 вычислительных процессоров. Как следствие, Red Storm занимает больше места и потребляет больше энергии, чем BlueGene/L.

В экзотическом мире национальных исследовательских лабораторий главным критерием является производительность. По этому параметру BlueGene/L выигрывает, так как производительность этой системы составляет 71 терафлоп/с против 41 терафлоп/с у Red Storm. Но нельзя забывать, что конструкция Red Storm расширяема, поэтому, "бросив в бой" еще 10 368 процессоров Opteron (например, перейдя к двухъядерной технологии), Sandia, вероятно, сможет поднять производительность до 82 терафлоп/с. Однако и IBM в состоянии ответить на это некоторым увеличением тактовой частоты (действительно, частота 700 МГц не слишком впечатляет). Другими словами, МРР-суперкомпьютеры еще не подошли к физическому пределу своей мощности, и будут развиваться еще долгие годы.

Коммуникационные сети || Оглавление || Кластерные вычисления