volver ¿Qué tenemos? posterior último

Compiladores - Librerías - Herramientas de desarrollo - Herramientas de visualización - Aplicaciones - Visión histórica


Hardware

El CESCA dispone de siete computadores de altas prestaciones:

Hewlett-Packard N4000: 8 procesadores PA8500 (440 MHz), 4 GB de memoria principal, 227 GB en disco, un rendimiento punta (Rpunta) de 14,08 Gflop/s y máximo (Rmáx) de 10,22 Gflop/s.

Compaq AlphaServer HPC320: 8 nodos ES40 (4 EV68, 833 MHz, 64 KB/8 MB), 28 GB de memoria principal, 892 GB en disco y un Rpunta de 53,31 Gflop/s y Rmáx de 40,84 Gflop/s, interconectados con Memory Channel II de 100 MB/s.

beowulf de Compaq: 8 nodos DS10 (1 EV67, 600 MHz, 64 KB/2 MB), 4 GB de memoria principal, 291 GB en disco, un Rpunta de 9,60 Gflop/s y Rmáx estimado de 7,68 Gflop/s, interconectados con Myrinet de 2 Gbps.

HP Alphaserver GS1280: 16 procesadores 21364 EV7 (1.150 MHz, 64 KB/1,75 MB), 16 GB de memoria principal, 655,2 GB en disco, un Rpunta de 36,80 Gflop/s y Rmáx de 31,28 Gflop/s.

HP rx2600: 2 procesadores Itanium2 (1.000 MHz, 32 KB/256 KB/3 MB), 2 GB de memoria principal, 146 GB en disco, un Rpunta de 8,00 Gflop/s y Rmáx estimado de 7,20 Gflop/s.

SGI Altix 3700 Bx2: 128 procesadores Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de memoria principal, 6,13 TB en disco, un Rpunta de 819,20 Gflop/s y un Rmáx estimado de 720,60 Gflop/s.

HP CP4000: 16 nodos DL145 G2 (2 AMD64 Opteron 275 de doble núcleo, 2,2 GHz, 64 KB/1 MB por cada núcleo), 256 GB de memoria principal, 4,56 TB en disco, un Rpunta de 281,60 Gflop/s y un Rmáx estimado de 177,41 Gflop/s, interconectados mediante 3 reded GigabitEthernet (una externa y dos internas, una para gestión y otra para càlculo).

Todas las máquinas tienen procesadores superescalares pero se diferencian en el acceso a la memoria: tanto las Compaq como la HP CP4000 tienen memoria distribuida, mientras que las demás son de memoria compartida.

La interconexión procesadores-memoria del N4000 se realiza mediante dos buses con una velocidad agregable total de 3,8 GB/s y una latencia a memoria de 130 ns.

La interconexión procesadores-memoria del ES40 es también mediante dos buses con una velocidad agregable total de 2,67 GB/s.

Por lo que respecta al GS1280, cada procesador dispone de dos controladores en memoria con una capacidad añadida de 12,8 Gb/s; los procesadores están interconectados por una red toroidal y las latencias de acceso son asimétricas desde 75 ns para la memoria local a 270 ns para la más remota.

En el caso del Altix 3700, considerando que dos procesadores forman un nodo, la conexión procesador-memoria dentro de un mismo nodo es a través de un SHub 1.2 ASIC. Cada SHub soporta hasta 10,2 GB/s de ancho de banda punta con la memoria. Este sería el caso de memoria local. En el caso que se hubiera de acceder a la memoria de otros nodos, la conexión se realiza a través de dos canales de salida Numalink 4 a 6,4 GB/s. Estas conexiones proporcionan unas latencias que van desde 129 ns (memoria local) hasta 559 ns en el peor de los casos (memoria remota).

En el HP CP4000 cada chip AMD64 Opteron O275 lleva integrado en el silicio su propio controlador de memoria. Este controlador se conecta dentro del chip mediante un crossbar interno a fin de crear la estructura de sistema. El ancho de banda de acceso a memoria de cada controlador es de 6,4 GB/s. Así, un nodo DL145 G2 que consta de 2 chips, consigue un ancho de banda total de 12,8 GB/s. La latencia de un núcleo con su propia memoria está en 60 ns y con la memoria del otro chip está en 90 ns.

Características técnicas y rendimiento de los diversos procesadores


HP
N4000
PA8500
CPQ
beowulf
EV67
CPQ
HPC320
EV68
HP
GS1280
EV7
HP
rx2600
Itanium2
SGI
Altix
Itanium2
HP
CP4000
Opteron 275
Frecuencia (MHz)
440
600
833
1.150
1.000
1.600
2.200
Ancho de bus
64
64
64
128
128
128
128
Cache (L1 KB/L2 MB/L3 MB)
1.024/-/-
64/2/-
64/8/-
64/1,75/-
32/0,25/3
16/0,25/6
128/2/-
Rpunta (Mflop/s)
1.760
1.200
1.666
2.300
4.000
6.400
8.800
LINPACK TPP
1.290
877,5
1.277
1.900
3.528
5.937
7.153
LINPACK 100x100
375
470,8
639
950
1.102
1.765
1.598
SPECint2000
n/d
355
565
900
n/d
1.441
1.515
SPECfp2000
n/d
400
777
1.450
1.427
2.647
1.830

Rendimientos del EV67 estimados a partir de 616 MHz.


Además, se dispone:

Glosario

Los procesadores superescalares pueden iniciar la ejecución simultánea de varias instrucciones escalares en paralelo de forma que se puedan operar varios elementos de un vector dentro de una misma iteración. En nuestro caso, los PA8500 y los de las Compaq pueden iniciar cuatro.

Si la memoria está compartida entre todos los procesadores, es decir, hay un espacio único de direcciones para todos, entonces la programación es mucho más sencilla ya que los datos se pueden colocar en cualquier módulo de memoria ya que su acceso es uniforme para todos los procesadores.

Si la memoria está distribuida entre los procesadors, es decir, cada procesador tiene acceso a su propia memoria, entonces la programación es más compleja ya que cuando los datos a usar por un procesador están al espacio de direcciones de otro, hace falta solicitarlas y transferirlas a través de mensajes. Así, hace falta impulsar la localización de los datos para minimizar la comunicación entre procesadorws y obtener un buen rendimiento. La ventaja que proporcionan es su escalabilidad, es decir, el sistema puede crecer a un número más grande de procesadores que los sistemas de memoria compartida y, por tanto, es más idóneo para las máquinas paralelas.

Hay un tercer tipo de organización, la memoria distribuida compartida, que combina las ventajas de las dos organizaciones: la memoria está físicamente distribuida y, por tanto, el sistema es escalable, pero se accede con un espacio único de direcciones y, consecuentemente, es fácilmente programable.

Para optimizar el rendimiento de un supercomputador, uno de los factores a considerar es el tamaño de la memoria cache disponible por procesador:

El rendimiento de los supercomputadores se mide en Gflop/s: 1 Gflop/s indica que el procesador realiza 109 operaciones aritméticas (tipo sumas o multiplicaciones) de números reales, codificados en formato de coma flotante de 64 bits, por segundo.

El Rmáx es el mejor resultado obtenido en la ejecución del benchmark "Linpack" en paralelo (que resuelve un denso sistema de ecuaciones lineales) en diferentes tamaños. El tamaño con el cual se llega al Rmax es el Nmax.

Última actualización: AG, 12-09-06 volver posterior