volver Hardware posterior último

Visión histórica - Fotografías históricas


El CESCA dispone de tres computadores de altas prestaciones:

SGI Altix 3700 Bx2: 128 procesadores Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de memoria principal, 5,99 TB en disco, un Rpunta de 819,20 Gflop/s y un Rmáx estimado de 720,60 Gflop/s.

HP CP4000: 33 nodos DL145 G2 (2 AMD64 Opteron 275 de doble núcleo, 2,2 GHz, 64 KB/1 MB por cada núcleo), 528 GB de memoria principal, 9,41 TB en disco, un Rpunta de 580,80 Gflop/s y un Rmáx estimado de 365,91 Gflop/s, interconectados mediante 3 redes GigabitEthernet (una externa y dos internas, una para gestión y otra para càlculo).

Bull NovaScale:  28 nodos R422E1 (2 Xeon E5472 de cuatro núcleos, 3,0GHz, 64 KB/3 MB por núcleo), 896GB de memoria principal, 31,72 TB de disco, Rpunta 2,68 Tflops/s y Rmáx estimado de 2,24 Tflop/s, interconectados con 3 redes; dos Gigabit Ethernet (una de gestión y una de servicios) y una InfiniBand para cálculo.


Todas las máquinas tienen procesadores superescalares pero se diferencian en el acceso a la memoria: la HP CP4000  y el Bull  NovaScale tiene memoria distribuida, mientras el SGI Altix 3700 es de memoria compartida.
 
En el caso del Altix 3700, considerando que dos procesadores forman un nodo, la conexión procesador-memoria dentro de un mismo nodo es a través de un SHub 1.2 ASIC. Cada SHub soporta hasta 10,2 GB/s de ancho de banda punta con la memoria. Este sería el caso de memoria local. En el caso que se hubiera de acceder a la memoria de otros nodos, la conexión se realiza a través de dos canales de salida Numalink 4 a 6,4 GB/s. Estas conexiones proporcionan unas latencias que van desde 129 ns (memoria local) hasta 559 ns en el peor de los casos (memoria remota).

En el HP CP4000 cada chip AMD64 Opteron O275 lleva integrado en el silicio su propio controlador de memoria. Este controlador se conecta dentro del chip mediante un crossbar interno a fin de crear la estructura de sistema. El ancho de banda de acceso a memoria de cada controlador es de 6,4 GB/s. Así, un nodo DL145 G2 que consta de 2 chips, consigue un ancho de banda total de 12,8 GB/s. La latencia de un núcleo con su propia memoria está en 60 ns y con la memoria del otro chip está en 90 ns.

En cuanto a Bull NovaScale, el procesador Xeon 5472  dispone de un bus dedicado para cada uno de los dos zócalos que lo forman. Esto permite a cada zócalo de 2 a 4 núcleos tener un ancho de banda decicada para operar con el resto del sistema sin iinterferir con el otro. Para cada zócalo hay un ancho de banda de 10,5 GB/s ya que el bus trabaja a 1.600 MHz. La latencia de lectura es de 98ns.


Características técnicas y rendimiento de los diversos procesadores



SGI
Altix
Itanium2
HP
CP4000
Opteron 275
Bull
NovaScale
Xeon E5472
Frequencia (GHz)
1,6 2,2 3,0
Ancho de bus 128 128 128
Cache (L1 KB/L2 MB/L3 MB)
16/0,25/6 128/2/- 256/12/-
Rpunta (Gflop/s)
6,4 8,8 48,0
LINPACK TPP (Gflop/s)
5,94 7,15 4,60
LINPACK 100x100 (Gflop/s)
1,77 1,60 1,30
SPECint2000/2006
1.441/- 1.515/- -/26,50
SPECfp2000/2006
2.647/- 1.830/- -/23,4

Los datos son por procesador, teniendo en cuenta que un procesador Opteron 275 está formado por dos núcleos y un Xenon E5472 por cuatro núcleos.


Todos estos sistemas están soportados por el hardware del Servicio de Almacenamiento de Datos.

Glosario

Los procesadores superescalares pueden iniciar la ejecución simultánea de varias instrucciones escalares en paralelo de forma que se puedan operar varios elementos de un vector dentro de una misma iteración.

Si la memoria está compartida entre todos los procesadores, es decir, hay un espacio único de direcciones para todos, entonces la programación es mucho más sencilla ya que los datos se pueden colocar en cualquier módulo de memoria ya que su acceso es uniforme para todos los procesadores.

Si la memoria está distribuida entre los procesadors, es decir, cada procesador tiene acceso a su propia memoria, entonces la programación es más compleja ya que cuando los datos a usar por un procesador están al espacio de direcciones de otro, hace falta solicitarlas y transferirlas a través de mensajes. Así, hace falta impulsar la localización de los datos para minimizar la comunicación entre procesadorws y obtener un buen rendimiento. La ventaja que proporcionan es su escalabilidad, es decir, el sistema puede crecer a un número más grande de procesadores que los sistemas de memoria compartida y, por tanto, es más idóneo para las máquinas paralelas.

Hay un tercer tipo de organización, la memoria distribuida compartida, que combina las ventajas de las dos organizaciones: la memoria está físicamente distribuida y, por tanto, el sistema es escalable, pero se accede con un espacio único de direcciones y, consecuentemente, es fácilmente programable.

Para optimizar el rendimiento de un supercomputador, uno de los factores a considerar es el tamaño de la memoria cache disponible por procesador:

El rendimiento de los supercomputadores se mide en Gflop/s: 1 Gflop/s indica que el procesador realiza 109 operaciones aritméticas (tipo sumas o multiplicaciones) de números reales, codificados en formato de coma flotante de 64 bits, por segundo.

El Rmáx es el mejor resultado obtenido en la ejecución del benchmark "Linpack" en paralelo (que resuelve un denso sistema de ecuaciones lineales) en diferentes tamaños. El tamaño con el cual se llega al Rmáx es el Nmáx.

Última actualización: IB, 24-02-10 volver posterior