El CESCA dispone de tres computadores de altas
prestaciones:
SGI Altix 3700 Bx2: 128 procesadores Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de memoria principal, 5,99 TB en disco, un Rpunta de 819,20 Gflop/s y un Rmáx estimado de 720,60 Gflop/s.
HP CP4000: 33 nodos DL145 G2 (2 AMD64 Opteron 275 de doble núcleo, 2,2 GHz, 64 KB/1 MB por cada núcleo), 528 GB de memoria principal, 9,41 TB en disco, un Rpunta de 580,80 Gflop/s y un Rmáx estimado de 365,91 Gflop/s, interconectados mediante 3 redes GigabitEthernet (una externa y dos internas, una para gestión y otra para càlculo).
Bull NovaScale: 28 nodos R422E1 (2 Xeon E5472 de cuatro núcleos, 3,0GHz, 64 KB/3 MB por núcleo), 896GB de memoria principal, 31,72 TB de disco, Rpunta 2,68 Tflops/s y Rmáx estimado de 2,24 Tflop/s, interconectados con 3 redes; dos Gigabit Ethernet (una de gestión y una de servicios) y una InfiniBand para cálculo.
- Todas las máquinas tienen procesadores superescalares pero se diferencian en el acceso a la memoria: la HP CP4000 y el Bull NovaScale tiene memoria distribuida, mientras el SGI Altix 3700 es de memoria compartida.
En el HP CP4000 cada chip AMD64 Opteron O275 lleva integrado en el silicio su propio controlador de memoria. Este controlador se conecta dentro del chip mediante un crossbar interno a fin de crear la estructura de sistema. El ancho de banda de acceso a memoria de cada controlador es de 6,4 GB/s. Así, un nodo DL145 G2 que consta de 2 chips, consigue un ancho de banda total de 12,8 GB/s. La latencia de un núcleo con su propia memoria está en 60 ns y con la memoria del otro chip está en 90 ns.
En cuanto a Bull NovaScale, el procesador Xeon 5472 dispone de un bus dedicado para cada uno de los dos zócalos que lo forman. Esto permite a cada zócalo de 2 a 4 núcleos tener un ancho de banda decicada para operar con el resto del sistema sin iinterferir con el otro. Para cada zócalo hay un ancho de banda de 10,5 GB/s ya que el bus trabaja a 1.600 MHz. La latencia de lectura es de 98ns.
|
|
SGI Altix Itanium2 |
HP CP4000 Opteron 275 |
Bull NovaScale Xeon E5472 |
|
Frequencia (GHz) |
1,6 | 2,2 |
3,0 |
| Ancho de bus | 128 | 128 | 128 |
| Cache
(L1 KB/L2 MB/L3 MB) |
16/0,25/6 | 128/2/- | 256/12/- |
|
Rpunta (Gflop/s) |
6,4 | 8,8 |
48,0 |
|
LINPACK TPP (Gflop/s) |
5,94 | 7,15 |
4,60 |
|
LINPACK 100x100 (Gflop/s) |
1,77 | 1,60 |
1,30 |
|
SPECint2000/2006 |
1.441/- | 1.515/- | -/26,50 |
|
SPECfp2000/2006 |
2.647/- | 1.830/- | -/23,4 |
Los datos son por procesador, teniendo en cuenta que un procesador Opteron 275 está formado por dos núcleos y un Xenon E5472 por cuatro núcleos.
Todos estos sistemas están soportados por el hardware
del Servicio de
Almacenamiento de Datos.
Glosario
Los procesadores
superescalares pueden iniciar la ejecución
simultánea de varias instrucciones escalares en
paralelo de forma que se puedan operar varios elementos de un
vector dentro de una misma iteración.
Si la memoria está compartida entre todos los
procesadores, es decir, hay un espacio único de
direcciones para todos, entonces la programación es
mucho más sencilla ya que los datos se pueden colocar
en cualquier módulo de memoria ya que su acceso es
uniforme para todos los procesadores.
Si la memoria está distribuida entre los
procesadors, es decir, cada procesador tiene acceso a su
propia memoria, entonces la programación es más
compleja ya que cuando los datos a usar por un procesador
están al espacio de direcciones de otro, hace falta
solicitarlas y transferirlas a través de mensajes.
Así, hace falta impulsar la localización de los
datos para minimizar la comunicación entre
procesadorws y obtener un buen rendimiento. La ventaja que
proporcionan es su escalabilidad, es decir, el sistema puede
crecer a un número más grande de procesadores
que los sistemas de memoria compartida y, por tanto, es
más idóneo para las máquinas
paralelas.
Hay un tercer tipo de organización, la memoria distribuida compartida,
que combina las ventajas de las dos organizaciones: la
memoria está físicamente distribuida y, por
tanto, el sistema es escalable, pero se accede con un espacio
único de direcciones y, consecuentemente, es
fácilmente programable.
Para optimizar el rendimiento de un supercomputador, uno
de los factores a considerar es el tamaño de la
memoria cache
disponible por procesador:
- Para el Itanium2 del Altix 3700, 16 KB de nivel 1, 256 KB de nivel 2 y 6 MB de nivel 3.
- Para el Opteron 275 del CP4000, 64 KB de nivel 1 para datos y 1 MB de nivel 2, por cada núcleo.
- Para el Xeon 5472 del Bull NovaScale, 256 KB de nivel 1 y 12 MB de nivel 2.
El Rmáx es el mejor resultado obtenido en la ejecución del benchmark "Linpack" en paralelo (que resuelve un denso sistema de ecuaciones lineales) en diferentes tamaños. El tamaño con el cual se llega al Rmáx es el Nmáx.

Bienvenida

