¿Qué tenemos?

Compiladores -
Librerías -
Herramientas de
desarrollo - Herramientas de
visualización - Aplicaciones -
Visión
histórica
Hardware
El CESCA dispone de siete computadores de altas prestaciones:Hewlett-Packard N4000: 8 procesadores PA8500 (440 MHz), 4 GB de memoria principal, 227 GB en disco, un rendimiento punta (Rpunta) de 14,08 Gflop/s y máximo (Rmáx) de 10,22 Gflop/s.
Compaq AlphaServer HPC320: 8 nodos ES40 (4 EV68, 833 MHz, 64 KB/8 MB), 28 GB de memoria principal, 892 GB en disco y un Rpunta de 53,31 Gflop/s y Rmáx de 40,84 Gflop/s, interconectados con Memory Channel II de 100 MB/s.
beowulf de Compaq: 8 nodos DS10 (1 EV67, 600 MHz, 64 KB/2 MB), 4 GB de memoria principal, 291 GB en disco, un Rpunta de 9,60 Gflop/s y Rmáx estimado de 7,68 Gflop/s, interconectados con Myrinet de 2 Gbps.
HP Alphaserver GS1280: 16 procesadores 21364 EV7 (1.150 MHz, 64 KB/1,75 MB), 16 GB de memoria principal, 655,2 GB en disco, un Rpunta de 36,80 Gflop/s y Rmáx de 31,28 Gflop/s.
HP rx2600: 2 procesadores Itanium2 (1.000 MHz, 32 KB/256 KB/3 MB), 2 GB de memoria principal, 146 GB en disco, un Rpunta de 8,00 Gflop/s y Rmáx estimado de 7,20 Gflop/s.
SGI Altix 3700 Bx2: 128 procesadores Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de memoria principal, 6,13 TB en disco, un Rpunta de 819,20 Gflop/s y un Rmáx estimado de 720,60 Gflop/s.
HP CP4000: 16 nodos DL145 G2 (2
AMD64 Opteron 275 de doble núcleo, 2,2 GHz, 64 KB/1 MB
por cada núcleo), 256 GB de memoria principal, 4,56 TB
en disco, un Rpunta de 281,60 Gflop/s y un
Rmáx estimado de 177,41 Gflop/s,
interconectados mediante 3 reded GigabitEthernet (una externa
y dos internas, una para gestión y otra para
càlculo).
- Todas las máquinas tienen procesadores superescalares pero se diferencian en el acceso a la memoria: tanto las Compaq como la HP CP4000 tienen memoria distribuida, mientras que las demás son de memoria compartida.
La interconexión procesadores-memoria del N4000 se realiza mediante dos buses con una velocidad agregable total de 3,8 GB/s y una latencia a memoria de 130 ns.
La interconexión procesadores-memoria del ES40 es también mediante dos buses con una velocidad agregable total de 2,67 GB/s.
Por lo que respecta al GS1280, cada procesador dispone de dos controladores en memoria con una capacidad añadida de 12,8 Gb/s; los procesadores están interconectados por una red toroidal y las latencias de acceso son asimétricas desde 75 ns para la memoria local a 270 ns para la más remota.
En el caso del Altix 3700, considerando que dos procesadores forman un nodo, la conexión procesador-memoria dentro de un mismo nodo es a través de un SHub 1.2 ASIC. Cada SHub soporta hasta 10,2 GB/s de ancho de banda punta con la memoria. Este sería el caso de memoria local. En el caso que se hubiera de acceder a la memoria de otros nodos, la conexión se realiza a través de dos canales de salida Numalink 4 a 6,4 GB/s. Estas conexiones proporcionan unas latencias que van desde 129 ns (memoria local) hasta 559 ns en el peor de los casos (memoria remota).
En el HP CP4000 cada chip AMD64 Opteron O275 lleva
integrado en el silicio su propio controlador de memoria.
Este controlador se conecta dentro del chip mediante un
crossbar interno a
fin de crear la estructura de sistema. El ancho de banda de
acceso a memoria de cada controlador es de 6,4 GB/s.
Así, un nodo DL145 G2 que consta de 2 chips, consigue
un ancho de banda total de 12,8 GB/s. La latencia de un
núcleo con su propia memoria está en 60 ns y
con la memoria del otro chip está en 90 ns.
|
|
HP
N4000 PA8500 |
CPQ
beowulf EV67 |
CPQ
HPC320 EV68 |
HP
GS1280 EV7 |
HP
rx2600 Itanium2 |
SGI
Altix Itanium2 |
HP CP4000 Opteron 275 |
| Frecuencia (MHz) |
440
|
600
|
833
|
1.150
|
1.000
|
1.600
|
2.200 |
| Ancho de bus |
64
|
64
|
64
|
128
|
128
|
128
|
128 |
| Cache (L1 KB/L2 MB/L3 MB) |
1.024/-/-
|
64/2/-
|
64/8/-
|
64/1,75/-
|
32/0,25/3
|
16/0,25/6
|
128/2/- |
| Rpunta (Mflop/s) |
1.760
|
1.200
|
1.666
|
2.300
|
4.000
|
6.400
|
8.800 |
| LINPACK TPP |
1.290
|
877,5
|
1.277
|
1.900
|
3.528
|
5.937
|
7.153 |
| LINPACK 100x100 |
375
|
470,8
|
639
|
950
|
1.102
|
1.765
|
1.598 |
| SPECint2000 |
n/d
|
355
|
565
|
900
|
n/d
|
1.441
|
1.515 |
| SPECfp2000 |
n/d
|
400
|
777
|
1.450
|
1.427
|
2.647
|
1.830 |
|
Rendimientos del EV67 estimados a partir de 616 MHz. |
|||||||
Además, se dispone:
- De una librería automatizada de cintas StorageTek TimberWolf 9740 con 302 cintas tipo 9840 de 20 GB de capacidad nativa y dos dispositivos de transporte 9840 con una velocidad de transferencia de 10 MB/s cada uno y de intercambio de cartuchos de 350 por hora.
- De un subsistema de discos modular y multifabricante que pertenece a la familia StorageWorks MA6000, con 985 GB disponibles y con 2 controladores RAID FiberChannel HSG60 a 1 Gbps.
- De un subsistema de discos Enterprise Virtual Array V.2 (EVA) con 10,15 TB (en bruto) disponibles y con 2 controladores FiberChannel HSV110 a 2 Gbps.
- De un servidor de ficheros AlphaServer DS25 con 2 procesadores EV68 21264C a 1.000 MHz, 4 GB de memoria principal, 72,8 GB de disco, 2 controladores GigabitEthernet, 1 controlador ATM a 155 Mbps, 1 controlador Fast Ethernet a 100 Mbps, 2 adaptadores Ultra SCSI Wide para la conexión al robot StorageTek TimberWolf 9740 y 2 adaptadores PCI FiberChannel a 2 Gbps.
- De un servidor de bases de datos HP rp5430 con 2 procesadores PA8700 a 750 MHz y 2,25 MB de cache L1, 8 GB de memoria principal, 146 GB de disco a 15 K, 1 adaptador GigabitEthernet y 1 adaptador PCI FiberChannel a 2 Gbps.
- De un servidor para el Servicio de Búsqueda de Farmacóforos HP Workstation xw8000 con 2 procesadores Intel Xeon a 3,06 GHz, 8 KB de cache L1 y 512 KB de cache L2, 4 GB de memoria principal, 73 GB de disco a 10K y 1 adaptador GigabitEthernet.
- Un clúster Linux de 10
nodos SMP de dos vias para recursos de información,
modelo Proliant DL360
G4p, con 100 GB de memoria principal y 360 GB en
discos Ultra320. Cada uno de los nodos cuenta con 2
procesadores Intel Xeon a 3,0 GHz, 2 MB de memoria cache L2
y un disco interno de 36 GB a 15.000 rpm para el sistema
operativo, el área de swap y ficheros temporales.
Todos los nodos estan conectados a la SAN (una EVA 2C6D-B)
mediante un adaptador FiberChannel a 2 Gbps. Además,
cada nodo dispone de tres puertos GigabitEthernet, dos de
tipo RJ45 PCI y el otro con conetor SC.
Glosario
Los procesadores superescalares pueden iniciar la
ejecución simultánea de varias instrucciones
escalares en paralelo de forma que se puedan operar varios
elementos de un vector dentro de una misma iteración.
En nuestro caso, los PA8500 y los de las Compaq pueden
iniciar cuatro.
Si la memoria está compartida entre todos los
procesadores, es decir, hay un espacio único de
direcciones para todos, entonces la programación es
mucho más sencilla ya que los datos se pueden colocar
en cualquier módulo de memoria ya que su acceso es
uniforme para todos los procesadores.
Si la memoria está distribuida entre los
procesadors, es decir, cada procesador tiene acceso a su
propia memoria, entonces la programación es más
compleja ya que cuando los datos a usar por un procesador
están al espacio de direcciones de otro, hace falta
solicitarlas y transferirlas a través de mensajes.
Así, hace falta impulsar la localización de los
datos para minimizar la comunicación entre
procesadorws y obtener un buen rendimiento. La ventaja que
proporcionan es su escalabilidad, es decir, el sistema puede
crecer a un número más grande de procesadores
que los sistemas de memoria compartida y, por tanto, es
más idóneo para las máquinas
paralelas.
Hay un tercer tipo de organización, la memoria distribuida compartida,
que combina las ventajas de las dos organizaciones: la
memoria está físicamente distribuida y, por
tanto, el sistema es escalable, pero se accede con un espacio
único de direcciones y, consecuentemente, es
fácilmente programable.
Para optimizar el rendimiento de un supercomputador, uno
de los factores a considerar es el tamaño de la
memoria cache
disponible por procesador:
- Para el PA8500 del N4000, 1 MB.
- Para el ES40 del AlphaServer, 64 KB de nivel 1 y 8 MB de nivel 2.
- Para el DS10 del beowulf, 64 KB de nivel 1 y 2 MB de nivel 2.
- Para el EV7 del GS1280, 64 KB de nivel 1 y 1,75 MB de nivel 2.
- Para el Itanium2 del rx2600, 32 KB de nivel 1, 256 KB de nivel 2 y 3 MB de nivel 3.
- Para el Itanium2 del Altix 3700, 16 KB de nivel 1, 256 KB de nivel 2 y 6 MB de nivel 3.
- Para el Opteron 275 del CP4000, 64 KB de nivel 1 para datos y 1 MB de nivel 2, por cada núcleo.
El Rmáx es el mejor resultado obtenido en la ejecución del benchmark "Linpack" en paralelo (que resuelve un denso sistema de ecuaciones lineales) en diferentes tamaños. El tamaño con el cual se llega al Rmax es el Nmax.
Última actualización: AG, 12-09-06

Bienvenida

