Què tenim?

Compiladors - Llibreries - Eines de desenvolupament - Eines de visualització - Aplicacions - Visió històrica
El maquinari
El CESCA disposa de set computadors d'altes
prestacions:
Hewlett-Packard N4000: 8
processadors PA8500 (440 MHz), 4 GB de memòria
principal, 227 GB en disc, un rendiment punta
(Rpunta) de 14,08 Gflop/s i màxim
(Rmàx) de 10,22 Gflop/s.
Compaq AlphaServer
HPC320: 8 nodes ES40 (4 EV68, 833 MHz, 64 KB/8 MB), 28 GB
de memòria principal, 892 GB en disc, un
Rpunta de 53,31 Gflop/s i Rmàx
de 40,84 Gflop/s, interconnectats amb Memory Channel II de
100 MB/s.
beowulf de Compaq: 8
nodes DS10 (1 EV67, 600 MHz, 64 KB/2 MB), 4 GB de
memòria principal, 291 GB en disc, un
Rpunta de 9,60 Gflop/s i Rmàx
estimat de 7,68 Gflop/s , interconnectats amb Myrinet de 2
Gbps.
HP AlphaServer GS1280:
16 processadors 21364 EV7 (1.150 MHz, 64 KB/1,75 MB), 32 GB
de memòria principal, 655 GB en disc, un
Rpunta de 36,80 Gflop/s i Rmàx
de 31,28 Gflop/s.
HP rx2600: 2
processadors Itanium2 (1.000 MHz, 32 KB/256 KB/3 MB), 2 GB de
memòria principal, 146 GB en disc, un
Rpunta de 8,00 Gflop/s i Rmàx
estimat de 7,20 Gflop/s.
SGI Altix 3700 Bx2: 128
processadors Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de
memòria principal, 6,13 TB en disc, un
Rpunta de 819,20 Gflop/s i un
Rmàx estimat de 720,60 Gflop/s.
HP CP4000: 16 nodes DL145 G2 (2 AMD64 Opteron 275 de doble nucli, 2,2 GHz, 64 KB/1 MB per cada nucli), 256 GB de memòria principal, 4,56 TB en disc, un Rpunta de 281,60 Gflop/s i un Rmàx estimat de 177,41 Gflop/s, interconnectats amb 3 xarxes GigabitEthernet (una externa i dos internes, una per a gestió i l'altra per a càlcul).
Totes les màquines tenen processadors superescalars però es diferencien en l'accés a memòria: tant les Compaq com l'HP CP4000 tenen memòria distribuïda, mentre que les demés són de memòria compartida.
La interconnexió processadors-memòria de l'N4000 és mitjançant dos busos amb una velocitat agregable total de 3,8 GB/s, i una latència a memòria de 130 ns.
La interconnexió processadors-memòria de l'ES40 és també mitjançant dos busos amb una velocitat agregable total de 2,67 GB/s.
Pel que fa al GS1280, cada processador disposa de dos control·ladors a memòria amb una capacitat agregada de 12,8 Gb/s; els processadors estan interconnectats per una xarxa toroïdal i les latències d'accés són assimètriques des de 75 ns per a la memòria local a 270 ns per a la més remota.
Pel cas de l'Altix 3700, considerant que dos processadors
formen un node, la connexió processador-memòria
dins d'un mateix node és a través d'un SHub 1.2
ASIC. Cada SHub suporta fins a 10,2 GB/s d'amplada de banda
punta amb la memòria. Aquest seria el cas de
memòria local. En el cas que s'hagués d'accedir
a la memòria d'altres nodes, la connexió es
realitza a través de dos canals de sortida Numalink 4
a 6,4 GB/s. Aquestes connexions proporcionen unes
latències que van des de 129 ns (memòria local)
fins a 559 ns en el pitjor dels casos (memòria
remota).
En l'HP CP4000 cada xip AMD64 Opteron O275 porta integrat
en el silici el seu propi controlador de memòria.
Aquest controlador es connecta dins el xip amb un
crossbar intern per
crear l'estructura de sistema. L'ample de banda
d'accés a memòria de cada controlador és
de 6,4 GB/s. Així, un node DL145 G2 que consta de 2
xips, aconsegueix un ample de banda total de 12,8 GB/s. La
latència d'un nucli amb la seva memòria
està en 60 ns i amb la memòria de l'altre xip
està en 90 ns.
|
|
HP N4000 PA8500 |
CPQ beowulf EV67 |
CPQ HPC320 EV68 |
HP GS1280 EV7 |
HP rx2600 Itanium2 |
HP Altix Itanium2 |
HP CP4000 Opteron 275 |
|
Freqüencia (MHz) |
440 |
600 |
833 |
1.150 |
1.000 |
1.600 |
2.200 |
| Amplada de bus |
64 |
64 |
64 |
128 |
128 |
128 |
128 |
| Cau
(L1 KB/L2 MB/L3 MB) |
1.024/-/- |
64/2/- |
64/8/- |
64/1,75/- |
32/0,25/3 |
16/0,25/6 |
128/2/- |
|
Rpunta (Mflop/s) |
1.760 |
1.200 |
1.666 |
2.300 |
4.000 |
6.400 |
8.800 |
|
LINPACK TPP |
1.290 |
877,5 |
1.277 |
1.900 |
3.528 |
5.937 |
7.153 |
|
LINPACK 100x100 |
375 |
470,8 |
639 |
950 |
1.102 |
1.765 |
1.598 |
|
SPECint2000 |
n/d |
355 |
565 |
900 |
n/d |
1.441 |
1.515 |
|
SPECfp2000 |
n/d |
400 |
777 |
1.450 |
1.427 |
2.647 |
1.830 |
| Rendiments de l'EV67 estimats a partir de
616 Mhz. |
|||||||
A més, es disposa:
- D'una llibreria automatitzada de cintes StorageTek TimberWolf 9740 amb 302 cintes tipus 9840 de 20 GB de capacitat nativa i dos dispositius de transport 9840 amb una velocitat de transfèrencia de 10 MB/s cadascun i d'intercanvi de cartutxos de 350 per hora.
- D'un subsistema de discs modular i multifabricant que pertany a la família StorageWorks MA6000, amb 985 GB disponibles i amb 2 control·ladors RAID FiberChannel HSG60 a 1 Gbps.
- D'un subsistema de discs Enterprise Virtual Array V.2 (EVA), model 2C6D-B, amb 10,15 TB (en brut) disponibles i amb 2 control·ladors FiberChannel HSV110 a 2 Gbps.
- D'un servidor de fitxers AlphaServer DS25 amb 2 processadors EV68 21264C a 1.000 MHz, 4 GB de memòria principal, 72,8 GB de disc, 2 control·ladors GigabitEthernet, 1 control·lador ATM a 155 Mbps, 1 control·lador Fast Ethernet a 100 Mbps, 2 adaptadors Ultra SCSI Wide per la connexió al robot StorageTek TimberWolf 9740 i 2 adaptadors PCI FiberChannel a 2 Gbps.
- D'un servidor de bases de dades HP rp5430 amb 2 processadors PA8700 a 750 MHz i 2,25 MB de cau L1, 8 GB de memòria principal, 146 GB de disc a 15K, 1 adaptador GigabitEthernet i 1 adaptador PCI FiberChannel a 2 Gbps.
- D'un servidor pel Servei de Cerca de Farmacòfors HP Workstation xw8000 amb 2 processadors Intel Xeon a 3,06 GHz, 8 KB de cau L1 i 512 KB de cau L2, 4 GB de memòria principal, 73 GB de disc a 10K i 1 adaptador GigabitEthernet.
- Un clúster Linux de
10 nodes SMP de 2 vies per a recursos
d'informació, model Proliant DL360 G4p, amb 100
GB de memòria principal i 360 GB en discs
Ultra320. Cada un dels nodes compta amb 2 processadors
Intel Xeon a 3,0 GHz, 2 MB de memòria cau L2 i un
disc intern de 36 GB a 15.000 rpm per al sistema
operatiu, l'àrea de swap i fitxers temporals.
Tots els nodes estan connectats a la SAN (una EVA 2C6D-B)
mitjançant un adaptador FiberChannel a 2 Gbps. A
més, cada node disposa de tres ports
GigabitEthernet, dos de tipus RJ45 PCI i l'altra amb
connector SC.
Glossari
Els processadors superescalars poden iniciar l'execució simultània de vàries instruccions escalars en paral.lel de manera que es poden operar varis elements d'un vector dins d'una mateixa iteració. En el nostre cas, els PA8500 i els de les Compaq en poden iniciar quatre.
Si la memòria està compartida entre tots els processadors, és a dir, hi ha un espai únic d'adreces per a tots, llavors la programació és molt més senzilla ja que les dades es poden col.locar en qualsevol mòdul de memòria ja que el seu accés és uniforme per a tots els processadors.
Si la memòria està distribuïda entre els processadors, és a dir, cada processador té accés a la seva pròpia memòria, llavors la programació és més complexa ja que quan les dades a usar per un processador estan a l'espai d'adreces d'un altre, cal sol.licitar-les i transferir-les a través de missatges. Així, cal impulsar la localitat de les dades per minimitzar la comunicació entre processadors i obtenir un bon rendiment. L'avantatge que proporcionen és la seva escalabilitat, és a dir, el sistema pot créixer a un nombre més gran de processadors que els sistemes de memòria compartida i, per tant, és més idoni per a les màquines paral.leles.
Hi ha un tercer tipus d'organització, la memòria distribuïda compartida, que combina els avantatges d'ambdues organitzacions: la memòria està físicament distribuïda i, per tant, el sistema és escalable, però s'hi accedeix amb un espai únic d'adreces i, conseqüentment, és fàcilment programable.
Per optimitzar el rendiment d'un supercomputador, un dels factors a considerar és el tamany de la memòria cau disponible per processador:
- Per al PA8500 de l'N4000, 1 MB.
- Per a l'ES40 de l'AlphaServer, 64 KB de nivell 1 i 8 MB de nivell 2.
- Per al DS10 del beowulf, 64 KB de nivell 1 i 2 MB de nivell 2.
- Per a l'EV7 del GS1280, 64 KB de nivell 1 i 1,75 MB de nivell 2.
- Per a l'Itanium2 del rx2600, 32 KB de nivell 1, 256 KB de nivell 2 i 3 MB de nivell 3.
- Per a l'Itanium2 de l'Altix 3700, 16 KB de nivell 1, 256 KB de nivell 2 i 6 MB de nivell 3.
- Per a l'Opteron 275 del
CP4000, 64 KB de nivell 1 per a dades i 1 MB de nivell 2,
per cada nucli.
El rendiment dels supercomputadors es mesura en Gflop/s: 1 Gflop/s indica que el processador realitza 109 operacions aritmètiques (tipus sumes o multiplicacions) de nombres reals, codificats en format de coma flotant de 64 bits, per segon.
El Rmàx és el millor resultat obtingut en l'execució del benchmark "Linpack" en paral·lel (que resol un dens sistema d'equacions lineals) en diferents tamanys. El tamany amb el qual s'arriba a l'Rmax és l'Nmax.
Última actualització: AG, 12-09-06

Benvinguda

