El CESCA disposa de tres computadors d'altes
prestacions:
SGI Altix 3700 Bx2: 128
processadors Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de
memòria principal, 5,99 TB en disc, un
Rpunta de 819,20 Gflop/s i un
Rmàx estimat de 720,60 Gflop/s.
HP CP4000: 33 nodes DL145 G2 (2 AMD64 Opteron 275 de doble nucli, 2,2 GHz, 64 KB/1 MB per cada nucli), 528 GB de memòria principal, 9,41 TB en disc, un Rpunta de 580,80 Gflop/s i un Rmàx estimat de 365,91 Gflop/s, interconnectats amb 3 xarxes GigabitEthernet (una externa i dos internes, una per a gestió i l'altra per a càlcul).
Bull NovaScale: 28 nodes
R422E1 (2 Xeon E5472 de quatre nuclis, 3,0 GHz, 64 KB/3 MB
per cada nucli), 896 GB de memòria principal, 31,72 TB
en disc, un Rpunta de 2,68 Tflop/s i un
Rmàx estimat de 2,24 Tflop/s,
interconnectats amb 3 xarxes; dos Gigabit Ethernet (una de
gestió i una de serveis) i una InfiniBand per a
càlcul.
Totes les màquines tenen processadors superescalars però es diferencien en l'accés a memòria: l'HP CP4000 i el Bull NovaScale tenen memòria distribuïda, mentre que el SGI Altix 3700 és de memòria compartida.
Pel cas de l'Altix 3700, considerant que dos processadors formen un node, la connexió processador-memòria dins d'un mateix node és a través d'un SHub 1.2 ASIC. Cada SHub suporta fins a 10,2 GB/s d'amplada de banda punta amb la memòria. Aquest seria el cas de memòria local. En el cas que s'hagués d'accedir a la memòria d'altres nodes, la connexió es realitza a través de dos canals de sortida Numalink 4 a 6,4 GB/s. Aquestes connexions proporcionen unes latències que van des de 129 ns (memòria local) fins a 559 ns en el pitjor dels casos (memòria remota).
En l'HP CP4000 cada xip AMD64 Opteron O275 porta integrat en el silici el seu propi controlador de memòria. Aquest controlador es connecta dins el xip amb un crossbar intern per crear l'estructura de sistema. L'ample de banda d'accés a memòria de cada controlador és de 6,4 GB/s. Així, un node DL145 G2 que consta de 2 xips, aconsegueix un ample de banda total de 12,8 GB/s. La latència d'un nucli amb la seva memòria està en 60 ns i amb la memòria de l'altre xip està en 90 ns.
Pel que fa al Bull NovaScale, el processador Xeon
5472 disposa d'un bus dedicat per a cada un dels dos
sòcols de que està format. Això permet a
cada sòcol de 2 a 4 nuclis tenir una amplada de banda
dedicada per operar amb la resta del sistema sense interferir
amb l'altre. Per a cada sòcol hi ha una amplada de
banda de 10,5GB/s ja que el bus treballa a 1.600MHz . La
latència de lectura a memòria és de 98
ns.
|
|
SGI Altix Itanium2 |
HP CP4000 Opteron 275 |
Bull NovaScale Xeon E5472 |
|
Freqüencia (GHz) |
1,6 | 2,2 |
3,0 |
| Amplada de bus | 128 | 128 | 128 |
| Cau
(L1 KB/L2 MB/L3 MB) |
16/0,25/6 | 128/2/- | 256/12/- |
|
Rpunta (Gflop/s) |
6,4 | 8,8 |
48,0 |
|
LINPACK TPP (Gflop/s) |
5,94 | 7,15 | 4,60 |
|
LINPACK 100x100 (Gflop/s) |
1,77 | 1,60 |
1,30 |
|
SPECint2000/2006 |
1.441/- | 1.515/- | -/26,50 |
|
SPECfp2000/2006 |
2.647/- | 1.830/- | -/23,40 |
| Les dades són per
processador, tenint en compte que un processador
Opteron 275 està format per dos nuclis i un
Xeon E5472 per quatre nuclis. |
|||
Tots aquests sistemes estan suportats pel maquinari del Servei d'Emmagatzematge de Dades.
Glossari
Els processadors superescalars poden iniciar l'execució simultània de vàries instruccions escalars en paral.lel de manera que es poden operar varis elements d'un vector dins d'una mateixa iteració.
Si la memòria està compartida entre tots els processadors, és a dir, hi ha un espai únic d'adreces per a tots, llavors la programació és molt més senzilla ja que les dades es poden col.locar en qualsevol mòdul de memòria, doncs el seu accés és uniforme per a tots els processadors.
Si la memòria està distribuïda entre els processadors, és a dir, cada processador té accés a la seva pròpia memòria, llavors la programació és més complexa ja que quan les dades a usar per un processador estan a l'espai d'adreces d'un altre, cal sol.licitar-les i transferir-les a través de missatges. Així, cal impulsar la localitat de les dades per minimitzar la comunicació entre processadors i obtenir un bon rendiment. L'avantatge que proporcionen és la seva escalabilitat, és a dir, el sistema pot créixer a un nombre més gran de processadors que els sistemes de memòria compartida i, per tant, és més idoni per a les màquines paral.leles.
Hi ha un tercer tipus d'organització, la memòria distribuïda compartida, que combina els avantatges d'ambdues organitzacions: la memòria està físicament distribuïda i, per tant, el sistema és escalable, però s'hi accedeix amb un espai únic d'adreces i, conseqüentment, és fàcilment programable.
Per optimitzar el rendiment d'un supercomputador, un dels factors a considerar és la grandària de la memòria cau disponible per processador:
- Per a l'Itanium2 de l'Altix 3700, 16 KB de nivell 1, 256 KB de nivell 2 i 6 MB de nivell 3.
- Per a l'Opteron 275 del CP4000, 64 KB de nivell 1 per a dades i 1 MB de nivell 2, per cada nucli.
- Per al Xeon E5472 del Bull NovaScale, 256 KB de nivell 1 i 12 MB de nivell 2.
El rendiment dels supercomputadors es mesura en Gflop/s: 1 Gflop/s indica que el processador realitza 109 operacions aritmètiques (tipus sumes o multiplicacions) de nombres reals, codificats en format de coma flotant de 64 bits, per segon.
El Rmàx és el millor resultat obtingut en l'execució del benchmark "Linpack" en paral·lel (que resol un dens sistema d'equacions lineals) amb diferents grandàries . La grandària amb la qual s'arriba a l'Rmax és l'Nmax.

Benvinguda

