tornar Què tenim? després últim

Compiladors - Llibreries - Eines de desenvolupament - Eines de visualització - Aplicacions - Visió històrica


El maquinari

El CESCA disposa de set computadors d'altes prestacions:

Hewlett-Packard N4000: 8 processadors PA8500 (440 MHz), 4 GB de memòria principal, 227 GB en disc, un rendiment punta (Rpunta) de 14,08 Gflop/s i màxim (Rmàx) de 10,22 Gflop/s.

Compaq AlphaServer HPC320: 8 nodes ES40 (4 EV68, 833 MHz, 64 KB/8 MB), 28 GB de memòria principal, 892 GB en disc, un Rpunta de 53,31 Gflop/s i Rmàx de 40,84 Gflop/s, interconnectats amb Memory Channel II de 100 MB/s.

beowulf de Compaq: 8 nodes DS10 (1 EV67, 600 MHz, 64 KB/2 MB), 4 GB de memòria principal, 291 GB en disc, un Rpunta de 9,60 Gflop/s i Rmàx estimat de 7,68 Gflop/s , interconnectats amb Myrinet de 2 Gbps.

HP AlphaServer GS1280: 16 processadors 21364 EV7 (1.150 MHz, 64 KB/1,75 MB), 32 GB de memòria principal, 655 GB en disc, un Rpunta de 36,80 Gflop/s i Rmàx de 31,28 Gflop/s.

HP rx2600: 2 processadors Itanium2 (1.000 MHz, 32 KB/256 KB/3 MB), 2 GB de memòria principal, 146 GB en disc, un Rpunta de 8,00 Gflop/s i Rmàx estimat de 7,20 Gflop/s.

SGI Altix 3700 Bx2: 128 processadors Itanium2 (1,6 GHz, 16 KB/256 KB/6 MB), 384 GB de memòria principal, 6,13 TB en disc, un Rpunta de 819,20 Gflop/s i un Rmàx estimat de 720,60 Gflop/s.

HP CP4000: 16 nodes DL145 G2 (2 AMD64 Opteron 275 de doble nucli, 2,2 GHz, 64 KB/1 MB per cada nucli), 256 GB de memòria principal, 4,56 TB en disc, un Rpunta de 281,60 Gflop/s i un Rmàx estimat de 177,41 Gflop/s, interconnectats amb 3 xarxes GigabitEthernet (una externa i dos internes, una per a gestió i l'altra per a càlcul).

Totes les màquines tenen processadors superescalars però es diferencien en l'accés a memòria: tant les Compaq com l'HP CP4000 tenen memòria distribuïda, mentre que les demés són de memòria compartida.

La interconnexió processadors-memòria de l'N4000 és mitjançant dos busos amb una velocitat agregable total de 3,8 GB/s, i una latència a memòria de 130 ns.

La interconnexió processadors-memòria de l'ES40 és també mitjançant dos busos amb una velocitat agregable total de 2,67 GB/s.

Pel que fa al GS1280, cada processador disposa de dos control·ladors a memòria amb una capacitat agregada de 12,8 Gb/s; els processadors estan interconnectats per una xarxa toroïdal i les latències d'accés són assimètriques des de 75 ns per a la memòria local a 270 ns per a la més remota.

Pel cas de l'Altix 3700, considerant que dos processadors formen un node, la connexió processador-memòria dins d'un mateix node és a través d'un SHub 1.2 ASIC. Cada SHub suporta fins a 10,2 GB/s d'amplada de banda punta amb la memòria. Aquest seria el cas de memòria local. En el cas que s'hagués d'accedir a la memòria d'altres nodes, la connexió es realitza a través de dos canals de sortida Numalink 4 a 6,4 GB/s. Aquestes connexions proporcionen unes latències que van des de 129 ns (memòria local) fins a 559 ns en el pitjor dels casos (memòria remota).

En l'HP CP4000 cada xip AMD64 Opteron O275 porta integrat en el silici el seu propi controlador de memòria. Aquest controlador es connecta dins el xip amb un crossbar intern per crear l'estructura de sistema. L'ample de banda d'accés a memòria de cada controlador és de 6,4 GB/s. Així, un node DL145 G2 que consta de 2 xips, aconsegueix un ample de banda total de 12,8 GB/s. La latència d'un nucli amb la seva memòria està en 60 ns i amb la memòria de l'altre xip està en 90 ns.


Característiques tècniques i rendiment dels diversos processadors



HP
N4000
PA8500
CPQ
beowulf
EV67
CPQ
HPC320
EV68
HP
GS1280
EV7
HP
rx2600
Itanium2
HP
Altix
Itanium2
HP
CP4000
Opteron 275
Freqüencia (MHz)
440
600
833
1.150
1.000
1.600
2.200
Amplada de bus 64
64
64
128
128
128
128
Cau (L1 KB/L2 MB/L3 MB)
1.024/-/- 64/2/-
64/8/-
64/1,75/-
32/0,25/3
16/0,25/6
128/2/-
Rpunta (Mflop/s)
1.760
1.200
1.666
2.300
4.000
6.400
8.800
LINPACK TPP
1.290
877,5
1.277
1.900
3.528
5.937
7.153
LINPACK 100x100
375
470,8
639
950
1.102
1.765
1.598
SPECint2000
n/d
355
565
900
n/d
1.441
1.515
SPECfp2000
n/d
400
777
1.450
1.427
2.647
1.830
Rendiments de l'EV67 estimats a partir de 616 Mhz.


A més, es disposa:
  • D'una llibreria automatitzada de cintes StorageTek TimberWolf 9740 amb 302 cintes tipus 9840 de 20 GB de capacitat nativa i dos dispositius de transport 9840 amb una velocitat de transfèrencia de 10 MB/s cadascun i d'intercanvi de cartutxos de 350 per hora.
  • D'un subsistema de discs modular i multifabricant que pertany a la família StorageWorks MA6000, amb 985 GB disponibles i amb 2 control·ladors RAID FiberChannel HSG60 a 1 Gbps.
  • D'un subsistema de discs Enterprise Virtual Array V.2 (EVA), model 2C6D-B, amb 10,15 TB (en brut) disponibles i amb 2 control·ladors FiberChannel HSV110 a 2 Gbps.
  • D'un servidor de fitxers AlphaServer DS25 amb 2 processadors EV68 21264C a 1.000 MHz, 4 GB de memòria principal, 72,8 GB de disc, 2 control·ladors GigabitEthernet, 1 control·lador ATM a 155 Mbps, 1 control·lador Fast Ethernet a 100 Mbps, 2 adaptadors Ultra SCSI Wide per la connexió al robot StorageTek TimberWolf 9740 i 2 adaptadors PCI FiberChannel a 2 Gbps.
  • D'un servidor de bases de dades HP rp5430 amb 2 processadors PA8700 a 750 MHz i 2,25 MB de cau L1, 8 GB de memòria principal, 146 GB de disc a 15K, 1 adaptador GigabitEthernet i 1 adaptador PCI FiberChannel a 2 Gbps.
  • D'un servidor pel Servei de Cerca de Farmacòfors HP Workstation xw8000 amb 2 processadors Intel Xeon a 3,06 GHz, 8 KB de cau L1 i 512 KB de cau L2, 4 GB de memòria principal, 73 GB de disc a 10K i 1 adaptador GigabitEthernet.
  • Un clúster Linux de 10 nodes SMP de 2 vies per a recursos d'informació, model Proliant DL360 G4p, amb 100 GB de memòria principal i 360 GB en discs Ultra320. Cada un dels nodes compta amb 2 processadors Intel Xeon a 3,0 GHz, 2 MB de memòria cau L2 i un disc intern de 36 GB a 15.000 rpm per al sistema operatiu, l'àrea de swap i fitxers temporals. Tots els nodes estan connectats a la SAN (una EVA 2C6D-B) mitjançant un adaptador FiberChannel a 2 Gbps. A més, cada node disposa de tres ports GigabitEthernet, dos de tipus RJ45 PCI i l'altra amb connector SC.

Glossari


Els processadors superescalars poden iniciar l'execució simultània de vàries instruccions escalars en paral.lel de manera que es poden operar varis elements d'un vector dins d'una mateixa iteració. En el nostre cas, els PA8500 i els de les Compaq en poden iniciar quatre.

Si la memòria està compartida entre tots els processadors, és a dir, hi ha un espai únic d'adreces per a tots, llavors la programació és molt més senzilla ja que les dades es poden col.locar en qualsevol mòdul de memòria ja que el seu accés és uniforme per a tots els processadors.

Si la memòria està distribuïda entre els processadors, és a dir, cada processador té accés a la seva pròpia memòria, llavors la programació és més complexa ja que quan les dades a usar per un processador estan a l'espai d'adreces d'un altre, cal sol.licitar-les i transferir-les a través de missatges. Així, cal impulsar la localitat de les dades per minimitzar la comunicació entre processadors i obtenir un bon rendiment. L'avantatge que proporcionen és la seva escalabilitat, és a dir, el sistema pot créixer a un nombre més gran de processadors que els sistemes de memòria compartida i, per tant, és més idoni per a les màquines paral.leles.

Hi ha un tercer tipus d'organització, la memòria distribuïda compartida, que combina els avantatges d'ambdues organitzacions: la memòria està físicament distribuïda i, per tant, el sistema és escalable, però s'hi accedeix amb un espai únic d'adreces i, conseqüentment, és fàcilment programable.

Per optimitzar el rendiment d'un supercomputador, un dels factors a considerar és el tamany de la memòria cau disponible per processador:

El rendiment dels supercomputadors es mesura en Gflop/s: 1 Gflop/s indica que el processador realitza 109 operacions aritmètiques (tipus sumes o multiplicacions) de nombres reals, codificats en format de coma flotant de 64 bits, per segon.

El Rmàx és el millor resultat obtingut en l'execució del benchmark "Linpack" en paral·lel (que resol un dens sistema d'equacions lineals) en diferents tamanys. El tamany amb el qual s'arriba a l'Rmax és l'Nmax.


Última actualització: AG, 12-09-06 tornar després