-
Mahti
Mahtin tekniset tiedot
Mahtin käytöstäpoisto elokuussa 2026
Mahti poistetaan käytöstä elokuussa 2026, ja sen korvaa Roihu, CSC:n seuraavan sukupolven supertietokone, joka tarjoaa paremman suorituskyvyn ja laajemmat ominaisuudet.
Laskentasolmut
Mahtissa on yhteensä 1404 CPU-solmua ja 24 GPU-solmua. CPU-solmujen teoreettinen huippusuorituskyky on 7,5 petaflopsia ja GPU-solmujen 2,0 petaflopsia, yhteensä 9,5 petaflopsia.
Sekä CPU- että GPU-solmuissa on kaksi AMD Rome 7H12 -suoritinta, joissa kummassakin on 64 ydintä, joten ytimien kokonaismäärä on noin 180 000. Suorittimet perustuvat AMD Zen 2 -arkkitehtuuriin, tukevat AVX2-vektorikäskykantaa ja toimivat 2,6 GHz:n perustaajuudella (maksimikorotus enintään 3,3 GHz). Suorittimet tukevat samanaikaista monisäikeistystä (SMT), jossa kukin ydin voi suorittaa kahta laitesäiettä. Kun SMT on käytössä, säikeiden kokonaismäärä solmua kohden on 256.
CPU-solmuissa on 256 Gt muistia, eikä valtaosassa niistä ole paikallisia
levyjä. Yhteensä 60 solmua on varustettu paikallisella 3,8 Tt:n NVMe-levyllä.
Ne ovat käytettävissä small- ja interactive-osioissa.
GPU-solmuissa on 512 Gt muistia ja paikallinen 3,8 Tt:n NVMe-levy. Niissä on myös neljä Nvidia Ampere A100 -GPU:ta. Osassa solmuista A100-GPU:t on jaettu useiksi pienemmiksi GPU-yksiköiksi, joilla on vain osa A100-GPU:iden laskenta- ja muistiresursseista. Nämä soveltuvat hyvin interaktiiviseen työskentelyyn, kursseille ja koodin kehittämiseen.
NUMA-kokoonpano
Mahti-solmulla on hyvin hierarkkinen rakenne. Solmussa on kaksi kantaa, joista kumpikin sisältää yhden suorittimen ja muistimoduulit. Kaikki solmun muisti on jaettua, mutta muistin suorituskyky riippuu ytimen etäisyydestä muistiin. Hieman paremman muistisuorituskyvyn saavuttamiseksi ajamme jokaisen suorittimen NPS4-tilassa (NUMA per socket 4), joka jakaa jokaisen suorittimen edelleen neljään NUMA-alueeseen. Jokaisessa NUMA-alueessa on 16 ydintä ja kaksi muistiohjainta sekä yhteensä 32 GiB muistia. Ydin 0 suorittaa säikeitä 0 ja 128, ydin 1 säikeitä 1 ja 129 ja niin edelleen. Alla oleva kuva näyttää, miten säikeet jakautuvat ytimille ja NUMA-solmuille.

Ytimet, ydinryhmät ja laskentapiirit
Suorittimen perusrakenneosa on ydin, jotka ryhmitellään ydinryhmiksi (CCX) ja edelleen laskentapiireiksi (CCD).
Jokaisessa ytimessä on 32 KiB L1-datavälimuistia ja 32 KiB L1-käskyvälimuistia. Myös L2-välimuisti on ytinkohtainen, ja jokaisessa ytimessä on 512 KiB L2-välimuistia. Jokaisessa ytimessä on kaksi FMA-yksikköä (fused multiply add), jotka toimivat täysillä 256-bittisillä vektoreilla. Tämä tarkoittaa, että kumpikin yksikkö voi suorittaa jokaisella kellosyklillä operaatioita 8 yksittäistarkkuuden liukuluvulle tai 4 kaksinkertaisen tarkkuuden liukuluvulle. Näin ollen parhaimmillaan 2 (kertolasku+yhteenlasku) x 2 (kaksi yksikköä) x 4 (vektorin leveys) = 16 kaksinkertaisen tarkkuuden liukulukutoimitusta sykliä kohden.
Ytimestä seuraavalla tasolla 4 ydintä ryhmitellään yhdeksi ydinryhmäksi (CCX), jossa ytimet jakavat saman 16 MiB:n L3-välimuistin. Kaksi tällaista CCX-osaa yhdistetään sitten yhdeksi laskentapiiriksi (CCD).

Jokainen suoritin koostuu 8 laskentapiiristä sekä erillisestä I/O-piiristä, jossa sijaitsevat muistiohjaimet ja PCI-e-ohjain. Kukin solmu muodostuu kahdesta tällaisesta suorittimesta ja yhdestä 200 gbit/s HDR-verkkosovittimesta.

Jos haluat lukea tarkemman kuvauksen Zen 2 -ytimestä, lisätietoa löytyy WikiChipistä
Verkko
Yhdysverkko perustuu Mellanox HDR InfiniBandiin, ja jokainen solmu on liitetty verkkoon yhdellä 200 Gbit/s HDR-linkillä. Verkon topologia on dragonfly+-topologia. Topologia koostuu useista solmuryhmistä, joista kukin on sisäisesti yhdistetty fat tree -topologialla, ja nämä fat tree -rakenteet on sitten yhdistetty toisiinsa all-to-all-linkeillä.

Mahtissa kussakin dragonfly-ryhmässä on 234 solmua, ja sisäisen fat tree -rakenteen blokkauskerroin on 1,7:1. Lehtikytkimeen on liitetty 20 tai 18 solmua, ja jokaisesta lehtikytkimestä menee 12 linkkiä ryhmän runkokytkimeen. Kaikki linkit ovat 200 Gbit/s linkkejä. Ryhmiä on yhteensä 6, ja ryhmien välillä on täysin ei-blokkaava all-to-all-yhteys siten, että jokaisesta runkokytkimestä menee 5 kappaletta 200 Gbit/s linkkejä yhteen runkokytkimeen jokaisessa muussa ryhmässä.

Tallennus
Mahtissa on 8,7 PB:n Lustre-rinnakkaistallennusjärjestelmä, joka tarjoaa tilaa home-, project- ja scratch-tallennusalueille.
Mahtin nykyinen Lustre-kokoonpano on:
| Tallennusalue | # OST:t | # MDT:t |
|---|---|---|
| home | 8 | 1 |
| projappl | 8 | 1 |
| scratch | 24 | 2 |
Terminologia on kuvattu Lustre-dokumentaatiossa.
Mahtin scratch voi tarjota parempaa suorituskykyä kuin muut tallennusalueet,
jos sovelluksesi ja datan koko ovat riittävän suuria, koska siinä on enemmän
OST:itä ja MDT:itä.
Mahtin I/O:n huippusuorituskyky on noin 100 GB/s kirjoituksessa ja 115 GB/s luvussa. Tämä suorituskyky saavutettiin kuitenkin erillisessä järjestelmässä, jossa oli 64 laskentasolmua, mikä tarkoittaa noin 1,5 GB/s laskentasolmua kohden. Jos käytössä on enemmän solmuja tai monet ajot tekevät merkittävästi I/O:ta, 1,5 GB/s nopeuteen ei päästä. Näin on myös silloin, jos sovelluksen I/O-malli ei ole tehokas.