Hyppää sisältöön

Welcome to our weekly research support coffee hour on Zoom! Click here for more information.

Warning!

Puhti scratch disk is becoming very full (80+ % ) resulting in performance degradation. Everybody is advised to only keep actively processed data on scratch, all other data should be deleted, transferred to host institute or stored in Lumi-O. No new quota will be granted. Click here for a tool for examining your disk usage.

Mahtin tekniset tiedot

Mahtin käytöstäpoisto elokuussa 2026

Mahti poistetaan käytöstä elokuussa 2026, ja sen korvaa Roihu, CSC:n seuraavan sukupolven supertietokone, joka tarjoaa paremman suorituskyvyn ja laajemmat ominaisuudet.

Lue lisää Roihusta

Laskentasolmut

Mahtissa on yhteensä 1404 CPU-solmua ja 24 GPU-solmua. CPU-solmujen teoreettinen huippusuorituskyky on 7,5 petaflopsia ja GPU-solmujen 2,0 petaflopsia, yhteensä 9,5 petaflopsia.

Sekä CPU- että GPU-solmuissa on kaksi AMD Rome 7H12 -suoritinta, joissa kummassakin on 64 ydintä, joten ytimien kokonaismäärä on noin 180 000. Suorittimet perustuvat AMD Zen 2 -arkkitehtuuriin, tukevat AVX2-vektorikäskykantaa ja toimivat 2,6 GHz:n perustaajuudella (maksimikorotus enintään 3,3 GHz). Suorittimet tukevat samanaikaista monisäikeistystä (SMT), jossa kukin ydin voi suorittaa kahta laitesäiettä. Kun SMT on käytössä, säikeiden kokonaismäärä solmua kohden on 256.

CPU-solmuissa on 256 Gt muistia, eikä valtaosassa niistä ole paikallisia levyjä. Yhteensä 60 solmua on varustettu paikallisella 3,8 Tt:n NVMe-levyllä. Ne ovat käytettävissä small- ja interactive-osioissa.

GPU-solmuissa on 512 Gt muistia ja paikallinen 3,8 Tt:n NVMe-levy. Niissä on myös neljä Nvidia Ampere A100 -GPU:ta. Osassa solmuista A100-GPU:t on jaettu useiksi pienemmiksi GPU-yksiköiksi, joilla on vain osa A100-GPU:iden laskenta- ja muistiresursseista. Nämä soveltuvat hyvin interaktiiviseen työskentelyyn, kursseille ja koodin kehittämiseen.

NUMA-kokoonpano

Mahti-solmulla on hyvin hierarkkinen rakenne. Solmussa on kaksi kantaa, joista kumpikin sisältää yhden suorittimen ja muistimoduulit. Kaikki solmun muisti on jaettua, mutta muistin suorituskyky riippuu ytimen etäisyydestä muistiin. Hieman paremman muistisuorituskyvyn saavuttamiseksi ajamme jokaisen suorittimen NPS4-tilassa (NUMA per socket 4), joka jakaa jokaisen suorittimen edelleen neljään NUMA-alueeseen. Jokaisessa NUMA-alueessa on 16 ydintä ja kaksi muistiohjainta sekä yhteensä 32 GiB muistia. Ydin 0 suorittaa säikeitä 0 ja 128, ydin 1 säikeitä 1 ja 129 ja niin edelleen. Alla oleva kuva näyttää, miten säikeet jakautuvat ytimille ja NUMA-solmuille.

"NUMA configuration"

Ytimet, ydinryhmät ja laskentapiirit

Suorittimen perusrakenneosa on ydin, jotka ryhmitellään ydinryhmiksi (CCX) ja edelleen laskentapiireiksi (CCD).

Jokaisessa ytimessä on 32 KiB L1-datavälimuistia ja 32 KiB L1-käskyvälimuistia. Myös L2-välimuisti on ytinkohtainen, ja jokaisessa ytimessä on 512 KiB L2-välimuistia. Jokaisessa ytimessä on kaksi FMA-yksikköä (fused multiply add), jotka toimivat täysillä 256-bittisillä vektoreilla. Tämä tarkoittaa, että kumpikin yksikkö voi suorittaa jokaisella kellosyklillä operaatioita 8 yksittäistarkkuuden liukuluvulle tai 4 kaksinkertaisen tarkkuuden liukuluvulle. Näin ollen parhaimmillaan 2 (kertolasku+yhteenlasku) x 2 (kaksi yksikköä) x 4 (vektorin leveys) = 16 kaksinkertaisen tarkkuuden liukulukutoimitusta sykliä kohden.

Ytimestä seuraavalla tasolla 4 ydintä ryhmitellään yhdeksi ydinryhmäksi (CCX), jossa ytimet jakavat saman 16 MiB:n L3-välimuistin. Kaksi tällaista CCX-osaa yhdistetään sitten yhdeksi laskentapiiriksi (CCD).

"CCD configuration"

Jokainen suoritin koostuu 8 laskentapiiristä sekä erillisestä I/O-piiristä, jossa sijaitsevat muistiohjaimet ja PCI-e-ohjain. Kukin solmu muodostuu kahdesta tällaisesta suorittimesta ja yhdestä 200 gbit/s HDR-verkkosovittimesta.

"Node configuration"

Jos haluat lukea tarkemman kuvauksen Zen 2 -ytimestä, lisätietoa löytyy WikiChipistä

Verkko

Yhdysverkko perustuu Mellanox HDR InfiniBandiin, ja jokainen solmu on liitetty verkkoon yhdellä 200 Gbit/s HDR-linkillä. Verkon topologia on dragonfly+-topologia. Topologia koostuu useista solmuryhmistä, joista kukin on sisäisesti yhdistetty fat tree -topologialla, ja nämä fat tree -rakenteet on sitten yhdistetty toisiinsa all-to-all-linkeillä.

"Simplified dragonfly+ toppology"

Mahtissa kussakin dragonfly-ryhmässä on 234 solmua, ja sisäisen fat tree -rakenteen blokkauskerroin on 1,7:1. Lehtikytkimeen on liitetty 20 tai 18 solmua, ja jokaisesta lehtikytkimestä menee 12 linkkiä ryhmän runkokytkimeen. Kaikki linkit ovat 200 Gbit/s linkkejä. Ryhmiä on yhteensä 6, ja ryhmien välillä on täysin ei-blokkaava all-to-all-yhteys siten, että jokaisesta runkokytkimestä menee 5 kappaletta 200 Gbit/s linkkejä yhteen runkokytkimeen jokaisessa muussa ryhmässä.

"Mahti dragonfly+ toppology"

Tallennus

Mahtissa on 8,7 PB:n Lustre-rinnakkaistallennusjärjestelmä, joka tarjoaa tilaa home-, project- ja scratch-tallennusalueille.

Mahtin nykyinen Lustre-kokoonpano on:

Tallennusalue # OST:t # MDT:t
home 8 1
projappl 8 1
scratch 24 2

Terminologia on kuvattu Lustre-dokumentaatiossa.

Mahtin scratch voi tarjota parempaa suorituskykyä kuin muut tallennusalueet, jos sovelluksesi ja datan koko ovat riittävän suuria, koska siinä on enemmän OST:itä ja MDT:itä.

Mahtin I/O:n huippusuorituskyky on noin 100 GB/s kirjoituksessa ja 115 GB/s luvussa. Tämä suorituskyky saavutettiin kuitenkin erillisessä järjestelmässä, jossa oli 64 laskentasolmua, mikä tarkoittaa noin 1,5 GB/s laskentasolmua kohden. Jos käytössä on enemmän solmuja tai monet ajot tekevät merkittävästi I/O:ta, 1,5 GB/s nopeuteen ei päästä. Näin on myös silloin, jos sovelluksen I/O-malli ei ole tehokas.

Suomenkielinen tekoälykäännös

Sisällössä voi esiintyä virheellistä tietoa tekoälykäännöksestä johtuen.

Klikkaa tästä antaaksesi palautetta