-
Python Data
Python Data
Python-kirjastojen kokoelma data-analytiikkaan ja koneoppimiseen.
Uutiset
12.9.2025 Asennettu python-data/3.12-25.09, joka sisältää uudempia versioita suosituista Python-moduuleista.
2.5.2024 Asennettu python-data/3.10-24.04, joka sisältää uudempia versioita suosituista Python-moduuleista.
28.11.2023 Asennettu python-data/3.10-23.11, joka sisältää uudempia versioita suosituista Python-moduuleista.
28.11.2023 Asennettu python-data/3.10-23.11, joka sisältää uudempia versioita suosituista Python-moduuleista.
4.7.2023 Asennettu python-data/3.10-23.07, joka sisältää uudempia versioita suosituista Python-moduuleista.
28.10.2022 Moduuli python-data/3.8 lisättiin niille, jotka
tarvitsevat erityisesti Python 3.8:aa.
Saatavilla
Versiot numeroidaan muodossa X.Z-YY.MM, jossa X.Z on
Python-tulkin versio ja YY.MM on asennuksen vuosi ja kuukausi.
Tyypillisesti moduuli sisältää asennushetkellä kirjastojen uusimmat
versiot siinä määrin kuin ohjelmistoriippuvuudet sallivat.
Nykyiset versiot ovat:
-
(oletusversio)
python-data/3.12-25.09: asennettu syyskuussa 2025, sisältää esimerkiksi Scikit-learnin 1.7.2:n, SciPyn 1.16.1:n, Pandasin 2.3.2:n ja JupyterLabin 4.4.7:n. -
python-data/3.10-24.04: asennettu huhtikuussa 2024, sisältää esimerkiksi Scikit-learnin 1.4.2:n, SciPyn 1.13.0:n, Pandasin 2.2.2:n ja JupyterLabin 4.1.6:n. -
python-data/3.10-23.11: asennettu marraskuussa 2023, sisältää esimerkiksi Scikit-learnin 1.3.2:n, SciPyn 1.11.4:n, Pandasin 2.1.3:n ja JupyterLabin 4.0.9:n. -
python-data/3.10-23.07: asennettu heinäkuussa 2023, sisältää esimerkiksi Scikit-learnin 1.2.2:n, SciPyn 1.11.1:n, Pandasin 2.0.3:n ja JupyterLabin 4.0.2:n. python-data/3.10-22.09taipython-data/3.10: asennettu syyskuussa 2022, sisältää esimerkiksi Scikit-learnin 1.1.2:n, SciPyn 1.9.1:n, Pandasin 1.4.4:n ja JupyterLabin 3.4.6:n.python-data/3.9-22.04taipython-data/3.9: asennettu huhtikuussa 2022, sisältää esimerkiksi Scikit-learnin 1.0.2:n, SciPyn 1.8.0:n, Pandasin 1.4.2:n ja JupyterLabin 3.3.4:n.python-data/3.8-22.10taipython-data/3.8: lisätty niille, jotka tarvitsevat erityisesti Python 3.8:aa.
Python-data pyrkii sisältämään kattavan valikoiman Python-kirjastoja data-analytiikkaan ja koneoppimiseen, esimerkiksi:
- Dask: skaalautuva analytiikka Pythonissa
- Gensim: aihemallinnus
- Jupyter ja JupyterLab
- NLTK: luonnollisen kielen työkalupakki
- PyTables
- SciPy, mukaan lukien NumPy, Matplotlib ja Pandas
- Scikit-learn: koneoppiminen Pythonissa
- Seaborn: tilastollinen datan visualisointi
Jos huomaat, että jokin paketti puuttuu, voit usein asentaa sen
itse komennolla pip install --user. Katso lisätietoja pakettien
asentamisesta itse Python-dokumentaatiostamme.
On myös mahdollista käyttää Pythonin virtuaaliympäristöjä.
Virtuaaliympäristön luomiseen käytä komentoa python3 -m venv
--system-site-packages venv.
Jos mielestäsi jokin tärkeä paketti pitäisi sisällyttää CSC:n tarjoamaan moduuliin, ota yhteyttä asiakastukeemme. Huomaa, että joillakin koneoppimiskehyksillä on omat erilliset moduulinsa, esimerkiksi: PyTorch, TensorFlow, JAX ja RAPIDS.
Huomautus monisäikeisyydestä
python-data-moduulin lataaminen asettaa ympäristömuuttujan
OMP_NUM_THREADS=1, mikä käytännössä poistaa OpenMP-monisäikeisyyden
käytöstä. Tämä on useimmissa tapauksissa järkevä asetus ja korjaa joitakin
moniprosessointiajoihin liittyviä ongelmia. Jos tiedät tarvitsevasi
OpenMP-monisäikeisyyttä, aseta tämä muuttuja käsin, esimerkiksi
Slurm-työskriptissäsi:
export OMP_NUM_THREADS=$SLURM_CPUS_PER_TASK
Lisenssi
Kaikki paketit on lisensoitu erilaisilla vapailla ja avoimen lähdekoodin lisensseillä (FOSS).
Käyttö
Tämän ohjelmiston käyttämiseksi Puhdissa ota se käyttöön komennolla:
käyttääksesi oletusversiota, tai jos haluat tietyn version (katso yllä saatavilla olevat versiot):
Jos haluat vain uusimman version tietyllä Python-versiolla, voit myös suorittaa:
Tämä näyttää kaikki saatavilla olevat versiot:
Voit tarkistaa ladattuun moduuliin sisältyvät tarkat paketit ja versiot komennolla:
Warning
Huomaa, että Puhdin kirjautumissolmut eivät ole tarkoitettu raskasta laskentaa varten, joten käytä sen sijaan Slurmin eräajoja. Katso ohjeemme eräajojärjestelmän käyttämisestä.
Katso myös CSC:n yleinen Python-dokumentaatio.
Paikallinen tallennustila
Joissakin Puhdin solmuissa on nopea paikallinen tallennustila, joka on hyödyllinen IO-intensiivisille sovelluksille. Katso yleiset ohjeemme nopean paikallisen tallennustilan käyttöönotosta.