-
Whisper
Whisper
Whisper on yleiskäyttöinen puheentunnistusmalli. Se on koulutettu laajalla ja monipuolisella ääniaineistolla, ja se on myös monitehtävämalli, joka pystyy monikieliseen puheentunnistukseen, puheen kääntämiseen ja kielen tunnistamiseen.
Saatavuus
Faster-Whisper-XXL r245.4 on saatavilla Puhdissa.
Lisenssi
Faster-Whisper-XXL on lisensoitu MIT-lisenssillä.
Käyttö
CSC:n käyttäjät voivat asentaa Whisperin helposti omiin Python-virtuaaliympäristöihinsä Puhdissa ja Mahdissa. Lisäksi Puhdissa on esiasennettu Faster-Whisper-XXL -versio Whisperistä. Tämä Whisper-ympäristö voidaan ottaa käyttöön Puhdissa komennolla:
Esimerkkikomento:
Esimerkkikomento, jossa diarisaatio on käytössä:
whisper interview.mp4 --model large --language French --threads 4 --diarize pyannote_v3.0 --diarize_threads 4 --num_speakers 2 -o interview_results
Esimerkkieräajo
Whisper pystyy hyödyntämään GPU-laskentaa tehokkaasti. Alla oleva esimerkkieräajoskripti varaa yhden GPU:n Whisper-työlle.
#!/bin/bash
#SBATCH --account=<project>
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=1
#SBATCH --mem=8G
#SBATCH --time=1:00:00
#SBATCH --gres=gpu:v100:1
module load whisper
srun whisper interview.mp4 --model large --language French --threads 4 --diarize pyannote_v3.0 --diarize_threads 4 --num_speakers 2 -o interview_results