-
CSC:n sensitiivisen datan palvelut - harjoitus: automaattinen puheentunnistus Whisperillä
CSC:n sensitiivisen datan palvelut - harjoitus: automaattinen puheentunnistus Whisperillä
Työskentely turvallisessa palvelussa, joka on suunniteltu sensitiivisen datan säilyttämiseen ja analysointiin, voi tuntua hyvin erilaiselta kuin tavallisen tietokoneen käyttö. Työkalut voivat toimia eri tavalla, lisäsuojaustoimet ovat käytössä ja jotkin työnkulut vaativat uusia toimintatapoja.
Tätä ohjetta voi käyttää kahdella tavalla:
Whisper-automaattisen puheentunnistusohjelmiston käytön opetteluun: yksinkertainen vaiheittainen opas tutkijoille, jotka haluavat litteroida ääni- tai videotiedostoja SD-palveluissa.
SD-palveluiden käytön harjoitteluun: käytännön harjoitus tutkijoille, joille turvallinen ympäristö on uusi, ja joka auttaa ymmärtämään, miten se toimii, sekä lisää varmuutta ennen oikean sensitiivisen datan käsittelyä.
Sisältö:
1. Ennen aloittamista
Varmista ennen työn aloittamista seuraavat asiat:
1.1 Sinulla on CSC-käyttäjätunnus
Jos sinulla ei ole käyttäjätunnusta, katso käyttäjätunnusohjeet. Huomaa, että tässä harjoituksessa tarvitset sekä Haka- että CSC-tunnustasi, joten varmista, että muistat CSC-tunnuksesi salasanan.
1.2 CSC-käyttäjätunnuksellasi on kaksivaiheinen tunnistautuminen (MFA) käytössä
1.3 Olet CSC-projektin jäsen, jossa SD Desktop ja SD Connect ovat käytössä
- Kirjaudu sisään MyCSC:hen.
- Siirry Projects-sivulle ja avaa oikea projekti.
- Vieritä alas Services-ikkunaan.
- Jos SD Desktop ja SD Connect näkyvät listassa, ne ovat aktiivisia.
- Jos ne puuttuvat, pyydä projektipäällikköäsi aktivoimaan ne projektisivun kautta.
2. Sensitiivisen materiaalin kerääminen SD Connectin kautta
2.1 Tallenna haastattelu tai lataa esimerkkitiedosto
Tallenna lyhyt haastattelu puhelimellasi tai kannettavallasi ja kysy vieressäsi olevalta henkilöltä seuraavat asiat:
- Etunimi
- Mikä on ollut kiinnostavinta seminaarin tässä ensimmäisessä osassa
Haastattelu voi olla video- tai äänitallenne. Älä tee siitä yhtä minuuttia pidempää. Nimeä haastattelutiedosto laitteellasi niin, että se on helppo tunnistaa (älä käytä nimessä välilyöntejä tai erikoismerkkejä).
Vaihtoehtoisesti voit ladata tämän esimerkkitiedoston
2.2 Lataa tallenne palveluun
Kun haastattelu on valmis, avaa selain puhelimellasi tai kannettavallasi ja lataa haastattelu SD Connect -palveluun.
- Kirjaudu sisään SD Connect -palveluun.
- Valitse oikea projekti (2000828 tai oma projektisi).
-
Siirry kansioon folder2000828-social-data ja lataa tallenne puhelimestasi Upload-toiminnolla.

3. Datan tuonti SD Desktopin kautta
3.1 Luo virtuaalityöpöytä
Jos seuraat tätä ohjetta osana kurssia, voit ohittaa tämän vaiheen ja siirtyä seuraavaan. Kouluttaja on jo tehnyt tarvittavat asetukset puolestasi.
Jos kokeilet tätä ohjetta itsenäisesti, siirry kannettavallesi, kirjaudu sisään SD Desktop -palveluun ja luo virtuaalityöpöytä seuraamalla näitä vaiheita ja valitsemalla nämä vaihtoehdot:
-
Käyttöjärjestelmä: Default Ubuntu
-
Virtuaalityöpöydän vaihtoehto: Medium
-
Tallennustaltio: 200 GB
Virtuaalityöpöytä on käyttövalmis noin 30 minuutissa.
3.2 Kirjaudu virtuaalityöpöydälle
- Siirry kannettavallesi ja kirjaudu sisään SD Desktop -palveluun.
- Kirjautumisen jälkeen olet SD Desktop -palvelun Connections-näkymässä.
- Vieritä kohtaan All connections ja napsauta CSC-projektisi tai project_2000828-projektin edessä olevaa +-merkkiä. Tämä avaa luettelon projektissa parhaillaan käynnissä olevista virtuaalityöpöydistä.
-
Valitse socialdatavm-1764247746. Tämä avaa virtuaalityöpöydän selainikkunaasi.

-
Avaa virtuaalityöpöydän vasemmalla puolella oleva Data Volume -levy.
- Luo taltiolle uusi kansio napsauttamalla hiiren oikealla tyhjää aluetta ja valitsemalla valikosta “New Folder”.
-
Nimeä kansio käyttäjätunnuksesi mukaan, jotta muut käyttäjät voivat helposti tunnistaa omistajan.

3.3 Datan tuominen SD Connectista SD Desktopiin
Tässä vaiheessa luot suojatun yhteyden virtuaalityöpöytäsi (virtuaalitietokoneesi) ja SD Connectiin tallentamiesi tiedostojen välille ja tuot sitten tiedostot virtuaalityöpöydälle. Ne puretaan automaattisesti siirron aikana, jolloin ne ovat valmiita analysoitaviksi.
-
Käynnistä Data Gateway -sovellus napsauttamalla työpöydän vasemmalla puolella olevaa kuvaketta.

-
Valitse vaihtoehto yhdistää SD Connect -palveluun. Kirjautumisen aikana sinun on annettava CSC-käyttäjätunnuksesi ja salasanasi (Haka-tunnistautumista ei voi käyttää tässä).
- Kun yhteys on muodostettu, pienennä Data Gateway napsauttamalla “_”-symbolia Data Gateway -ikkunan oikeassa yläkulmassa.
-
Avaa seuraavaksi tiedostoselain ja siirry kotihakemistoosi (Home).

-
Jatka seuraavaa polkua pitkin: Projects → SD-Connect → project_2000828 → 2000828-social-data
- Kopioi tekemäsi tallenne kansiosta 2000828-social-data Volume-levylle luomaasi kansioon. Voit kopioida napsauttamalla tiedostoa hiiren oikealla ja valitsemalla “Copy to”.
- Seuraavassa valintaikkunassa Volume-levy löytyy vasemmalta puolelta laajentamalla “+ Other locations”. Vaihtoehtoisesti voit avata kaksi tiedostoselainikkunaa ja vetää tiedoston kansiosta toiseen. Huomaa, että kopiointi voi kestää jonkin aikaa.
- Kun tiedosto on kopioitu Volume-levyllä olevaan kansioosi, napsauta sitä hiiren oikealla ja valitse: “Open With Other Application”
- Valitse sitten: Video Player.
- Jos videosoitin pystyy toistamaan tallenteen alun, siirto onnistui ja voit sulkea soittimen.
4 Whisperin käyttäminen virtuaalityöpöydällä
4.1 Whisperin asentaminen (itsenäinen asennus)
Jos seuraat tätä ohjetta osana kurssia, voit ohittaa tämän vaiheen ja siirtyä seuraavaan. Kouluttaja on jo tehnyt tarvittavat asetukset puolestasi.
Jos seuraat tätä ohjetta itsenäisesti, käytä SD Software Installeria Whisperin asentamiseen virtuaalityöpöydällesi suorittamalla vaiheet 1–4 ohjelmiston asennusoppaassa kuvatulla tavalla.
4.2 Whisperin käyttäminen (jos se on jo asennettu)
Jos kurssin kouluttaja tai toinen CSC-projektisi jäsen on jo asentanut Whisperin virtuaalityöpöydälle, voit käyttää ohjelmistoa helposti seuraamalla alla olevia vaiheita:
- Siirry Data Gateway -sovelluksessa polkuun: Home → Projects → SD-Connect → project_2000828 → tools-for-sddesktop
- Kopioi tiedosto sd-installer-ubuntu22.desktop tästä kansiosta ja liitä se virtuaalityöpöydälle.
- Napsauta työpöydälle kopioitua tiedostoa hiiren oikealla ja valitse “Allow Launching”. Kaksoisnapsauta sitten tiedostoa. Tämä avaa asennustyökalun.
- Asenna puheentunnistusohjelmisto napsauttamalla työkalussa “Whisper”-painiketta.
-
Huomaa, että tämä vaihe asentaa oletuksena myös VS Coden ja lisää automaattisesti käynnistyskuvakkeet kaikille ohjelmistoille, jotka muut projektin jäsenet ovat sijoittaneet jaettuun kansioon.

5 Ensiaskeleet Whisperin kanssa
Whisper on nyt valmis käytettäväksi Terminalissa, jota kutsutaan myös komentorivityökaluksi. Terminal on yksinkertainen ikkuna, johon kirjoitat ohjeita (komentoja), ja virtuaalityöpöytä suorittaa ne. Et tarvitse ohjelmointitaitoja, kirjoita tai liitä komennot täsmälleen alla olevien vaiheiden mukaisesti, niin Whisper luo ääni- tai videotiedostojesi litteraatit puolestasi.
Voit syöttää komentoja kahdella tavalla:
- kirjoittamalla ne käsin Terminaliin tai
- liittämällä ne virtuaalityöpöydälle sisäänrakennetun Clipboard-työkalun avulla.
Tärkeää:
Tavallinen kopioi-liitä-toiminto kannettavasi ja virtuaalityöpöydän välillä on estetty turvallisuussyistä. Voit kuitenkin edelleen liittää tekstiä virtuaalityöpöydälle sen erityisen Clipboard-ominaisuuden avulla. Clipboard voi toimia eri tavalla selaimestasi ja tietokoneestasi riippuen, joten sen käyttöön tottuminen voi vaatia muutaman yrityksen. Clipboard toimii myös vain yhteen suuntaan: tietokoneeltasi virtuaalityöpöydälle, ei toisin päin. Lisätietoja Clipboard-työkalun toiminnasta on videossa ja ohjeissa täällä.
5.1 Avaa Terminal oikeassa kansiossa
Kun avaat Terminalin siinä kansiossa, jossa ääni- tai videotiedostosi sijaitsee, Whisper tietää automaattisesti, mistä tiedostoa etsitään ja minne tulokset tallennetaan. Tämä tekee seuraavista vaiheista yksinkertaisempia.
-
Avaa virtuaalityöpöydän Volume-taltio (vasen navigointipaneeli).
-
Siirry kansioon, johon ääni- tai videotiedostosi on tallennettu.
-
Napsauta hiiren oikealla tyhjää aluetta kyseisessä kansiossa ja valitse Open in Terminal. Terminal-ikkuna avautuu kyseiseen kansioon.
-
Voit nyt kirjoittaa yhden komennoista ja suorittaa sen painamalla Enteriä.
5.2 Aloittelijaystävälliset komennot
Alta löydät luettelon yksinkertaisista esimerkkikomennoista, jotka näyttävät, miten Whisperiä käytetään ääni- tai videotiedoston litterointiin ja tulosteen tallentamiseen. Voit kopioida nämä komennot ja korvata esimerkkitiedostonimet ja kansioiden nimet omillasi.
5.2.1 Miten luot englanninkielisen litteraatin ja tallennat sen tekstitiedostona
Jos haluat luoda litteraatin ääni- tai videotiedostosta ja tallentaa sen tekstitiedostona (.txt) siihen kansioon, jossa Terminal on parhaillaan avoinna, kirjoita:
Missä:
filename Sen tiedoston nimi, jonka haluat litteroida. Esimerkki: interview.mp3
--language en Käytä tätä, jos äänitiedostosi on englanniksi. Vaihda arvoksi fi, jos kieli on suomi, tai tarvittaessa jokin muu kielikoodi.
--output_format txt Tallenna litteraatti tavallisena tekstitiedostona (.txt).
--output_dir . Piste (.) tarkoittaa: “Tallenna tuloste siihen kansioon, jossa olen nyt.” Whisper sijoittaa kaikki luodut tiedostot siihen kansioon, jossa parhaillaan työskentelet, eli samaan kansioon, jossa avasit Terminalin.
Whisper nimeää tulostetiedoston automaattisesti syötetiedoston nimen perusteella.
Esimerkki oikeilla tiedostonimillä:
Jos syötteenä oleva äänitiedostosi on nimeltään interview.mp3, Whisper luo litteraatin interview.txt ja tallentaa sen nykyiseen kansioosi.
5.2.2 Miten määrität tulostekansion
Jos haluat luoda litteraatin ääni- tai videotiedostosta ja tallentaa sen tekstitiedostona (.txt) valitsemaasi kansioon, kirjoita Terminaliin seuraava komento:
Missä:
filename Sen ääni- tai videotiedoston nimi, jonka haluat litteroida. Esimerkki: interview.mp3
--language en Käytä tätä, jos äänitiedostosi on englanniksi. Vaihda se tarvittaessa toiseen kielikoodiin (esimerkiksi fi suomelle).
--output_format txt Tämä käskee Whisperiä tallentamaan litteraatin tavallisena tekstitiedostona.
--output_dir foldername Tämä on kansio, johon Whisper tallentaa luodun litteraatin. Korvaa foldername sen kansion nimellä, jota haluat käyttää.
Whisper nimeää tulostetiedoston automaattisesti syötetiedoston nimen perusteella.
Esimerkki oikeilla nimillä:
Jos syötteenä oleva äänitiedostosi on nimeltään interview.mp3, Whisper luo litteraatin interview.txt ja tallentaa sen kansioon nimeltä transcripts.
5.2.3 Miten litteroit pitkän ääni- tai videotiedoston nopeammin
Nyt kun olet oppinut luomaan litteraatteja ja tallentamaan ne haluamaasi tiedostomuotoon ja sijaintiin, voit alkaa käyttää Whisperiä tutkimuksesi oikeiden ääni- tai videotiedostojen litterointiin. Jos tallenteesi ovat pitkiä tai suuria, voit nopeuttaa litterointia lisäämällä valinnan:
Tämä käskee Whisperiä käyttämään 4 CPU-ydintä. Useamman ytimen käyttö yleensä nopeuttaa litterointia. Voit ajatella ytimiä virtuaalityöpöytäsi “laskentatehona”. Mitä enemmän ytimiä sinulla on, sitä enemmän tehtäviä se voi käsitellä samanaikaisesti — ja sitä nopeammin Whisper voi käsitellä äänitiedostosi.Täysi esimerkki:
whisper filename --model medium --language en --output_format txt --output_dir foldername --threads 4
Tärkeitä huomioita:
-
Useampien säikeiden käyttö voi lisätä nopeutta, mutta vain käytettävissä olevien CPU-ytimien määrään asti.
-
Jos säikeitä käytetään liikaa koneessa, jossa on rajalliset resurssit, suorituskyky voi heikentyä.
-
Jaetuissa järjestelmissä (esimerkiksi virtuaalityöpöydällä, jota muutkin käyttävät) monen säikeen käyttö voi hidastaa koko konetta kaikille.
Turvallinen lähtökohta on kokeilla vaihtoehtoa --threads 2 tai --threads 4 ja lisätä määrää vain, jos virtuaalityöpöydän vaihtoehto on siihen sopiva.
5.2.4 Miten litteroit ääni- tai videotiedoston, jossa puhuu useita henkilöitä
Voit myös pyytää Whisperiä yrittämään eri puhujien tunnistamista äänitteessäsi (esimerkiksi haastattelussa) lisäämällä:
Tämä käskee Whisperiä suorittamaan ylimääräisen vaiheen, jossa se yrittää merkitä, kuka puhuu milloinkin.
Huomaa kuitenkin: Puhujanerottelu hidastaa litterointiprosessia merkittävästi, erityisesti haastatteluissa tai pitkissä tallenteissa. Tulokset eivät aina ole täydellisiä ja voivat vaatia manuaalista korjausta. Jos tarvitset vain yksinkertaisen litteraatin, suosittelemme, ettet käytä puhujanerottelua.
Täysi esimerkki:
whisper --model medium --language en filename --output_dir foldername --output_format txt --threads 4 --diarize pyannotate_v3.0
5.2.5 Miten luot litteraatin määrittämättä kieltä
Jos et määritä kieltä, Whisper kuuntelee äänitteesi ensimmäiset noin 30 sekuntia ja yrittää arvata kielen automaattisesti. Tämä toimii yleensä hyvin, mutta:
- Automaattinen tunnistus tekee joskus virheitä
- Se voi kestää hieman kauemmin
- Taustamelu tai useiden kielten käyttö voi hämmentää sitä
Whisperin auttamiseksi ja tarkkuuden parantamiseksi on parasta määrittää kieli käsin silloin, kun tiedät sen jo ennestään, esimerkiksi suomi:
Täysi esimerkki:
5.2.6 Miten luot useita tulostemuotoja, mukaan lukien tekstitykset
Whisper voi tallentaa litteraattisi useisiin eri tiedostomuotoihin samalla kertaa komennolla:
Täysi esimerkki:
Tämä luo transcriptistasi txt-, srt-, vtt-, tsv- ja json-versiot.
Tässä ovat yleisimmät vaihtoehdot, jotka voit myös määrittää all-vaihtoehdon sijaan:
srt — Tekstitystiedosto Luo tekstitystiedoston aikaleimoilla, jota käytetään laajasti videoissa (esim. YouTube-tekstitykset).
txt — Tavallinen teksti Luo yksinkertaisen tekstitiedoston ilman aikaleimoja (helppo lukea tai muokata).
vtt — Verkkotekstitysmuoto Samankaltainen kuin .srt, mutta käytetään pääasiassa verkkosoittimissa.
tsv — Taulukkomuotoinen tuloste Luo sarkainerotellun tiedoston, joka sisältää aikaleimat ja tekstin — hyödyllinen analyysissä.
json — Rakenteinen tuloste Tallentaa litteraatin JSON-muodossa, mukaan lukien metadata.
all — kaikki muodot
5.3 Whisperin edistyneempi käyttö Terminalissa
Tässä osiossa kerrotaan, miten Whisperiä ajetaan suoraan Terminalissa, miten käytettävissä olevat komennot tarkistetaan ja miten litteroinnin aikana luotuja tiedostoja tarkastellaan. Komennot kirjoitetaan Terminal-ikkunaan ja suoritetaan painamalla Return/Enter.
Komentojen perusrakenne on:
5.3.1 Tiedostojen tarkistaminen Terminalissa
Käytä komentoja ls ja ls -l hakemiston sisällön listaamiseen:
5.3.2 Whisperin asennuksen tarkistaminen
Voit tarkistaa, että whisper-komento on käytettävissä, suorittamalla:
Tämä komento tulostaa whisperin käyttöohjeet. Ohjeiden mukaan perussyntaksi on:
5.3.3 Whisperin suorittaminen käsin
Tarkista tallennetiedostosi nimi suorittamalla ls uudelleen.
Käytä medium-mallia. Komennon pitäisi näyttää tältä:
Korvaa VID_43455_888.mp4 omalla tiedostonimelläsi.
Komennon suorittaminen kestää jonkin aikaa. Kun se on valmis, tarkista hakemiston sisältö komennolla:
6 Litteraatin avaaminen
Voit sitten avata luodun .txt-tiedoston LibreOffice Writerissa. LibreOffice löytyy SD Desktopin vasemmasta alakulmasta kohdasta “Show Applications”.
