Bruk av syntetisk tale i fulltekst DAISY titler

Skrevet av: Morten Tollefsen
Sist oppdatert: 20.12.2006

Bakgrunn

DAISY er nå en etablert standard for "tilrettelagte bøker". Produksjon av DAISY lydbøker er satt i system, og dette formatet leveres til sluttbruker både i skoleverket og til lånere hos lydbibliotekene. Norges blindeforbund (NBF) og Kristent Arbeid Blant Blinde og svaksynte (KABB) utgir lydaviser i DAISY, og en rekke andre organisasjoner har utgitt en eller flere titler.

DAISY er på mange måter et teknologidrevet format. I mai 2005 innvilget Norges forskningsråd midler til et toårig prosjekt for å samle inn brukernes erfaring, og for å bruke resultatene til å lage bøkene slik brukerne ønsker. Mer presist er målet i prosjektet formulert slik: utvikle og evaluere metoder og standarder for produksjon av DAISY fulltekst bøker, og utarbeide retningslinjer for når ulike løsninger kan benyttes.

I dette notatet oppsummerer jeg noen av erfaringene knyttet til fulltekstbøker produsert med syntetisk tale. Foreløpig er det begrensede brukererfaringer med slike produksjoner, men det er grunn til å tro at bruk av syntetisk tale vil bli mer og mer aktuelt for noen typer publikasjoner. Både Huseby kompetansesenter, Norsk lyd- og blindeskriftbibliotek (NLB) og DAISY-leverandørene har erfaring med bruk av syntetisk tale. Brukernes og produsentenes erfaringer er hentet fra ulike produksjoner: NLBs tidsskrifter, pensumbøker i videregående skole, fagbøker for voksne og generelle tilbakemeldinger fra en åpen spørreundersøkelse.

Målet med dette notatet har vært å skrive en slags "statusrapport" for når syntetisk tale kan/bør brukes. Forbedret talesyntese, nye rutiner for automatisert behandling/tag'ing av elektronisk tekst og baser med ferdige bildeforklaringer er bare noen eksempler på at status og kvalitet for syntetisk tale titler kan endres.

Innledning

Dersom du ikke kjenner de ulike DAISY boktypene kan du lese neste avsnitt: "Hva er en fulltekst tittel?"

Nye produksjonsverktøy gjør det i prinsippet enkelt å lage en DAISY fulltekstbok med syntetisk tale. Med Dolphin EasyProducer kan du f.eks. ta inn et dokument i Word, trykke på en verktøyknapp og en fulltekst DAISY bok lages helt automatisk. Skal DAISY-boka ha inndeling i nivåer må det brukes riktige stiler (overskrifter), og dette verktøyet har ikke avansert funksjonalitet for tag'ing etc. Men enkelt er det, og EasyProducer brukes alt av mange for å lage "enkle" titler. Proffesjonelle verktøy har også fått vesentlig bedre støtte for fulltekst. Phoneticom DAISY generator er det mest brukte verktøyet i Norge. NLB har blant annet benyttet DAISY generator for å lage studiebøker, tidsskrifter, produktkataloger mm. Også Dolphin EasyPublisher har fått langt bedre støtte for fulltekst. Kort oppsummert er det vesentlig enklere å lage en fulltekstbok i dag enn for noen få år tilbake. Likevel har ulike erfaringer vist at det fortsatt er utfordringer knyttet til slike produksjoner: kvalitet/virkemåte for syntetisk tale, pedagogisk markup, behandling av bilder, håndtering av valgfritt innhold (skipability) mm.

For å kunne lage bøker med syntetisk tale trengs den elektroniske teksten. Kvaliteten på DAISY-boka avhenger i stor grad av hvordan denne teksten er strukturert og tag'et. Fulltekstbøker generelt og syntetisk tale spesielt har vært særlig fokusert i forhold til studielitteratur. Det er flere grunner til dette, blant annet:

  • Produksjonstid er viktig, dvs. elever/studenter må få bøkene i rett tid.
  • Litteraturen brukes i mange tilfeller en kort periode og av få personer.
  • Syntetisk tale er alt "kjent" teknologi for mange (f.eks. i skjermlesere).
  • ...

Med utgangspunkt i problemstillingen om hvilken litteratur som egner seg for bruk av syntetisk tale hadde vi en hypotese om at skjønnlitteratur var minst egnet, mens vi antok at det lå bedre til rette for produksjon av faglitteratur ved hjelp av syntetisk tale. Denne hypotesen var basert på en oppfatning om at skjønnlitteratur må leses inn med menneskelig intonasjon og formidling, dersom ikke leseopplevelsen skal forringes betraktelig, men at "mer tørt stoff! Som studielitteratur ikke i samme grad har opplevelseselementet i seg. Denne hypotesen må imidlertid vurderes i forhold til krav til kvalitet, studiebokas kompleksitet og språk mm.

Hva er en fulltekst tittel?

DAISY-bøker kan inneholde en kombinasjon av lyd, tekst og bilder. Det vanligste i Norge er at skjønnlitterære bøker lages med en innholdsfortegnelse og at boka ellers kun inneholder lyd (innlest tale). Bøker med synkronisert tale og tekst/bilder begynner etter hvert også å bli vanlige, men da til andre publikasjoner (skolebøker, studielitteratur, blader, brukerveiledninger mm.).

Totalt er det definert seks ulike boktyper i DAISY-standarden, og disse er kort gjengitt nedenfor:

Type Beskrivelse
1 Tittel/lyd: Bare boktittelen er lagt inn som tekst. Resten av boka består av sekvensiell lyd. Det er ikke mulig å gå til spesielle punkter i boka (f.eks. hoppe mellom kapitler). Det kan imidlertid være mulig å hoppe fra frase til frase. En frase tilsvarer ofte en setning.
2 NCC/lyd: Dette er en bok med struktur. NCC står for Navigation Control Centre, og tilsvarer ofte innholdsfortegnelsen i den trykte boka. I tillegg til å spille av boka sekvensielt kan man navigere mellom kapitler, gå til gitte sider osv. Dette er den vanligste boktypen.
3 NCC/lyd/deler med tekst: I tillegg til Type 2 kan disse bøkene inneholde deler med tekst. Det mest aktuelle er å legge inn tekst for deler der det kan være spesielt nyttig med søk etter ord og uttrykk (f.eks. en indeks).
4 Full tekst/full lyd: Disse bøkene inneholder både en struktur (innholdsfortegnelse), full lyd og hele teksten (evt. inkl. bilder). Slike bøker kalles gjerne for fulltekstbøker og tekst er muligens litt misvisende (bøkene kan også inneholde bilder).
5 Full tekst/deler med lyd: I disse bøkene er hele teksten lagt inn, men kun deler av teksten er lest inn. Et bruksområde for slike bøker kan være ordbøker, der kun uttalen av oppslagsordene er lest inn.
6 Tekst: Kun strukturert tekst er tilgjengelig, dvs. bøker uten lyd.

Et presist begrepsapparat for de ulike boktypene er ikke etablert. Det er heller ikke alltid enkelt å si at en bok hører til en av disse kategoriene. Et eksempel kan være dersom man legger inn en logo i en type 2 bok. Ofte brukes begrepene "DAISY lydbok" om type 2 og "DAISY fulltekst lydbok" om type 4. Noen snakker også om NCC versjon eller NCC only om type 2. Rent teknisk er det mer presist å bruke TOC only om type 2, men begge disse begrepene blir nokså uforståelige for de fleste! Begrepene "DAISY bok med litt tekst" eller "DAISY bok med litt lyd" er ikke i bruk.

Når "fulltekst" brukes i dette notatet menes type 4. Syntetisk tale er også aktuelt i forbindelse med type 6 produksjoner, men foreløpig vet vi ikke om slike titler i Norge. Pr. i dag vil type 6 bøker bare kunne spilles av med programvare for PC, og kun med programvare som har funksjonalitet for syntetisk tale (DAISY-spillere kan ikke brukes siden disse foreløpig ikke har innebygget syntetisk tale).

Kvalitet eller kvantitet?

Pr. i dag er kvaliteten på sluttproduktet (DAISY-boka) best med en god menneskelig innleser. Bruk av kunstig tale vil derfor ikke forbedre kvaliteten, og det er andre grunner til at flere miljøer satser betydelige ressurser på denne teknologien. To viktige stikkord er:

  • Produksjonstid (i beste fall kan en tittel produseres så godt som automatisk)
  • Kostnader (utgiftene til en innleser kan bespares)

SAF (Synshemmede Akademikeres Forening) har fattet følgende prinsipielle vedtak: "Synshemmede Akademikeres Forening mener at det i arbeidet for å øke tilgangen til faglitteratur for vår gruppe er nødvendig å gjøre visse prioriteringer med hensyn til produksjonsmåte og formater. Økt og raskere tilgang til faglitteratur forutsetter at elektroniske tekstformater og lydbøker med syntetisk tale er hovedløsningen. Kun fagstoff som ikke kan leses direkte ut av tekstformater eller ved hjelp av syntetisk tale, må innleses ved bruk av faglig kvalifisert innleser.”

I dette vedtaket går det tydelig frem at SAF mener at kvantitet er viktigere enn kvalitet. Dette er i verste fall et uheldig vedtak siden svært mange studiebøker krever spesiell tilrettelegging (bildebeskrivelser, forklaring av tabeller, ...). Motivasjonen er naturligvis enkel å forstå: studenter kan få bøker raskere, og titler som ellers ikke ville kunne prioriteres kan produseres. Faren er imidlertid at studenter med behov for tilrettelagt litteratur litt for lett kan få nettopp valget mellom syntetisk tale eller "ingen bok". I vedtaket forutsettes det at syntetisk tale vil gjøre produksjoner raskere og billigere, og forutsetningen er at kvaliteten blir akseptabel. Hva som kan regnes som akseptabel kvalitet er imidlertid foreløpig ikke definert, og en student som sitter med en "dårlig bok" kan lett måtte slite med ganske mange uheldige "tolkninger" fra talesyntesen. (dersom det ikke foretas omfattende korrektur med rettinger). En elev på videregående skole eller høyere vil normalt kunne kompensere bedre for f.eks. mangelfull uttale enn elever i grunnskolen, og det er grunn til å tro at uttale er noe mindre kritisk.

En avgrenset undersøkelse foretatt av NLB viste at brukere heller ville ha flere tidsskrifter enn forbedret kvalitet på utgivelser. Dette forutsatt at uttale er akseptabel. Igjen ser vi at "kvantitet" er viktigst. Dette vil neppe overraske noen. I Norge utgis det så lite tilrettelagt litteratur at brukerne er villige til å akseptere en god del for å få et bredere tilbud.

Også mennesker med en funksjonshemning bør ha krav på litteratur med høy kvalitet og hensiktsmessig tilrettelegging. Dette er viktig for effektiv læring og lystbetont lesing. Det å ha en kritisk holdning til når syntetisk tale er hensiktsmessig er derfor nødvendig. Det er her selvsagt ikke snakk om enten/eller, men å definere hvilken metode som er best egnet til ulike produksjoner.

Tilgjengelig norsk talesyntese

"Smaken er som baken, og den er delt i to!" Dette ordtaket stemmer svært godt når vi snakker om syntetisk tale. Alle synteser må til en viss grad læres, og da vil brukerne ofte preferere den talen de er mest vant til å høre på. Skal bøker lages med syntetisk tale er det derfor ikke nødvendigvis helt uproblematisk å velge "stemme".

For produksjon av fulltekst-bøker er stemmen Acapela Kari nærmest enerådende. Dette er den mest moderne norske stemmen. Telenor har vurdert Kari til å være for dårlig i publikumstjenester for telefoni, og stemmen må til en viss grad "læres". Kari brukes også som syntese på PC. MediaLT har en god del erfaring med at Kari faktisk byttes ut av de som får den på PC. Brukerne sier at de blir slitne av å høre på stemmen, at hastighetsregulering fungerer dårlig, at syntesen er treig (dårlig responstid), at mange ord uttales uforståelig (stedsnavn, engelske uttrykk mm)( osv. Om andre leverandører har tilsvarende erfaringer vites ikke. Disse erfaringene kan heller ikke uten videre "overføres" til denne stemmen brukt for produksjon av DAISY. Erfaringene indikerer imidlertid at: selv om Kari regnes for den beste norske talesyntesen er det fremdeles behov for videreutvikling av teksttolking, utale etc.

RealSpeak Nora brukes i forbindelse med produksjonsverktøyet EasyProducer. Nora er en forholdsvis vanlig stemme på PC (Jaws, Voxit Budgie Pro mm), og stemmen benyttes i tillegg på mobiltelefoner. Brukere sier at stemmen er tydelig, og at den fungerer OK påde til lesing av bokmål og nynorsk. Jeg kjenner ikke til undersøkelser som har sammenliknet f.eks. Nora og Kari, men har fått et inntrykk av at en del blinde og svaksynte faktisk foretrekker Nora. Mange dyslektikere kjenner Nora, spesielt fordi denne stemmen benyttes i Voxit Budgie Pro.

Nedenfor finner du også et eksempel med Infovox Vegar, som er en eldre talesyntese (brukes fortsatt av mange synshemmede på PC, mobil etc). Denne stemmen høres ikke "ekte" ut. Det som gjerne trekkes frem som en fordel i forhold til bruk på PC er at stemmen er rask (god responstid), at teksten leses slik den står mm. Vegar leser forståelig også på engelsk (selv om uttalen gjør at det blir NorwEnglish). Selv er jeg så vant til denne stemmen at den for meg er overlegent mest forståelig av samtlige synteser, og nettopp dette er sannsynligvis betegnende: "gammel vane er vond å venne." Selv syntesen med dårligst uttale foretrekkes av noen pga. vane og andre egenskaper (Vegar kan f.eks. øke hastigheten svært mye uten at talekvaliteten reduseres).

Som en sammenlikning til de norske stemmene er en flerspråklig syntese, Loquendo, tatt med (leser ikke den samme teksten, siden norsk stemme ikke finnes til denne syntesen).

Eksempler på talesynteser:

Ulike typer litteratur

Nedenfor behandles noen vanlige medier, og de bruker/produsenterfaringene som foreløpig er kjente.

Skjønnlitteratur

Syntetisk tale har vært lite aktuelt i forbindelse med skjønnlitteratur. En vanlig oppfatning er at innleseren til en viss grad må tolke stoffet for å formidle innholdet på en god måte. Fulltekstbøker kan imidlertid være veldig aktuelle også for skjønnlitteratur, siden slike bøker langt på vei kan sies å være universelt utformede:

  • De som ønsker det kan lytte til tale
  • De som ønsker det kan lese teksten på en skjerm
  • Tekst/bilder og tale kan spilles av synkronisert vha. en datamaskin

I noen tilfeller kan også syntetisk tale være aktuelt for skjønnlitteratur:

  • Dersom elektronisk tekst er tilgjengelig og en tittel ellers ikke ville kunne produseres (eller dette ville tatt for lang tid). Normalt vil en skjønnlitterær bok være enklere å lage med syntetisk tale enn en representativ studiebok.
  • Enkel produksjon fra skannet tekst. Noen synshemmede skanner bøker, og personer som ikke bruker PC kan kanskje være interessert i en lydutgave med kunstig tale (selv om boka vil ha mangler mht. struktur etc. dersom den ikke er redigert etter tegngjenkjenningen).

National Library for the Blind (2005) gjennomførte en nokså omfattende studie av skjønnlitteratur produsert med syntetisk tale. I alt 400 personer deltok i undersøkelsen og 174 svarte på et spørreskjema. 38% var enten "fornøyde" eller "veldig fornøyde" med bøkene. 64% foretrakk lyd, 32% foretrakk synkronisert tekst/lyd, 2% foretrakk elektronisk tekst og ca. 3% svarte ikke på hvilket format de likte best. 80% foreslo forbedringer i bøkene, spesielt anbefalinger om å bruke alternative talesynteser. 72% mente at de kunne høre på menneskelig innlesing lengre enn syntetisk tale. De fleste ville ha menneskelig innlesing i alle bøker dersom de kunne velge. Engelsk/amerikansk talesyntese regnes for å være bedre enn norsk, og da er følgende fra undersøkelsen litt interessant: 19% of testers were either very satisfied or satisfied with the synthetic voices used, 23% were neither satisfied or dissatisfied and 58% were either dissatisfied or extremely dissatisfied.

Studielitteratur

For mange lesehemmede er tilgangen på tilgjengelig studielitteratur et svært stort problem. Løsninger som kan redusere produksjonstiden for nye titler er derfor et viktig satsingsområde. Syntetisk tale (jfr. SAF-vedtaket over) er en mulig løsning, men naturligvis må sluttproduktet være forståelig, og uten feil som gjør at stoffet blir unødvendig forvirrende.

Huseby og NLB sier at erfaringene som foreløpig er knyttet til tilrettelagt studielitteratur er  at behovet for korrektur har vært omfattende pga. den måten talesyntesen tolker teksten på. Det som kan sies å være "nødvendig tilrettelegging" for at en bok skal kunne brukes må i utgangspunktet gjøres uansett om teksten leses inn eller produseres vha. kunstig tale. Besparelsen (tid/kostnad) vil dermed hovedsaklig være innleseren.

Noen få eksempler på utfordringer knyttet til bruk av syntetisk tale i studiebøker har vært:

  • Uttalefeil
  • Talen skiller ikke mellom store og små bokstaver. I en bok ble B=far, b=mor brukt for å beskrive genpar.
  • 1970-1980 leses (1970 minus 1980).
  • C leses Celcius, men da leses vitamin C som "vitamin celcius".
  • Mange utenlandske navn leses så "rart" at de er helt uforståelige.
  • Overskrifter med STORE bokstaver staves.
  • ...

Tas det ikke høyde for slike "feil" vil materiellet lett kunne bli uforståelig eller i det minste ganske forvirrende for brukeren. Et eksempel fra en bok med mangelfull korrektur produsert høsten 2006:

Eksemplet over viser at uten korrektur kan selv et nokså enkelt tekstykke bli bortimot komplett uforståelig.

Et eksempel på enklere, løpende tekst:

I eksemplet over er det flere uttalefeil og tempo-variasjoner. Dette er imidlertid av en karakter/omfang som ikke ødelegger eller gjør teksten uforståelig. I en bok som kun skal leses av en person (har liten aktualitet) vil dette derfor kunne være akseptabelt.

Alder vil helt opplagt være et viktig kriterie når syntetisk tale skal vurderes. Elever i grunnopplæringen har ikke noe valg, og dermed vil motivasjonen helt klart være annerledes enn for eldre lesere som selv har valgt et studium. Innlært/passivt ordforråd er en medvirkende årsak til at syntetisk tale ikke egner seg like godt til barn og elever i grunnopplæringen som f.eks. for mange studenter og voksne. De siste har et større innlært passivt ordforråd som de aktivt vil bruke for å kompensere for talesyntesenes svake eller feilaktige uttale av enkelte ord. Erfaringene så langt tyder på at barn og ungdom i grunnopplæringen i liten grad klarer å kompensere for talesyntesenes feillesning (særlig når det gjelder faglitterære bøker/lærebøker) og at det for denne yngre brukergruppen derfor er viktig med innleste bøker.

Kompleksiteten i studiebøker er naturligvis svært varierende. Enkle tekster vil alt i dag kunne produseres effektivt med syntetisk tale, men kvaliteten på talesynteser tilsier at det i mange tilfeller vil være mangler i DAISY-boka uten betydelig korrektur. Dette vil imidlertid stadig bli bedre etter hvert som talen forbedres, konvertering av elektroniske formater videreutvikles osv. NLB har produsert ca. 100 fulltekst studiebøker i 2006, og mottakerne aksepterer produksjonene ut fra de kriteriene som er satt opp.

Aviser/blader

Aviser og mange blader er eksempler på publikasjoner som må produseres raskt. Selv gårsdagens avis er mindre verdifull enn helt ferskt stoff, og det er viktig at materiellet produseres og distribueres til sluttbrukeren på den mest effektive måten. I slike tilfeller er automatisert konvertering til DAISY og produksjon vha. syntetisk tale den mest aktuelle veien å gå. Noen uttalefeil (kanskje også ord/uttrykk som kan bli nesten uforståelige) kan antakelig aksepteres, siden alternativet er å ikke få publikasjonen eller vente til den er "gått ut på dato".

Både nedlasting og streaming er aktuelle distribusjonsløsninger for slike publikasjoner. I dag er den vanligste måten å distribuere DAISY på en CD som sendes i posten. I Aftenposten-prosjektet som starter opp tidlig i 2007 vil tre distribusjonsmåter testes ut: CD i posten, streaming og nedlasting.

Offentlig informasjon

Offentlige myndigheter sprer mye informasjon, og denne informasjonen har nokså ulikt bruksområde, kompleksitet og varighet mht. tid.

Om bruk av syntetisk tale er godt nok vil derfor variere. For publikasjoner med almenn interesse, og som har lang varighet bør det vurderes om menneskelig innlesing er best egnet, selv om dette kan koste noe mer.

Går vinninga opp i spinninga?

Bruk av syntetisk tale i fulltekst DAISY bøker kan være svært aktuelt dersom man har tilgang til strukturerte elektroniske formater som kan konverteres automatisk til DAISY. Pr. i dag egner dette seg best til forholdsvis enkel tekst.

For fulltekstbøker (type 4) som skal ha en kvalitet som tilsvarer det f.eks. Huseby legger opp til er syntetisk tale ikke brukt pr. i dag. Pedagogisk tilrettelegging er viktig, blant annet fordi elevene i grunnopplæringen ikke selv har noe valg mht. hvilke bøker de skal bruke. Elevene vil videre ha forskjellige forutsetninger for å lære stoffet, og det er viktig at innholdet i bøkene gjøres mest mulig forståelig og brukervennlig.

Tag'ing av tekst (bildebeskrivelser, forklaring av tabeller, omstrukturering/ekstra struktur, ...) må legges inn manuelt. Dette arbeidet er noe mer omfattende for bøker laget med syntetisk tale (en kvalifisert innleser vil kunne gjøre enkelte valg mens boka leses inn, og som dermed ikke må merkes). Tabeller og lesing av punktlister er to eksempler. Den potensielle besparelsen dersom syntetisk tale brukes er ca 1/3 av total produksjonstid. Foreløpig vil imidlertid noe av denne "potensielle besparelsen" gå med til korrektur og feilretting.

Husebys konklusjon per i dag er at bruk av syntetisk tale ikke er aktuelt, primært på grunn av for dårlig kvalitet på uttalen, og også på grunn av det økte arbeidet med å utarbeide et godt fulltekstgrunnlag. Dersom læremiddelavdelingen går over til masterfilbasert produksjon av tilpassede lærebøker, vil det medføre at fulltekstgrunnlaget genereres automatisk fra masterfilen, og fulltekstbøker vil dermed bli hovedproduktet for lydbøker. Dette kan innebære at Huseby vil ta i bruk syntetisk tale, for eksempel som en midlertidig løsning til boken er ferdig innlest med human innleser.

Konklusjon

Besparelsene som kan oppnås gjennom å bruke syntetisk tale kan være betydelige dersom strukturert elektronisk tekst er tilgjengelig, og både studielitteratur og annet materiell kan produseres rimelig og effektivt. Mye studielitteratur krever imidlertid betydelig tilrettelegging, og skal syntetisk tale brukes kreves det ekstra tag'ing og korrektur for å få et sluttprodukt med høy kvalitet. Syntetisk tale i DAISY bøker kan derfor være minst like aktuelt til andre medier, i noen tilfeller også skjønnlitteratur.

Noen hovedpunkter som oppsummerer status/brukererfaringer med syntetisk tale:

  • Kvalifisert menneskelig innleser gir et bedre sluttprodukt enn titler produsert med syntetisk tale.
  • Syntetisk tale egner seg for produksjon av "enkel tekst". I noen tilfeller kan dette også gjelde skjønnlitteratur.
  • Syntetisk tale er den mest aktuelle løsningen for publikasjoner som utgis jevnlig, og som det haster med å få ut (aviser, blader, ...).
  • Studiebøker der det er behov for "pedagogisk markup" egner seg dårlig for produksjon med syntetisk tale.
  • Selv om en fulltekstbok skal leses inn kan syntetisk tale brukes som en midlertidig løsning for å gi leseren boka raskt.
  • Studiebøker er svært forskjellige, og for materiell som består av vanlig, løpende tekst kan syntetisk tale brukes. Dette er mer aktuelt for eldre lesere enn f.eks. for elever i grunnopplæringen.