For ti år siden spådde det kjente analyseselskapet Gartner at språkteknologi skulle bli stort. Til tross for at språkteknologien ennå ikke har tatt helt av, har analyseselskapet fortsatt stor tro på denne teknologien. I årets Blestsirkel antar Gartner igjen at taleteknologien står foran lyse utsikter.
Optimismen var også stor, da Nordisk Språkteknologi (NST) ble etablert på Voss i 1999. Storsatsingen ble imidlertid en fiasko, og i 2003 gikk selskapet konkurs. Da hadde det blitt investert om lag 200 millioner kroner i selskapet og på det meste var over hundre personer ansatt i NST. I kjølevannet av konkursen oppsto det et vakuum i satsingen på norsk taleteknologi, og som en følge av dette har fremdriften i utviklingsarbeidet vært svært liten.
Selv om det store gjennomslaget for taleteknologi fortsatt lar vente på seg, ser vi imidlertid på linje med analyseselskapet Gartner at taleteknologien nå er på full fremmarsj. Utviklingen har tatt lengre tid enn først antatt, men vi tror fortsatt at taleteknologi skal bli stort. Som en FOU-bedrift på området IT og funksjonshemmede ser vi dessuten et særlig stort potensiale for taleteknologien innenfor vår målgruppe. Videre mottar vi stadig henvendelser fra funksjonshemmede vedrørende statusen på området norskspråklige løsninger for stemmestyring, der vi også blir oppfordret av funksjonshemmede til å ta tak i dette fagfeltet. Dette er også noe av bakgrunnen for at vi nå ønsker å starte et forprosjekt på dette området.
Med taleteknologi mener vi maskinell bearbeiding av tale. Med andre ord at datamaskinen kan snakke og forstå tale, dvs et talebasert brukergrensesnitt. Taleteknologi kan deles inn i:
1. Kunstig tale eller talesyntese, (”konvertering av tekst til tale”)
2. Automatisk talegjenkjenning, (”konvertering av tale til tekst eller handling”).
3. Talte dialogsystem (“koverserende datamaskiner”)
4. Talergjenkjenning/verifisering (“biometriske systemer”)
I dette prosjektet vil vi legge mest vekt på automatisk talegjenkjenning, men vi vil også berøre syntetisk tale og dialogsystem. I denne søknaden bruker vi begrepet stemmestyring om automatisk talegjenkjenning.
Forprosjektets hovedmål er:
Kartlegge og utrede muligheten for et utviklingsprosjekt som forenkler interaksjonen mellom menneske og maskin ved hjelp av stemmestyring, og legge grunnlaget for et slikt utviklingsprosjekt, dersom dette er teknologisk og økonomisk hensiktsmessig og mulig.
Dette hovedmålet kan deles inn i følgende delmål:
1. Kartlegge statusen når det gjelder stemmestyring nasjonalt og internasjonalt
2. Kartlegge målgruppens behov for stemmestyring generelt, og prioriterte oppgaver spesielt, dvs hvilke oppgaver som bør prioriteres i interaksjonen mellom menneske og maskin.
3. Kartlegge statusen når det gjelder arbeidet med å få til en norsk språkbank, og videreføre dette arbeidet.
4. Bygge opp et forskningssamarbeid med aktuelle forskningsmiljøer
5. Legge grunnlaget for et hovedprosjekt, dersom dette er teknologisk og økonomisk hensiktsmessig og mulig.
Prosjektets hovedmålgruppe er funksjonshemmede generelt og bevegelseshemmede, dyslektikere og synshemmede spesielt. Med bevegelseshemmede mener vi her bevegelseshemmede som har problemer med å bruke vanlig tastatur, f. eks personer med Parkinson, mennesker som er lam fra nakken og ned osv. I behovsanalysen som skal gjennomføres vil fokusgruppene derfor bestå av personer fra disse tre gruppene av funksjonshemmede (jfr: 3.2 Kartlegge målgruppens behov for stemmestyring, side 4).
Samtidig vil vi understreke at stemmestyring har et langt bredere nedslagsfelt enn funksjonshemmede. Stemmestyring er blant annet i dag en funksjon som finnes i de engelske programvareversjonene av MS Office. Av denne grunn vil vi presisere at vi ser et betydelig markedspotensiale i stemmestyring rettet mot det generelle markedet, men at vi i første omgang finner det hensiktsmessig å begrense prosjektets målgruppe til funksjonshemmede. Dette har sammenheng med at vi oppfatter behovene som størst i denne målgruppen og at det med bakgrunn i vår fagkompetanse er fornuftig å fokusere på denne målgruppen. Tidligere erfaring viser imidlertid at løsninger utviklet spesielt med tanke på funksjonshemmede også kan møte et behov i det generelle markedet, og på sikt tror vi derfor på at gode norskspråklige løsninger for stemmestyring vil ha et betydelig markedspotensiale utover målgruppen funksjonshemmede.
Kartleggingen av statusen når det gjelder stemmestyring nasjonalt og internasjonalt vil bli basert på det kartleggingsarbeidet som allerede er gjennomført på området. Utgangspunktet vil være Knut Kvales statusrapport: Status for norsk taleteknologi – februar 2005. Kvale skal på oppdrag fra IT Funk i sommer oppdatere denne statusrapporten. Denne oppdateringen vil bli sett i sammenheng med dette prosjektet, og oppdateringen vil komme dette prosjektet direkte til gode.
3.2 Kartlegge målgruppens behov for stemmestyring
Dette prosjektet bygger på en hypotese om at stemmestyring vil forenkle interaksjon mellom menneske og maskin, og at denne forenklingen spesielt vil komme prosjektets målgruppe til gode. På denne bakgrunn vil dette prosjektets hovedaktivitet være å kartlegge målgruppens behov for stemmestyring generelt og prioriterte oppgaver spesielt.
Under planlegging og drifting av automatisk talegjenkjenning er det viktig å ta hensyn til at tjenesten aldri vil bli feilfri, fordi feilkildene er så mange. Presisjonen på den automatiske talegjenkjenningen vil imidlertid variere med hvilken plattform for automatisk talegjenkjenning man velger å bruke. Vi skiller mellom tre hovedformer:
1. Talegjenkjenning i PC-anvendelser
2. Talegjenkjenning i telefontjenester
3. Talegjenkjenning i innvevde system
Et typisk bruksområde for talegjenkjenning i PC-anvendelser kan være diktering av brev. Et diktert brev innenfor et definert fagområde med faguttrykk vil redusere feilprosenten, mens et mer dagligdags brev med bruk av dialekt og slang vil redusere presisjonen. Utfordringene er langt mindre, dersom det er snakk om å få maskinen til å utføre bestemte handlinger ved hjelp av forhåndsdefinerte talekommandoer, som f. eks å endre farge på en tekst, fordi det her kun er bestemte ord/talekommandoer som må kjennes igjen.
Talegjenkjenning i forbindelse med telefontjenester kan ha stor presisjon dersom ordforrådet er lite og dialogen er systemstyrt. I en situasjon med mye bakgrunnsstøy og dårlig linjekvalitet er det en forutsetning at dialogen mellom menneske og maskin er så presis som mulig, hvis dialogen skal fungere. Vanligvis legges det derfor opp til at man kun skal svare med ett eller to ord, for å minimalisere feilkildene.
Talegjenkjenning i innvevde systemer vil si at taleteknologien er en integrert del av f. eks en mobiltelefon, en set up-boks og lignende. Taleteknologien er komprimert ned i størrelse, slik at den kan integreres i en liten minnebrikke eller en liten boks.
I dette forprosjektet vil vi ha en spesiell fokus på taleteknologi i forbindelse med PC-anvendelser. Dette har sammenheng med at i forhold til det norske markedet er dette et området med mange uløste oppgaver og samtidig også der brukerbehovene er størst. Men vi vil også se på de to andre anvendelsene; telefonitjenester og innevevde systemer.
Med bakgrunn i de avgrensningene som er foretatt over, vil kartleggingen konsentrere seg om målgruppens behov for stemmestyring generelt og stemmestyring i forbindelse med PC-anvendelser spesielt.
Behovsanalysen vil bli gjennomført ved hjelp av intervjuer i fokusgrupper. Hovedmålgruppen er bevegelseshemmede, dyslektikere og synshemmede, og tolv fokusgrupper med tre personer i hver fokusgruppe vil bli etablert (fire grupper med bevegelseshemmede deltakere, fire grupper med dyslektikere og fire grupper med synshemmede). Fokusgruppene vil være homogene, fordi vi ønsker å se om behov og prioriterte oppgaver i vesentlig grad varierer blant synshemmede, dyslektikere og bevegelseshemmede. Fokusgruppene vil bli inndelt på følgende måte.
1. Under 60 år med god IT-kunnskap
2. Over 60 år med god IT-kunnskap
3. Under 60 år med dårlig IT-kunnskap
4. Over 60 år med dårlig IT-kunnskap
Fokusgruppene vil bli plukket ut i samarbeid med dysleksiforbundet i Norge, Norges Blindeforbund og Norges Handikapforbund, som alle er med i prosjektgruppen til dette prosjektet. I forbindelse med intervjuene av fokusgruppene vil tre personer delta: En som leder intervjuene, en som tar referat og en som tar videoopptak av intervjuene. Et intervjuskjema vil bli utarbeidet i forkant av intervjuene.
Intervjuene i fokusgruppene vil starte med at deltakerne gis en kort teoretisk innføring i stemmestyring. Intervjuene vil bli gjennomført med hovedvekt på å få til et samspill og en dialog internt i fokusgruppene, og spørsmålene vil således ha en forholdsvis åpen og vid tilnærming til problemfeltet. Detaljene i gjennomføringen av intervjuene i fokusgruppene og i selve behovsanalysen vil bli utarbeidet i forbindelse med detaljplanleggingen av prosjektet.
Kartleggingen av behov for stemmestyring generelt og prioriterte oppgaver spesielt vil bli sett i sammenheng med den statusen som gjøres opp når det gjelder stemmestyring nasjonalt og internasjonalt, og vil danne grunnlaget for hva som blir definert som hovedsatsingsområder i et hovedprosjekt.
Behovet for en norsk språkbank har tydelig blitt dokumentert i rapporten: Samling og tilgjengeleggjering av norske språkteknologiressursar (http://www.sprakrad.no/upload/1308/sprakbankrapport-2002.pdf). Til tross for de klare anbefalingene har regjeringen imidlertid ennå ikke bevilget penger til oppbyggingen av en norsk språkbank. I forhold til andre språk bremser dette utviklingen av avanserte nårskspråklige taleteknologiske løsninger.
I 2003 gikk Nordisk språkteknologi (NST) på Voss konkurs. NST samlet inn mye språkmateriale som utgjør et viktig fundament i oppbyggingen av en norsk språkbank. I dette forprosjektet vil vi forsøke å gjøre opp status med hensyn til hvor arbeidet med en norsk språkbank i dag står, samt identifisere de kritiske faktorene når det gjelder hvilken rolle et eventuelt hovedprosjekt skal spille i forbindelse med realiseringen av en norsk språkbank.
I forprosjektet blir det viktig å identifisere de sentrale forskningsmiljøene i Norge på dette området. Dernest å etablere et samarbeid med disse miljøene med tanke på å jobbe sammen om å videreutvikle den norske taleteknologien. Norsk er et lite språk, samtidig som dette er et kapitalkrevende og faglig krevende fagfelt, der det er helt avgjørende at de norske kreftene står sammen om å få til gode norske løsninger. Videre vil det være viktig å høste lærdommer av hva som gikk feil i Nordisk Språkteknologis storsatsing på taleteknologi. Disse erfaringene vil bli tatt med inn i oppbyggingen av et hovedprosjekt.
IBM samarbeidet med Nordisk Språkteknologi, men rettighetene til det som ble utviklet eies nå av konkursboet, som administreres av Voss kommune. Sentralt i samarbeidet mellom IBM og Nordisk Språkteknologi var tidligere IBM-ansatt geir Nøkleby. Nøklebye kjenner fagfeltet godt og har fortsatt mange viktige kontakter innen det internasjonale IBM-konsernet, som har lagt ned mye ressurser i forhold til fagområdet funksjonshemmede og stemmestyring. Sentral i dette arbeidet er tyskeren Sigfrid Kunsmann, som er lederen for dette arbeidet i Europa. I forprosjektet ønsker vi ved hjelp av Geir Nøklebye å innlede et samarbeid med IBM Europa, noe som vil kunne ha stor betydning både for finansiering og gjennomføring av et hovedprosjekt. Nøklebye er med i prosjektgruppen (jfr. 4. Prosjektorganisering),
En som også kjenner fagfeltet og arbeidet som ble utført i Nordisk Språkteknologi godt, er Peter Erik Pettersen. Pettersen var tidligere ansatt i Nordisk Språkteknologi, men jobber nå med fagområdet stemmestyring i Max Manus. De siste årene har Max Manus etablert seg på feltet stemmestyring i Norge, og har levert flere løsninger til helsesektoren. Max Manus har et samarbeid med Philips rundt utviklingen og leveringen av de norske løsningene. Gjennom Pettersen og Max Manus er kontakten sikret inn mot Philips, noe som kan vise seg å bli veldig verdifullt i oppbyggingen av et hovedprosjekt. Pettersen er med i prosjektgruppen (jfr. 4. Prosjektorganisering).
I perioden 2001 – 2006 har Norges
Forskningsråd gjennomført forskningsprogrammet KUNSTI. Den aktiviteten som er
finansiert gjennom forskningsprogrammet vil være et av startstedene for arbeidet
med å bygge opp samarbeidet.
Forprosjektets hovedmål er å Kartlegge og utrede muligheten for et utviklingsprosjekt som forenkler interaksjonen mellom menneske og maskin ved hjelp av stemmestyring, og legge grunnlaget for et slikt utviklingsprosjekt, dersom dette er teknologisk og økonomisk hensiktsmessig og mulig. Den foreløpige kartleggingen tyder på at behovet er stort, og allerede tidlig i forprosjektperioden vil vi derfor sondere mulighetene for å få på plass et hovedprosjekt.
Mot slutten av forprosjektperioden når behov og prioriterte oppgaver er kartlagt, vil hensiktsmessigheten av et hovedprosjekt bli vurdert. I et eventuelt arbeid med å få på plass et hovedprosjekt vil følgende hovedaktiviteter inngå:
I. Definere innholdet i hovedprosjektet.
II. Etablere en hensiktsmessig organisering av prosjektet.
III. Finne tilstrekkelig finansiering.
IV. Utarbeide prosjektbeskrivelse og søknad.
En nøkkelfaktor for både å lykkes med å reise finansiering
til et hovedprosjekt og ikke minst for å få til et bærekraftig arbeid på sikt,
vil være å få inn aktører i samarbeidet som oppfatter fagområdet som komersielt
interessant. De første skrittene i dette arbeidet er allerede tatt ved at
aktører som Telenor, Max manus, Philips og IBM er tiltenkt en rolle i arbeidet
med forprosjektet (jfr. 3.4 Samarbeid med sentrale forskningsmiljøer). I
forprosjektperioden vil vi bygge videre på samarbeidet med disse aktørene med
tanke på å kartlegge hvilke komersielle interesser de har på dette fagområdet,
og på hvilken måte disse kommersielle interessene vil kunne bidra i et
hovedprosjekt og i arbeidet med å få til en bærekraftig norsk taleteknologi. I
forkant av et eventuelt hovedprosjekt vil også mediaLT arbeide med å definere
sin langsiktige rolle innenfor dette fagfeltet. Videre vil det også bli gjort et
kartleggingsarbeid med hensyn til hvilke andre kommersielle interesser som
finnes på fagfeltet, og i etterkant av dette kartleggingsarbeidet vil dissse
interessene blir kontaktet med spørsmål om de kunne tenke seg å ha en rolle i
forhold til å få etablert et langsiktig, bærekraftig arbeid på området.
I arbeidet med å få knyttet til seg kommersielle interessenter, få etablert et hensiktsmessig forskningssamarbeid og få bygget opp og reist nødvendig finansiering til et hovedprosjekt, vil aktive formidlingstiltak ha en vesentlig betydning. MediaLT har i flere tidligere prosjekter lykkes med å få oppslag i riksdekkende medier, og vi har stor tro på at vi også i dette prosjektet vil kunne få riksdekkende oppslag. Dette er i alle fall noe vi vil jobbe aktivt for å få til. Videre har vi kontaktpersoner innenfor interesseorganisasjonenes medlemsblader, og disse informasjonskanalene vil vi bruke for å nå ut med målrettet informasjon til brukerne. Når resultatene fra forprosjektet foreligger, vil vi også arbeide for å få publisert artikler i aktuelle fagblader og tidsskrifter. Dessuten vil medlemmene i prosjektgruppen informere om forprosjektet på aktuelle seminarer og konferanser.
I september planlegger vi dessuten å sette opp og organisere et seminar om temaet. I tillegg til en mer åpen invitasjon vil vi arbeide målørettet mot de miljøene vi synes at det er viktig deltar på dette seminaret, dvs at vi vil kontakte dem direkte med oppfordring om å delta på seminaret. Hensikten med dette seminaret vil være å ffå på banen alle de aktørene som oppfattes vesentlige for å få til et langsiktig arbeid innenfor dette fagfeltet i Norge. Ved siden av at de foreløpige rresultatene fra forprosjektet vil bli lagt fram på seminaret, vil også seminaret bli brukt til å knytte kontakter og etablere samarbeid.
I sammensetningen av prosjektgruppen er det lagt vekt på å samle de miljøene i Norge som er vesentlige for gjennomføringen av prosjektet. Det har vært ansett som viktig å sikre kompetanse og innflytelse på følgende felt:
· Ledelse av brukerstyrte prosjekter
· FOU
· Brukererfaring/brukerkompetanse
· Kompetanse om taleteknologi
· Kommersielle interesser på fagfeltet
MediaLT ønsker å påta seg oppgaven med å lede prosjektet, samt hovedansvaret med å gjennomføre prosjektet. Videre ønsker vi å knytte en referansegruppe til prosjektet. Like etter prosjektoppstart vil aktuelle miljøer bli kontaktet med tanke på deltakelse i en slik referansegruppe. Aktuelle miljøer er deltasenteret, Standard Norge, Språkrådet m. fl. Denne referansegruppen vil spesielt være viktig i forhold til forskningssamarbeidet som skal bygges opp i prosjektet (jf. 3.4 Samarbeid med sentrale forskningsmiljøer, side 6).
Navn
|
Organisasjon
|
Arbeidsområde
|
Magne Lunde |
MediaLT |
Prosjektledelse, behovsanalyse, fokusgrupper, forskningssamarbeid, hovedprosjekt, formidlingstiltak |
Morten Tollefsen (prosjektleder) |
MediaLT |
Prosjektledelse, brukergrensesnitt, behovsanalyse, teknisk kompetanse, Norsk språkbank, forskningssamarbeid |
Are Flyen |
MediaLT |
Brukergrensesnitt, teknisk kompetanse |
Aage Auby |
Norges Blindeforbund |
Behovsanalyse, fokusgrupper |
Ann Kristin Fossneset |
Norges Handikapforbund |
Behovsanalyse, fokusgrupper |
Laila Johnson |
Dysleksiforbundet |
Behovsanalyse, fokusgrupper |
Peter Erik Pettersen |
Max Manus |
Kartlegging av status, Norsk språkbank, forskningssamarbeid, hovedprosjekt |
Geir Nøklebye |
Tidligere IBM-ansatt |
Kartlegging av status, Norsk språkbank, forskningssamarbeid, hovedprosjekt |
Torbjørn Svendsen |
NTNU |
Kartlegging av status, Norsk språkbank, forskningssamarbeid, hovedprosjekt |
Knut Kvale |
Telenor |
Kartlegging av status, fokusgrupper, Norsk språkbank, forskningssamarbeid, hovedprosjekt |
Framdriftsplanen nedenfor er skissert med antall medgåtte månedsverk pr. aktivitet. Utgangspunktet for ferdigstillelse av delaktiviteter og prosjektavslutning er oppstart 1. mai 2006. Flere av aktivitetene vil utvikles parallelt. Framdriftsplanen er milepælsorientert, detaljplanleggingen vil utføres i forbindelse med prosjektoppstart. Aktivitetene er satt opp kronologisk etter starttidspunkt. Prosjektperiode er 01.05.2006 – 15.10.2006. Vi vil følge de kravene som Norges Forskningsråd stiller til rapportering.
Nr
|
Aktivitet
|
Kort beskrivelse
|
Ant. mndsvrk.
|
Tidsperiode
|
01 |
Detaljplanlegging |
Utarbeide en detaljert prosjektplan: prosjektmøter, utvelgelse av fokusgrupper osv. |
0,5 |
Mai – jun 2006 |
02 |
Forskningssamarbeid |
Identifisere samarbeidspartnere og etablere samarbeid |
0,5 |
Mai 2006 – sep 2006 |
03 |
Formidlingstiltak |
Info massemedia, medlemsblader, fagblader, tidsskrifter, konferanser, samt sette opp og organisere eget seminar |
1 |
Jun 2006 – okt 2006 |
04 |
Norsk Språkbank |
Gjøre opp status og legge grunnlaget for en viderreføring av arbeidet i et evt. Hovedprosjekt |
0,5 |
Jun 2006 – sep 2006 |
05 |
Behovsanalyse |
Forarbeid, gjennomføring og etterarbeid i forbindelse med intervjuer i fokusgrupper |
2 |
Jun 2006 – sep 2006 |
06 |
Hovedprosjekt |
Utrede et hovedprosjekt |
0,5 |
Jul 2006 – sep 2006 |
07 |
Sluttrapport/søknad hovedprosjekt |
Utarbeide sluttrapport og en eventuell søknad om et hovedprosjekt |
1 |
Sep 2006 – okt 2006 |
Sum |
|
|
6 |
|
Tips noen om siden