Lydstyring av PC (oppsummering fra forprosjektet)

Kan mennesker med manglende eller utydelig språk bruke lyder for å styre teknologi? Dette ble fokusert i forprosjektet Lydstyring. Det ble også vurdert om videre forskning og utvikling kan være aktuelt.

Skrevet av: Morten Tollefsen - 12.01.2011

MediaLT har fått flere spørsmål fra fagmiljøer og brukere om mennesker med talevansker kan benytte lyder og/eller utydelig språk til å styre teknologi. Vi fant lite forskning eller erfaring knyttet til dette, og MediaLT tok derfor initiativet til forprosjektet Lydstyring. IT Funk innvilget støtte til prosjektet som ble avsluttet 31.12.2010.

Mål, delmål og målgruppe

Hovedmålet i prosjektet var å:

”Undersøke mulighetene for lydstyring av PC, og legge grunnlaget for et utviklingsprosjekt, dersom dette er mulig og hensiktsmessig.”

Delmål:

  1. Analysere internasjonal FoU status på området lydstyring.
  2. Definere funksjonalitetsmatrise for lydstyring av PC.
  3. Bestemme basisprofiler med nøkkelfunksjonalitet.
  4. Vurdere mulig teknologi for lydstyring.
  5. Etablere internasjonalt samarbeid.
  6. Legge grunnlaget for et hovedprosjekt, dersom dette er hensiktsmessig.

Hovedmålgruppen i prosjektet var personer som har talevansker og problemer med å benytte PC ved hjelp av standard brukergrensesnitt. Med andre ord innbefatter målgruppen alle mennesker som kan ha nytte av lydstyring som erstatning for eller i kombinasjon med andre interaksjonsformer.

Kort om prosjektresultatene

Analysere internasjonal FoU: Referanser er samlet og lagt på prosjektets nettsider:
http://www.medialt.no/lenkerreferanser/847.aspx

Videre er FOU-situasjonen oppsummert i en egen statusrapport:
http://www.medialt.no/statusrapport/1001.aspx

Definere funksjonalitetsmatrise for lydstyring av PC: personas ble brukt som metode for å finne fram til hvilken funksjonalitet som typisk var ønsket i et lydstyringssystem. Personas vil si detaljerte beskrivelser av fiktive personer, som kan fungere som gode eksempler på hva som særpreger den aktuelle brukergruppen. Med bakgrunn i kunnskapen til SIKTE, Sunnaas og CP-foreningen ble i alt fire personas laget. Dette arbeidet tydeliggjorde at det er ønskelig med et bredt utvalg av tilgjengelig funksjonalitet. Dessuten ble det klart at brukerne av en lydstyringsløsning vil ha svært ulike behov og muligheter, og at en slik tilpasning derfor bør skje på individnivå. Dette samsvarer med annen forskning vi har funnet.

Vår vurdering er at det er lite formålstjenlig å definere en funksjonalitetsmatrise. I stedet bør det legges til rette for en størst mulig grad av individuell tilpasning.

Bestemme basisprofiler med nøkkelfunksjonalitet: Før prosjektet ble startet tenkte vi oss at det kunne defineres ulike "standardpakker" med funksjoner som kan lydstyres. Et eksempel kan være mus: flytte muspeker, klikke, dra og slipp osv. I Lydstyrings-prosjektet ble det imidlertid klart at det er mer hensiktsmessig å utvikle et system som gjør mulighetene for individuelle tilpasninger størst mulig.  Med grunnlag i arbeidet med personas var det enighet i prosjektgruppen om at ønsket løsning kan beskrives på følgende måte:

  • Brukeren gis tilgang til en stor ”verktøykasse” med ulike funksjoner systemet er i stand til å utføre. For eksempel kan de funksjonene som inngår i talegjenkjenningsproduktet VOMOTE være en slik verktøykasse.
  • Brukeren skal kunne benytte lyder/talekommandoer enten i tillegg til eller i stedet for de styringsmetodene han/hun i dag benytter for å styre PC-en. For eksempel kan løsningen brukes sammen med ulike bryterløsninger og øyestyring.
  • Brukeren skal kunne velge, sammen med fagmiljø/foresatte/kontaktpersoner, hvilke lyder/kommandoer han/hun vil si til PC-en.
  • Brukeren skal kunne velge, sammen med fagmiljø/foresatte/kontaktpersoner, hvilke funksjoner PC-en skal gjøre og knytte dette opp mot en lyd/talekommando.
  • Hva brukeren vil være i stand til å gjøre, avhenger av hvor mange ulike lyder brukeren er i stand til å lage. Kan hun/han lage ti ulike lyder, kan hun/han plukke ut de ti mest ønskede funksjonene og knytte lydene til disse funksjonene.
  • Ønsker brukeren å endre de funksjonene som er valgt, kan hun/han enkelt gjøre dette ved å mappe en eller flere lyder opp mot de nye funksjonene hun/han ønsker (men dette betinger da at like mange av de tidligere valgte funksjonene må velges bort).

Vurdere mulig teknologi for lydstyring: Et av de sentrale spørsmålene i forhold til verdien av en lydstyringsløsning er hvor mange lyder en typisk bruker er i stand til å lage, samt om hun/han vil klare å reprodusere disse lydene godt nok til at systemet makter å skille lydene fra hverandre. Siden brukergruppen er svært differensiert, er det ikke mulig å gi noe klart svar på dette spørsmålet, men prosjektgruppa ble enige om å gjøre opptak av lyder fra typiske brukere, for å kunne vurdere de teknologiske mulighetene for lydgjenkjenning.

Vi fortsatte med å kartlegge internasjonalt arbeid på området, og som et ledd i dette arbeidet deltok prosjektleder Miriam Nes Begnum på konferansen International Computer Conference for Handikapped People (ICCHP) i juli 2010. Her ble kontakt etablert med Foad Hamidi fra universitetet i Yorku i Canada. På konferansen presenterte Hamidi paperet: ”CanSpeak:  A Customizable Speech Interface for People with Dysarthric Speech”. Siden Hamidi og hans kollegaer allerede hadde gjennomført lydopptak, ble resultatene fra hans arbeid vurdert som tilstrekkelige for vårt formål og de planlagte lydopptakene ble skrinlagt.

Testene ved Yorku University ble gjort med fire personer og et vokabular på 47 ord. Uten tilpasning av vokabularet lå gjenkjenningen mellom 30 og 56 %.  Blant personer uten talevansker var resultatet 94 prosent. Med tilpassing økte gjenkjenningsraten radikalt til 84,3 %. De desidert beste resultatene ble oppnådd der familie, lærere, pleiepersonell eller talespesialister ble involvert. Det å kun basere seg på brukeren selv ved definering av hensiktsmessige fraser ga minimal bedring. Ved individuelle tilpasninger av systemet vil derfor vurderinger av uttalevansker fra talespesialister kunne være verdifull input.

Brukertestene i SMUDI-prosjektet viste at funksjonshemmedes utfordringer knyttet til mikrofonbruk var langt større enn vi hadde forutsett. På grunn av at en lydstyringsløsning rettet seg inn mot bevegelseshemmede med talevansker, forsterket dette utfordringene ytterligere, og av denne grunn fant vi det nødvendig å inkludere mikrofontesting i de teknologiske vurderingene av løsningen. Resultatene fra testingen er samlet i rapporten: Test av mikrofoner i prosjektene SMUDI og Lydstyring:

http://www.medialt.no/test-av-mikrofoner-i-prosjektene-smudi-og-lydstyring/1003.aspx.

Testingen viste tydelig at det var behov for ytterligere arbeid på fagfeltet, og prosjektet Smidige mikrofon og bryterløsninger ble startet den 1. september 2010:
http://www.medialt.no/smidig-smidige-mikrofon-og-bryterloesninger/966.aspx.

I prosjektet prøvde vi å finne en eksisterende lydgjenkjenner, men ut fra de undersøkelsene vi har foretatt nasjonalt og internasjonalt tyder mye på at hensiktsmessige løsninger ikke finnes. Funnene fra undersøkelsen er oppsummert i statusrapporten:
http://www.medialt.no/statusrapport/1001.aspx.

Vår konklusjon er at: Skal det lages en løsning for lydstyring av teknologi, må det utvikles en spesifikk lydgjenkjenner. Vi tror en slik lydgjenkjenner kan realiseres. Forskning er nødvendig for å måle nytteverdi både i forhold til kvalitet på gjenkjenningen i målgruppen og nytteverdien av lydstyring.

Etablere internasjonalt samarbeid: Med bakgrunn i analysen av den internasjonale FOU-situasjonen på fagområdet utkrystalliserte to miljøer seg: Yorku University og Hørselsbroen. Samarbeid ble etablert med begge disse miljøene; Yorku University som forskningspartner og Hørselsbroen som utviklingsmiljø. Et godt fundament for videre internasjonalt samarbeid er derfor lagt.

Legge grunnlaget for et hovedprosjekt: Høsten 2010 var de fleste byggesteinene i et hovedprosjekt på plass, men signaler fra fagmiljøene gjorde at vi var usikre på hvor stort behovet var for lydstyring av teknologi. Derfor bestemte vi oss for å gjennomføre en målrettet undersøkelse blant fagmiljøene og brukerne. Resultatene fra undersøkelsen er oppsummert i Oppsummering spørreundersøkelse lydstyring:
http://www.medialt.no/oppsummering-spoerreundersoekelse-lydstyring/982.aspx.

Med bakgrunn i resultatene fra spørreundersøkelsen var det enighet i prosjektgruppen om at det foreløpig ikke var grunnlag for å gå videre med et hovedprosjekt, fordi mye tyder på at antall brukere som vil ha glede av en slik løsning er relativt liten.

FoU-oppgaver og sentrale miljøer

Prosjektet ble ledet av MediaLT. I tillegg har de mest sentrale miljøene vært NAV SIKTE, Frambu, Universitetet i Oslo, CP-foreningen og Sunnaas spesialpedagogiske senter.

De sentrale oppgavene i prosjektet har vært å analysere hva som tidligere har vært gjort av FOU-innsats på området, finne fram til hva som er de sentrale FOU-utfordringene, undersøke hvilken funksjonalitet/hvilket innhold som målgruppen ønsker at løsningen skal ha, avklare de teknologiske utfordringene og mulighetene og undersøke hvor stort behovet er for lydstyring av teknologi.

Betydning/nytteverdi og videre arbeid

Dette prosjektet har frambrakt ny kunnskap om hva det vil innebære å utvikle en løsning som gjør det mulig å lydstyre teknologi, samt om hvilke grupper som vil ha nytte av en slik løsning og hvor stort behovet er. 

Fagmiljøene, brukergruppen og MediaLT vil ha nytte av denne kunnskapen i sitt videre arbeid med teknologi for funksjonshemmede.

Den foreløpige konklusjonen er at målgruppen er for liten til å forsvare en større satsing på lydstyring, men dette er en konklusjon som fortløpende bør revurderes. For det første vil det forskningsmessig være interessant å videreføre arbeidet, fordi vi ennå ikke har kunnskap om hvilken nytte målgruppen vil ha av en slik løsning. Videre vil det også være interessant å se på andre anvendelsesområder for lydstyring, for eksempel i forhold til varsling for hørselshemmede og i forhold til kommunikasjon med dyr.  Dessuten om disse anvendelsesområdene kan kombineres med lydstyring for mennesker med talevansker, og om de tre anvendelsesområdene samlet sett kan forsvare et større utviklingsprosjekt.

Nyhetsarkiv