Puheentunnistustekniikka

Puheentunnistus, laitteiden kyky vastata puhekomentoihin. Puheentunnistus mahdollistaa erilaisten laitteiden ja laitteiden handsfree-ohjauksen (erityinen siunaus monille vammaisille), antaa automaattisen käännöksen ja luo tulostusvalmiuden sanelun. Varhaisimpia puheentunnistussovelluksia olivat automaattiset puhelinjärjestelmät ja lääketieteellisen sanelun ohjelmistot. Sitä käytetään usein saneluun, tietokantojen kyselyyn ja komentojen antamiseen tietokonepohjaisille järjestelmille, erityisesti ammatteissa, jotka luottavat erikoistuneisiin sanastoihin. Se mahdollistaa myös henkilökohtaiset avustajat ajoneuvoissa ja älypuhelimissa, kuten Applen Siri.

Ennen kuin kone pystyy tulkitsemaan puhetta, mikrofonin on käännettävä ihmisen äänen värähtelyt aallonmuotoiseksi sähkösignaaliksi. Järjestelmän laitteistot - esimerkiksi tietokoneen äänikortti - muuntavat tämän signaalin digitaaliseksi signaaliksi. Se on digitaalinen signaali, jonka puheentunnistusohjelma analysoi erillisten foneemien, puheen perusrakenteiden, tunnistamiseksi. Foneemit yhdistetään sitten sanoiksi. Monet sanat kuulostavat kuitenkin samanlaisilta, ja sopivan sanan valitsemiseksi ohjelman täytyy luottaa kontekstiin. Monet ohjelmat muodostavat kontekstin trigram-analyysin avulla, menetelmä, joka perustuu usein käytettyjen kolmen sanan klustereiden tietokantaan ja jossa määritetään todennäköisyydet, että mitä tahansa kahta sanaa seuraa tietty kolmas sana. Esimerkiksi, jos puhuja sanoo "kuka minä olen", seuraava sana tunnistetaan pronominiksi "minä" kuin samankaltainen, mutta vähemmän todennäköisesti "silmä". Siitä huolimatta virheiden korjaamiseksi tarvitaan joskus ihmisen väliintuloa.

Muutaman yksittäisen sanan tunnistamiseen tarkoitetut ohjelmat, kuten puhelinsoittojärjestelmät, toimivat melkein jokaiselle käyttäjälle. Toisaalta jatkuvia puheohjelmia, kuten saneluohjelmia, on koulutettava tunnistamaan yksilön puhekuviot; koulutus sisältää käyttäjän lukemaan ääneen tekstinäytteet. Nykyään puheentunnistuksen tarkkuus on parantunut huomattavasti, kun henkilökohtaiset tietokoneet ja mobiililaitteet kasvavat. Virhesuhteet on alennettu noin 5 prosenttiin sanastoissa, jotka sisältävät kymmeniä tuhansia sanoja. Vielä suurempi tarkkuus saavutetaan rajoitetuissa sanastoissa erikoistuneille sovelluksille, kuten radiologisten diagnoosien sanelulle.