Speaker-Based Segmentation and Adaptation in Automatic Speech Recognition

Remes, Ulpu

aalto1 untyped-item.component.html

Speaker-Based Segmentation and Adaptation in Automatic Speech Recognition

Helsinki University of Technology | Master's thesis

Electronic archive copy is available via Aalto Thesis Database.

Instructions

Checking the digitized thesis and permission for publishing
Instructions for the author

Location:

Authors

Remes, Ulpu

Date

2007

Department

Teknillisen fysiikan ja matematiikan osasto

Major/Subject

Informaatiotekniikka

Mcode

T-61

Language

en

Pages

68

Abstract

Huolella opetettu puheentunnistusjärjestelmä toimii varsin hyvin opetusvaiheesta tutuissa olosuhteissa, mutta uusi puhuja tai ympäristö usein heikentää järjestelmän suorituskykyä. Puheentunnistustuloksia voidaan siksi parantaa antamalla järjestelmän mukautua kullekin puhujalle paremmin soveltuvaksi. Puhujakohtainen mukautuminen ei kuitenkaan ole mahdollista, ellei järjestelmä tiedä, kuka milloinkin on äänessä. Puhetallenteita ei ole tavallisesti jaettu osiin puhujan mukaan, joten tarvitaan automaattisia menetelmiä puhujien erotteluun. Puhujakohtaisen segmentoinnin tavoitteena on jakaa annettu aineisto puheenvuoroihin, joista voidaan sekä lukea puhujanvaihdosten ajankohdat että seurata kulloinkin vuorossa olevaa puhujaa. Tässä työssä selvitetään, kuinka puhujanvaihdokset voidaan havaita erilaisuusmittoihin perustuvilla menetelmillä, sekä tarkastellaan kahta nimeämättömien puheenvuorojen ryhmittelyyn soveltuvaa menetelmää. Ryhmittely on keino koota ja nimetä havaitut puheenvuorot puhujan mukaan, kun puhujia tai heidän määräänsä ei tunneta ennakkoon. Puhujasegmentoinnin toimivuutta kokeillaan yhdessä puhujakohtaisen mukautumisen kanssa laajan sanaston jatkuvan puheen tunnistuksessa. Koeaineistona käytetään otteita suomen- ja englanninkielisistä uutislähetyksistä. Saadut tulokset osoittavat, että puhujakohtainen segmentointi ja mukautuminen yhdessä parantavat puheentunnistustuloksia merkittävästi.

Supervisor

Oja, Erkki

Thesis advisor

Kurimo, Mikko

Keywords

speaker adaptation, puhujakoht. mukautuminen, speaker segmentation, puhujasegmentointi

Permanent link to this item

https://urn.fi/URN:NBN:fi:aalto-2020120553671

Collections

[dipl] Teknillinen korkeakoulu / TKK

Show all metadata

Speaker-Based Segmentation and Adaptation in Automatic Speech Recognition

URL

Journal Title

Journal ISSN

Volume Title

Authors

Date

Department

Major/Subject

Mcode

Degree programme

Language

Pages

Series

Abstract

Description

Supervisor

Thesis advisor

Keywords

Other note

Citation

Permanent link to this item

Collections

Endorsement

Review

Supplemented By

Referenced By