Dau fyfyriwr doethurol deallusrwydd artiffisial yn ennill cystadleuaeth Common Voice Mozilla

Mae Preben Vangberg a Leena Farhat, sydd ill dau yn astudio am ddoethuriaeth gyda chyllid gan y Ganolfan Hyfforddiant Doethurol a ariennir gan UKRI (UK Research and Innovation) (AIMLAC), wedi ennill cystadleuaeth Common Voice, Our Voices, Diversity Model and Methods Mozilla.

Mae Preben Vangberg a Leena Farhat yn fyfyrwyr sy'n astudio am ddoethuriaeth yn yr Ysgol Cyfrifiadureg a Pheirianneg Electronig ym Mhrifysgol Bangor. Cyllidir eu hastudiaethau gan yr Artificial Intelligence, Machine Learning and Advanced Computing (AIMLAC) Centre for Doctoral Training (CDT). Cyllidir AIMLAC gan UKRI. Mae eu traethodau doethurol yn ymchwilio i ddata mawr a deallusrwydd artiffisial. Mae gwaith Preben yn gydweithrediad rhwng Cyfrifiadureg a’r Uned Technolegau Iaith yng Nghanolfan Bedwyr (data iaith mawr), ac mae Leena yn cydweithio gyda Chyfrifiadureg a Gwyddorau’r Eigion (data mawr gwyddorau cymdeithas).

Cyhoeddodd Mozilla gystadleuaeth fyd-eang ym mis Mehefin 2022. Mae eu cystadleuaeth, Our Voices, wedi ei chynllunio i ymchwilio i ragfarn mewn modelau iaith, yn enwedig testun-i-leferydd. Mae'r modelau hyn yn canolbwyntio ar hybu amrywiaeth a chynhwysiant. Casglwyd cyflwyniadau gan Mozilla o bedwar ban byd. Cyhoeddwyd pedwar tîm fel enillwyr, a Preben a Leena oedd un o’r timau.

"Roedd yn anrhydedd ennill y gystadleuaeth hon, ynghyd â’r enillwyr eraill. Roedd ein model yn canolbwyntio ar yr iaith leiafrifol Romansh. Mae gan y iaith hon o’r Swistir ddwy dafodiaith, sef Sursilvan a Vallader.” Aeth Preben ymlaen i ddweud, “Roeddem yn falch ofnadwy bod y beirniaid wedi canmol ein gwaith am ei berfformiad, a’i gyfradd gwallau bach.”

Gan fod hon yn iaith leiafrifol, mae’r adnoddau i hyfforddi’r model, sy’n dod o recordiadau sain a thestun, yn gyfyngedig. Gwnaethom ddefnyddio hen bapurau newydd o’r Swistir o gorpws testun clir o ansawdd uchel sydd ar gael yn gyhoeddus.

Aeth Preben ymlaen

“Mae'r dull yn gweithio mewn sawl cam. Yn gyntaf, gwnaethom hyfforddi model acwstig sy'n gyfrifol am drawsnewid y synau yn gynrychioliad testunol. Yna gwnaethom hyfforddi model iaith (model N-gram) i helpu i gynorthwyo'r model acwstig a thrwsio'r camgymeriadau sillafu yn yr allbwn. Yn drydydd, gwnaethom hyfforddi modelau pwrpasol i dafodieithoedd amrywiol Romansch, tra hefyd yn efelychu’r effaith o gael data testun da ar gyfer y tafodieithoedd unigol ond heb unrhyw ddata llafar. Perfformiodd ein modelau yn dda, ond dim ond un rhan o'r project oedd hynny. Gwnaethom ddangos eich bod yn gallu creu modelau lleferydd i destun da trwy ddefnyddio model iaith sydd wedi ei hyfforddi ar y dafodiaith darged tra’n defnyddio model acwstig wedi ei lunio ar gyfer tafodiaith wahanol.”

Meddai’r

Athro Jonathan Roberts, arweinydd CDT (Canolfan Hyfforddiant Doethurol) gyda chyllidAIMLAC ym Mhrifysgol Bangor

“Mae’n destun balchder mawr bod ymdrech Preben a Leena wedi talu ar ei ganfed. Mae eu gwaith yn dangos ein diddordeb parhaus mewn dadansoddi testun, deallusrwydd artiffisial, a chydweithio rhwng Cyfrifiadureg a’r Uned Dechnolegau Iaith yng Nghanolfan Bedwyr. Yn wir, cyn gwneud eu doethuriaeth, bu Leena a Preben yn astudio ar ein cwrs MSc newydd mewn technolegau iaith. Rwy’n edrych ymlaen i weld sut bydd y gwaith hwn yn datblygu yn y dyfodol”.