Fel aelod o grŵp ymchwil Arloesedd Ariannol a Dadansoddeg Data y Sefydliad Cyllid Ewropeaidd (IEF), cyflwynodd yr Athro Adrian Gepp bapur ymchwil cydweithredol ynglŷn â dadansoddeg twyll yn 43edd gynhadledd Cymdeithas Busnes ac Economeg Ewrasia (EBES) yn Sbaen ar Ebrill 12, 2023. Cafodd y papur ei farnu trwy adolygiad gan gymheiriaid fel Papur Gorau’r gynhadledd ac iddo’r teitl "Defnyddio dadansoddeg data i wahaniaethu rhwng cwmnïau cregyn cyfreithlon ac anghyfreithlon". Cyflwynodd fodel newydd sy’n defnyddio data i ganfod cwmnïau cregyn sy'n cael eu defnyddio i wyngalchu arian. Dyma broblem fyd-eang ac amcangyfrifir bod y gost flynyddol yn y triliynau. Er bod sawl defnydd cyfreithlon, gellir defnyddio cwmnïau cregyn hefyd i hwyluso gwyngalchu arian ac felly mae model sy’n defnyddio data i wahaniaethu rhyngddynt yn gyflym yn werthfawr iawn. Ymhlith y rhai a gaiff fudd o fodel o'r fath mae swyddogion y llywodraeth a gweithwyr proffesiynol ym maes cydymffurfiaeth, yn enwedig cyfrifwyr, swyddogion treth ac asiantaethau gwrth-lygredd. Defnyddiodd y model canfod a grëwyd gan dîm yr Athro Gepp ddull dadansoddi data hybrid a hyfforddwyd gyda data'r Deyrnas Unedig gan ddefnyddio cynllun sampl cyfatebol. Roedd y cam cyntaf yn cynnwys cronni data o nifer o ffynonellau i'r llwyfan cronfa ddata graffiau o'r enw Neo4j. Yn ogystal â chynrychiolaeth weledol syml o'r holl ddata, dewiswyd llwyfan graffiau oherwydd ei bod yn fodd i adnabod y cysylltiadau cêl sydd rhwng rhwydwaith o gwmnïau cregyn anghyfreithlon megis cyfeiriadau cyffredin a chyd-berchnogaeth. Yna defnyddiwyd dadansoddeg graffiau i gyfrifo sgoriau meintiol i bob nod (cwmni cragen) a oedd yn crynhoi gwybodaeth megis pwysigrwydd a dylanwad o fewn rhwydwaith y graffiau, y tebygrwydd â nodau eraill a phresenoldeb cymunedau tebyg (is-rwydweithiau llai). Yna cafodd y sgorau meintiol eu bwydo i mewn i’r ail gam i hyfforddi model canfod dysgu dan oruchwyliaeth. Treialwyd a gwerthuswyd tri dull dysgu ystadegol modern: un goeden benderfyniadau, coedwig ar hap a rhwydwaith coed wedi’i hybu. Dewiswyd y tri model yn rhannol oherwydd eu bod yn amharametrig o ystyried nad oes strwythur model priodol hysbys gydag achosion cymhleth o wyngalchu arian. Yn ogystal, mae pob un o'r tair techneg yn seiliedig ar goed, ac mae manteision i hynny o ran ymdrin â’r cyrion, effeithiau rhyngweithiol a materion cydberthynasol.
Un o gonglfeini ymchwil dadansoddeg data cymhwysol yw gwerthusiad trylwyr o berfformiad model. Gwerthuswyd y model trwy ddefnyddio rhaniad data hyfforddi-profi safonol ac amrywiaeth o fetrigau perfformiad. Mae cywirdeb y modelau gorau’n drawiadol ac mae’r niferoedd ymhell uwchlaw 90%. Fodd bynnag, mae’n bwysig ystyried mwy na chywirdeb dosbarthu syml oherwydd gall hynny fod yn fesur camarweiniol os yw’r data’n anghytbwys. Yn y dosbarthiad ymchwil hwnnw, ymchwiliwyd i’r ardal o dan gromlin Nodweddion Gweithredu Derbynnydd (ROC), trachywiredd, adalw a’r Gwerth-F i gyd gyda’r model pennaf yn perfformio’n dda ar draws yr holl fetrigau.