Algoritmo informatikoek ez dute hiztegi eta testurik behar itzultzen ikasteko

Ezkerretik eskuinera, Gorka Labaka, Eneko Agirre eta Mikel Artetxe./
Ezkerretik eskuinera, Gorka Labaka, Eneko Agirre eta Mikel Artetxe.

EHUren Informatika Fakultateko IXA taldeak ikerketa ildo berria ireki du hizkuntzaren prozesamenduaren esparruan, gainbegiratu gabeko ikasketan oinarritutako itzulpen automatikoko sistema bat garatuta

Euskal Herriko Unibertsitatearen Informatika Fakultateko IXA taldearen ikerlan batek ikerketa ildo berria ireki du hizkuntzaren prozesamenduaren esparruan. EHUk ohar baten bidez adierazi duenez, "ikasketa automatikoa, gehienetan, gizakiak gainbegiratzen du, eta itzulpen automatikoa ez da salbuespen bat: ordenagailuak pertsonek egindako milioika itzulpen erabiltzen ditu patroiak atera eta testu berria itzultzen ikasteko. Hurbilpen horrek ondo funtzionatzen du ingelesa eta frantsesa bezalako hizkuntza bikoteekin, haien arteko itzulpen ugari baitaude. Halere, hizkuntza bikote gehienek askoz baliabide urriagoak dituzte, eta hori arazo handi bat da alemana-errusiera edo euskara-ingelesa bezalako bikoteentzat".

Testuinguru horretan, Mikel Artetxe, Eneko Agirre eta Gorka Labaka EHUren Informatika Fakultateko IXA taldeko ikertzaileek gainbegiratu gabeko ikasketan oinarritutako itzulpen automatikoko sistema bat garatu dute.

"Imajinatu pertsona bati txineraz idatzitako hainbat liburu ematen dizkiozula, eta arabieraz idatzitako beste hainbeste liburu, elkarren artean ezberdinak, txineratik arabierara itzultzen ikas dezan. Hasiera batean, gizaki batentzat ezinezkoa dirudi. Baina guk frogatu dugu ordenagailu batek lan hori egiten ikas dezakeela", azaldu du Mikel Artetxek. Hizkuntzaren prozesamenduari eta ikasketa automatikoari buruzko tesia egiten ari da Artetxe.

EHUren ikertzaileek proposatutako metodo berria "aurrerapauso garrantzitsua da itzulpen automatikoan", neurona sareek, giza burmuinean inspiratutako algoritmo informatikoek, testu paralelorik gabe itzultzen ikas dezaketela erakutsi baitu lehen aldiz.

Antzeko metodoak

Kasualitatez, Facebook eta Sorbonako Unibertsitateko (Paris) ikertzaile talde batek egindako beste ikerlan batek antzeko metodo bat proposatu du. "Harrigarria da gure metodoak hain antzekoak izatea. Baina aldi berean pozgarria da, hurbilpen berri hau norabide egokian doala esan nahi baitu", esan du Artetxek.

Science aldizkariak bere berrien edizio digitalean jaso zituen bi ikerlanak, arXiv gordailu birtualean argitaratu ziren egun bateko aldearekin, eta apirilean Vancouverren (Kanada) egingo den errepresentazio ikasketaren nazioarteko seigarren biltzarrean aurkeztuko dira.

Bi ikerlanen arteko emaitza konparagarri bakarrean, EHUren IXA taldearen metodoak emaitza zertxobait hobeak lortu zituen, %15eko BLEU puntuazioa lortuz frantsesa eta ingelesaren artean. Puntuaziorik handiena Google Translate bezalako metodo gainbegiratuek lortzen dute, %40 inguruko tasarekin, eta pertsona batenak %50etik gorakoak izan ohi dira. "Hau hasiera baino ez da. Beraz, ez dakigu noraino iritsiko den ikerketa ildo berri hau", adierazi du.

Temas

Euskera