Prestižní vědecký časopis Nature Communications nyní publikoval studii realizovanou na Matematicko-fyzikální fakultě Univerzity Karlovy, která představila anglicko-český překladač CUBBITT založený na neuronových sítích, jenž při překladu novinových zpráv dosahuje kvality srovnatelné s výstupem profesionálních překladatelů. V zaslepeném testu byly automatické překlady hodnotiteli označeny jako v průměru o něco méně plynulé, ale obsahově mírně přesnější než překlady lidské. Experimentální verze překladače k dispozici veřejnosti.
Jako významný úspěch se jeví výsledek experimentu, který byl pro překladový směr angličtina-čeština realizovaný na Matematicko-fyzikální fakultě Univerzity Karlovy ve spolupráci s vědci z Univerzity v Oxfordu (oba též absolventi MFF UK) a z týmu Google Brain. Autoři natrénovali neuronovou síť na česko-anglickém paralelním korpusu, což je kolekce autentických anglických textů a jejich protějšků přeložených do češtiny o celkové velikosti 58 milionů párů vět.
Výsledný překladač nazvaný CUBBITT autoři použili k přeložení vzorku anglických novinových textů. Tentýž vzorek byl nezávisle přeložen profesionálními překladateli z překladové agentury. Kvalita výsledných automatických i ručních překladů byla následně hodnocena 15 rodilými mluvčími češtiny, kteří měli posoudit přesnost a plynulost překladu. Hodnocení bylo slepé, tj. hodnotitelé neměli informaci o tom, kdo věty překládal.
Autoři studie upozorňují, že i přes představený pokrok se situace zatím výrazně liší od jiných oblastí, kde se AI v posledních letech úspěšně utkává s člověkem. Zatímco například v šachu dnes AI poráží víceméně rutinně i nejlepší hráče světa, zde šlo o „soutěž“ s běžnými (byť profesionálními) překladateli, kteří v danou chvíli ani nevěděli, že „soutěží“. Měření navíc proběhlo pouze na specifickém žánru novinových textů a výsledky rozhodně nelze zobecňovat na překladatelskou práci jako celek.
Dopad:
Jedna z nových myšlenek, díky které překladač dosáhl výrazného zlepšení oproti předchozím verzím, spočívala ve způsobu, jakým byla překladači při trénování střídavě předkládána autentická a syntetická paralelní data (páry českých vět a jejich automatických překladů do angličtiny). Velikost existujících autentických dat, tj. lidmi vytvořených anglicko-českých překladů, je z principu omezená a roste relativně pomalu. Proto se k nim přimíchávají ještě syntetická paralelní data, kde pro existující autentické texty v češtině byly jejich anglické protějšky vygenerovány automatickým překladem v opačném směru (tzv. backtranslation; nižší kvalita na straně vstupního jazyka, zde angličtiny, totiž při trénování překladače vadí méně). Velmi překvapivé experimentální pozorování spočívalo v tom, že je výhodnější neuronové síti překládat autentická a syntetická data nikoli rovnoměrně promísená, ale ve specificky vyváženém rytmu střídajících se autentických a syntetických bloků. Prvotní impuls pro zkoumání tohoto směru vznikl vlastně náhodou, když mísení zůstalo omylem vypnuté a tato „chyba“ způsobila okamžitý růst úspěšnosti překladače.
Zdroj: www.cuni.cz