Nieuwe technologie voor vertaalmachines nu beschikbaar

21 januari 2019

Een nieuwe methodiek om vertaalmachines te verbeteren is deze maand via de Universiteit van Amsterdam beschikbaar gekomen. Het door NWO/STW gefinancierde project DatAptor maakt vertaalmachines veel geavanceerder door datasets te selecteren.

foto: Shutterstock

De methodiek is verwerkt in de applicatie Matching Data, aangeboden door TAUS, een belangrijke denktank op het gebied van machine translation. Deze toepassing tackelt een grote uitdaging bij digitaal vertalen: voor een goede vertaling is het nodig de vertaalmachine te trainen met betrouwbare bronnen die een relevante woordenschat bevatten. Het vertalen van bijvoorbeeld een wettekst vraagt om een heel andere woordenschat en een ander type vertaling dan bijvoorbeeld een krantenbericht. 

Succesvolle implementatie

In 2013 kreeg het project DatAptor, geleid door professor Khalil Sima’an van het UvA Institute for Logic, Language and Computation, financiering via het Open Technologieprogramma van Technologiestichting STW (nu: NWO-domein Toegepaste en Technische Wetenschappen) om zich met dit probleem bezig te houden. De onderzoeksresultaten van het DatAptor project zijn nu succesvol geïmplementeerd door denktank TAUS. Zij bieden deze nieuwe techniek aan onder de naam Matching Data.

Schat van nieuwe selecties 

Op het weblog van TAUS laat professor Sima’an weten: ‘Onze ultieme droom was om het volledige wereldwijde web de bron van alle gegevensselecties te maken. Maar we besloten om bescheidener te beginnen, met de zeer uitgebreide verzameling datasets van TAUS. In DatAptor hebben we geleerd dat elk domein een combinatie is van vele subdomeinen. De combinatoriek van subdomeinen in een zeer grote repository herbergt een schat aan nieuwe, nog niet aangeboorde selecties. Met een goede query zal de Matching Data-methode waarschijnlijk een geschikte selectie vinden in de TAUS repository, die aansluit bij het specifieke vakgebied.’

Meer informatie


Bron: Universiteit van Amsterdam UvA

Kenmerken

Wetenschapsterrein

Toegepaste en Technische Wetenschappen

Programma

Open Technologie Programma

Speerpunt

Kennisbenutting