Videozoekmachine wordt volwassen

Case

Videozoekmachine wordt volwassen

Onderzoekers leren computer filmscènes beschrijven

Steeds meer digitale informatie bestaat uit beeld: van vakantiefoto’s op Facebook, video’s op YouTube tot professionele filmreportages in beeldarchieven. Wat zou het handig zijn als we daarin net zo gemakkelijk kunnen zoeken als in tekst. Het komt dichterbij, mede dankzij informaticus Cees Snoek. Hij won de Nederlandse Prijs voor ICT-onderzoek 2012.

Stel je voor: je zoekt filmbeelden van wielrenners die voor de camera ontkennen dat ze ooit doping hebben gebruikt. Je tikt in de zoekmachine een paar trefwoorden in: 'wielrenners', 'doping' en 'ontkenning'. En je vindt de bijbehorende filmfragmenten. Of nog beter: je tikt in 'Geef me alle filmfragmenten van wielrenners die voor de camera ontkennen dat ze ooit doping hebben gebruikt'. Helaas, zo eenvoudig gaat het nog lang niet.

Grootste uitdaging

Automatische beelddetectie is een van de grootste uitdagingen in de informatica. Neem bijvoorbeeld het filmbeeld van een man die een overval pleegt op een slijterij. Het herkennen van individuele voorwerpen zoals 'man', 'fles' en 'toonbank' lukt een computer al vrij aardig. Maar het begrijpen en onder woorden brengen van de relatie tussen alle individuele voorwerpen in een film − in dit geval: 'een man pleegt een overval op een slijterij' − is nog een brug te ver.

Toch is er in de afgelopen tien jaar veel vooruitgang geboekt. Informaticus Cees Snoek van de Universiteit van Amsterdam (UvA) heeft daaraan een stevige bijdrage geleverd. Daarvoor kreeg hij de Nederlandse Prijs voor ICT-onderzoek 2012.

Doorbraak in beeldzoeken

'Tot eind jaren negentig probeerden wetenschappers computers beelden te laten begrijpen door modellen van voorwerpen te bouwen', zegt Snoek. 'Zo’n model vertelt de computer bijvoorbeeld dat een stoel vier poten heeft en dat een zeilboot een grote romp en een zeil heeft en omringd wordt door blauw water. Voor elk voorwerp had de computer een apart algoritme nodig. Dat heeft niet tot de gehoopte doorbraak in videozoeken geleid.'

Die doorbraak kwam pas met een model dat de Canadees David Lowe in 1999 ontwikkelde. Dit model is geïnspireerd op de manier waarop het menselijk brein visuele informatie begrijpt. Snoek: 'Kort gezegd maakt het model een zo compact mogelijke beschrijving van de nabije omgeving van elk pixel. Hoe verandert in de omliggende pixels het contrast, de textuur en de beweging? Die beschrijving filtert alle toevalligheden eruit, zoals de opnamehoek of de schaduw. Zo ontwikkelde Lowe een algoritme dat alle mogelijke concepten aan kan. In het werk van Lowe zat nog geen kleurinformatie. Dat hebben wij er aan toegevoegd en die uitbreiding gebruikt nu ook de hele wereld in ons vakgebied. Een tweede belangrijke bijdrage aan de geboekte vooruitgang was het beschikbaar komen van heel veel beelddata en het vermogen van algoritmen om steeds beter te leren van al die voorbeelden.'

Winnende videozoekmachine

Wist u dat? De UvA-zoekmachine al vier keer een internationale wedstrijd voor videozoekmachines heeft gewonnen?

Snoek is de onderzoeksleider van de MediaMill Semantic Video Search Engine, een videozoekmachine van de UvA die jaarlijks hoge ogen gooit in een internationale wedstrijd voor videozoekmachines, georganiseerd door het Amerikaanse National Institute of Standards and Technology (NIST). In 2008, 2009, 2010 en 2013 won de UvA-zoekmachine de wedstrijd. 'Dat laat zien dat ons onderzoek op wereldniveau zit,' aldus Snoek.

Het verhaal van het beeld

Snoek probeert niet alleen de huidige versie van de MediaMill Semantic Video Search Engine beter, sneller en robuuster te maken, hij wil ook nieuwe wegen inslaan. Een van die wegen moet het handmatig labelen van beelden automatiseren. Om bijvoorbeeld boten te herkennen geven de onderzoekers de computer een trainingset met een heleboel voorbeelden van boten, waaraan ze nu nog zelf het label 'boot' hebben gehangen.

Snoek: 'Dat handwerk wil ik vervangen door het verzamelen van gelabelde beelden van het internet. Dan loop je in eerste instantie tegen het probleem op dat veel labels helemaal niet hoeven te kloppen met het beeld. Een foto van een boot kan bijvoorbeeld het label ‘vakantie’ dragen. Maar we hebben inmiddels een algoritme ontwikkeld dat dit probleem op een effectieve manier oplost.'

De computer moet herkennen of iemand langs een fiets loopt, op de fiets rijdt of misschien wel de fiets aan het stelen is
- Cees Snoek

Een tweede nieuwe weg die Snoek wil in slaan, is het interpreteren van een beeld in een gehele zin in plaats van alleen in een enkel concept, zoals nu nog gebeurt. 'Neem een beeld waarop een vrouw en een fiets te zien zijn. De computer zou dan moeten herkennen of de vrouw langs de fiets loopt, of op de fiets rijdt, of misschien wel de fiets aan het stelen is. De computer moet dan niet alleen met zelfstandige naamwoorden op de proppen komen, maar ook met werkwoorden en voorzetsels. Het ultieme doel is dat een computer de beeldscène omschrijft in een verhaal, zoals mensen dat ook kunnen.'

Praktische toepassingen

De beeldzoektechnieken die Snoek met zijn collega’s ontwikkelen, worden sinds kort ook in de praktijk toegepast. Het Nederlands Instituut voor Beeld en Geluid in Hilversum gebruikt de technieken om meer dan 750.000 uur aan videomateriaal doorzoekbaar te maken. En het Nederlands Forensisch Instituut is geïnteresseerd in het toepassen van de techniek om bijvoorbeeld grote hoeveelheden in beslag genomen videomateriaal te filteren op de aanwezigheid van kinderporno.

Het prijzengeld van 50.000 euro is voor Snoek een welkome steun in de rug. 'Een deel ervan wil ik gebruiken om buitenlandse onderzoekers van naam en faam naar Nederland te halen voor het geven van lezingen. Met een ander deel wil ik mijn promovendi ondersteunen bij de aanschaf van bijvoorbeeld een nieuwe computer of andere hardware. Verder wil ik ook een deel van het geld besteden om een samenwerking met China op te zetten. Een voormalige student van mij is nu universitair docent in Peking en dat contact kan ik gebruiken om de samenwerking met China uit te breiden.'

De Nederlandse Prijs voor ICT-onderzoek is een jaarlijkse prijs voor jonge onderzoekers die vernieuwend onderzoek doen of een wetenschappelijke doorbraak in de ICT hebben bereikt. De prijs wordt uitgeloofd door het ICT-onderzoek Platform Nederland (IPN) en NWO Exacte Wetenschappen in samenwerking met de Koninklijke Hollandsche Maatschappij der Wetenschappen (KHMW).