Betere beeldverwerking dankzij artificiële neurale netwerken

De best presterende algoritmes in veel beeldverwerkingstaken zijn vandaag gebaseerd op artificiële neurale netwerken en deep learning.

Tekst: Joris Hendrickx

Meer uitleg door:

Rik Fransens

Managing director – Vision++

Waarop focussen jullie zich met Vision++?

“Vision++ is een hightechbedrijf gespecialiseerd in onderzoek en ontwikkeling (O&O) binnen het domein van computervisie en beeldverwerking. We zijn opgericht in 2007 als een spin-off van de computervisiegroep van de KU Leuven (ESAT, PSI) en hebben een groeiend en internationaal klantenbestand.”

“Ons team van hoogopgeleide computervisie-experts bestaat vooral uit ingenieurs, maar ook uit fysici en wiskundigen. Wat betreft O&O-diensten werken we voor bedrijven die camera’s, lasers, 3D-systemen enz. gebruiken of inbouwen in hun eigen producten.”

“Maar we bieden ook innovatieve totaaloplossingen aan, bijvoorbeeld voor kwaliteitscontrole van producten, procesbewaking en visiegestuurde robotica. We investeren continue in intern onderzoek rond hyperspectrale beeldvorming en beeldverwerking, maar ook rond artificiële intelligentie en deep learning.”

Wat kan deep learning betekenen binnen het domein van computervisie?

“Artificiële neurale netwerken (ANN’s) zijn algoritmes waarvan de werking geïnspireerd is op het menselijke brein. Ze bestaan uit artificiële neuronen die met elkaar verbonden zijn en die informatie aan elkaar doorgeven. Bij computervisie is de input van het ANN typisch een digitaal beeld, waarna de beeldinformatie verspreid wordt doorheen opeenvolgende lagen van neuronen die informatie halen uit het beeld. Op het einde van het ANN resulteert dit in de gewenste output. ‘Deep’ slaat hier op het feit dat er in moderne ANN’s mogelijk honderden lagen van neuronen aanwezig zijn.”

Artificiële neurale netwerken zijn algoritmes waarvan de werking geïnspireerd is op het menselijke brein.

“Een voorbeeld is een classificatiesysteem om kanker op te sporen. De input is een X-ray beeld, de gewenste output is een classificatie (er is wel of geen kanker zichtbaar in het inputbeeld). Het ANN leert zijn gedrag aan de hand van trainingsvoorbeelden: de ingenieur voorziet een verzameling van gelabelde beelden die wel of geen kanker bevatten. Tijdens de training past het ANN zijn interne structuur en connectiesterktes aan, zodat zijn output zo goed mogelijk overeenkomt met de labels die werden voorzien.”

“Maar ook voor objectdetectie (waar in het beeld bevinden zich welke objecten), semantische segmentatie (opbreken van het beeld in regio’s, waarbij iedere regio overeenkomt met een bepaalde objectklasse), gezichtsherkenning en beeldverbetering (inkleuren van zwart-witbeelden, kwaliteitsverbetering,…) kan het worden gebruikt.”

Welke impact heeft deze technologie op de industrie?

“We zien vandaag een paradigma-shift van ‘hoe’ naar ‘wat’. Bij de klassieke computervisie werden algoritmes ontworpen door een programmeur die in detail en stap voor stap beschreef ‘hoe’ de computer de pixels van een beeld moest verwerken en manipuleren om tot het beoogde resultaat te komen. Bij deep learning wordt de uit te voeren taak beschreven door voorbeelden te zoeken, deze manueel te annoteren en aan het ANN aan te bieden. De programmeur geeft hiermee aan ‘wat’ de uit te voeren taak is, en het ANN leert dan zelf uit deze manueel geannoteerde trainingsdata wat de beste manier is om tot het beoogde resultaat te komen.”

PRAKTIJKVOORBEELDEN IN DE KIJKER

Stora Enso – papierindustrie

Stora Enso Langerbrugge produceert jaarlijks 540.000 ton kranten- en magazinepapier op basis van 100% gerecycleerd papier. Het besteedt daarbij veel aandacht aan energie-efficiëntie en hernieuwbare energie. Daarnaast wordt er continue geïnvesteerd in innovatie, bijvoorbeeld op het vlak van digitalisatie en automatisatie. Voor Stora Enso ontwikkelde Vision++ deep learning methoden voor ‘content based object retrieval’. Het bedrijf heeft grote warehouses waarin het tienduizenden reserveonderdelen opslaat. Aan de hand van een foto van een defect onderdeel wordt de database van reserveonderdelen doorzocht en wordt het juiste item geselecteerd. Het systeem laat toe om verschillende databases te doorzoeken, zelfs als de onderdelen onder een andere noemer of met een andere beschrijving zijn ingegeven. Het werkt bij diverse belichtingsomstandigheden, kijkrichtingen, resoluties en zelfs bij vuile, bestofte of sterk gelijkende onderdelen.

Melexis – semiconductor industrie

Melexis is producent van geïntegreerde circuits (ICs) en sensoren voor de auto-industrie. Het bedrijf zet sterk in op innovatie met een focus op duurzaamheid en betrouwbaarheid van voertuigen. In deze optiek is het bewaken van de kwaliteit van de geproduceerde ICs van heel groot belang. Voor Melexis verrichtte Vision++ onderzoek naar snelle en hoge resolutie beeldvorming van oppervlaktes van ICs.

Het doel was om submicron artefacten te visualiseren en automatisch te detecteren. Deze artefacten zijn erg zeldzaam, dus specifieke deep learning architecturen werden onderzocht om aan de hand van een laag aantal trainingsvoorbeelden tot hoogperformante resultaten te komen. De resultaten verschuiven de huidige state-of-the-art in deze industrie: een zeer hoge detectiegraad van specifieke anomalieën met op hetzelfde moment een lage uitstoot van goede ICs.