Taallesjes voor de computer

Honderden zinsnedes uit de spreektaal laat dr. Antal van den Bosch door een van zijn vele computers ontleden. Zinnen als 'Ja, da's dan jammer.' En: 'Wij zagen het meisje in het bos.'..

De pc's van de 33-jarige Tilburgse taalkundige bevatten taalverwerkingsalgoritmen, zelflerende systemen, waarin tienduizenden correct ontlede zinnen zijn ingevoerd. De zelflerende machines moeten zinnen op grond van hun geheugen analyseren.

Ze toetsen de structuur van de nieuwe zinnen aan de ontleding van de hun bekende voorbeelden. Alsof het de lagere school betreft, fileert het computerklasje de zinnen in onderwerp, gezegde, lijdend voorwerp, bijwoorden. En als een strenge leraar die een proefwerk afneemt, meet Van den Bosch hun prestatie.

Speciaal voor de verslaggever zetten ze deze middag hun beste beentje voor en halen ze een dikke voldoende. Niemand struikelt over de zin met 'het meisje in het bos', die immers ook een huiveringwekkende betekenis kan hebben. Ze verklaren het 'zagen' netjes als verleden tijd van 'zien' en niet als de handeling van de timmerman. 'De gruwelijke variant ligt minder voor de hand', verklaart Van den Bosch. Hij koestert zijn klas. 'Je moet ze natuurlijk geen woest experimenteel gedicht voorschotelen. Maar een eenvoudig krantenbericht kunnen ze gemakkelijk aan.'

Al jaren ontleden zijn computers miljoenen zinnen. Behalve bestanden bomvol juiste grammaticale handelingen, leggen zijn algoritmen zich toe op spreektaal: pauzes in een zin, klemtoon, intonatie. 'Ik ben helemaal geobsedeerd door de wonderbaarlijke structuur van taal', bekent Van den Bosch.

Begrijp hem niet verkeerd. Hij is niet het type dat de godganselijke dag het gebrabbel van zijn 5-jarige zoon loopt te noteren - 'overigens is ieder kind een absolute taalexpert'. Denk ook niet dat hij weergaloos cryptogrammen oplost of Nederlandstalige liedjes analyseert.

'Ik heb geen mening over de vermeende verengelsing van het Nederlands en stoor me evenmin aan modefrasen als ''ik heb zoiets van'' of ''best wel keigaaf'' of zo'. Onze computers leren de actuele stand der taal. Punt uit. Ik ben niet normatief over mooi of lelijk Nederlands. Het is zoals het is.'

De West-Brabantse gymnasiast was 13 toen hij zag hoe gemakkelijk computers in staat waren door grote hoeveelheden data te gaan. 'Het was in de tijd dat je computerspelletjes moest laden met cassettebandjes. Bij het laden van een spel waarbij je door kamers moest bewegen, hoorde ik steeds hoge piewiejowiep-toontjes. Ik vermoedde toen dat dit de plattegronden van de kamers waren. Dat bleek te kloppen. Het was voor mij het besef dat een boodschap in een structuur is verpakt. Dat geldt voor informatica, en ook voor taal.'

Twintig jaar later wil Van den Bosch met wat hij noemt 'de brute rekenkracht van de computer' bewijzen dat de taalverwerking een systeem is dat louter stoelt op geheugen en op gelijkenis gebaseerd redeneren. 'Anders dan taalgoeroe Noam Chomsky, die taal beziet met een wiskundig formele blik, baseren wij ons op empirische, herhaalbare gegevens. Daarom werken ook met grote bestanden. Het enige mechanisme van taal is het voortdurend vergelijken van een nieuwe zin met een bekende frase. Ken ik dit patroon? Wij willen bewijzen dat de computer kan leren.'

Behalve deze bijdrage aan een theorie over taal heeft Van den Bosch zich gedurende zijn huidig 5-jarig onderzoek ook concrete doelen gesteld. Zoals bijdragen aan beter sprekende computers om mensen met een handicap voor te kunnen lezen. Of om de hinderlijke artificiële telefoonstemmen op servicenummers, bioscoop- en pizzeriamenu te vervangen door stemmen met een natuurlijke intonatie te verbeteren.

Ook handig: uitbreiding van de zoekmachines op het internet met een grammaticasysteem. Zodat je niet meer intikt 'Lubbers+ontkende', maar 'onderwerp: Lubbers, werkwoord ontkende'. Van den Bosch: 'Een zoeksysteem met meer taalgevoel speurt verfijnder en levert verrijkte oogst.'

Helemaal mooi: een Japanner belt een Duitse handelspartner. Beiden spreken gewoon hun moerstaal, en zijn in staat door een giga-snelle synchrone tolk de ander ook onmiddellijk in hun eigen taal te volgen. 'De belofte voor deze slimme systemen dateert al van vijftien jaar geleden', beaamt Van den Bosch. Het dotcom-debâcle, culminerend in waardeloze internetaandelen, heeft roet in het eten gegooid. Maar ook de ontwikkeling van bruikbare technologie verloopt minder voorspoedig dan gedacht, denkt de wetenschapper.

Aan hem zal het niet liggen. Keihard werkt Van den Bosch. Feitelijk is hij schaduwhoogleraar, uiteraard zonder het bijbehorende riante inkomen. 'Het carriëresysteem aan de Nederlandse universiteiten is zonder meer boterzacht voor de zittende garde en snoeihard voor het aanstormend talent.'

Het is niet anders. Hij werkt evengoed bevlogen door. Meldt trots dat zijn Tilburgse onderzoeksgroep, zeker als we het samenwerkingsverband met een Antwerpse groep meetellen, behoort tot de grootste onderzoeksgroepen rond taallerende systemen. 'Wij meten ons met de experts van AT & T en Xerox.'

Van den Bosch heeft zijn aanstekelijke ijver met succes overgebracht op zijn vier promovendi, de twee post-doc's en beide programmeurs. Iedereen die even een uurtje pauzeert, een weekend vrij heeft of een week weg is naar een congres, benut de vrijkomende rekenkracht van zijn pc ten volle, zo is de gezamenlijke Tilburgse bezetenheid.

Niet alleen hebben de pc's nooit vrij, ook de baas zelf is eigenlijk permanent in de weer met zijn lerende systemen. 'Thuis rammelt de pc er tijdens de afwas een lesje doorheen, in het weekend laat ik hem forse hoeveelheden data doorspitten en voordat we naar familie op bezoek gaan, zet ik nog even een nieuwe cursus in gang', zegt Van den Bosch doodgemoedereerd. 'De computer staat gewoon naast de bank in de woonkamer. Mijn vrouw heeft het volledig geaccepteerd.'

Meer over