Softwareproblemen onder de pet

Het netwerk voor vaste telefonie van de Amerikaanse telecomreus AT&T was jarenlang het toonbeeld van betrouwbaarheid. Het was zo ontworpen dat gebruikers de kiestoon, die aangaf dat er verbinding was, in 99,999 procent van de gevallen te horen kregen. De vijf negens van AT&T. In het kort kwam het erop neer dat de lijn per jaar slechts 5 minuten en 26 seconden niet werkte.


Kom maar eens om dat soort betrouwbaarheidscijfers in deze tijd van internetdienstverlening. Elke week ligt een bekende website wel even (of iets langer) plat. Recent nog kampten Hotmail en Skype met grote storingen. Wikipedia, Facebook, Twitter, Foursquare en PayPal belandden op de storingenranglijst 2010 die het Zweedse bedrijf Royal Pingdom jaarlijks opstelt.


Toch is internetdienstverlening niet zo onbetrouwbaar als het lijkt. Wat was bijvoorbeeld de laatste keer dat het u niet lukte een zoekopdracht via Google te voltooien? Met het verstrijken van de jaren hebben veel internetbedrijven hun kennis en ervaring steeds verder ontwikkeld. De mate van betrouwbaarheid van veel webdiensten is daarmee ook gegroeid. Betrouwbaarheid van 99,99 procent zal op termijn de standaard worden. Dat houdt in dat sites het hele jaar bereikbaar zullen zijn op 52, minuten en 56 seconden na. De 5 9's standaard van AT&T zal op internet waarschijnlijk nooit bereikt worden.


'Wij denken althans niet dat het haalbaar is ', zegt Urs Hölzle, hoofd van de operationele zaken bij Google. 'Ons doel voor onze grote diensten is een betrouwbaarheid van 99,99 procent.' De zoekmachine van het bedrijf haalt echter al een betrouwbaarheid gelijk aan die van de vaste lijnen van AT&T in het verleden, zegt Hölzle.


Door de manier waarop het zoeksysteem is ingericht, is het ook vrij eenvoudig dat soort betrouwbaarheid te leveren. De informatie van Google staat verspreid over servers in een oneindige hoeveelheid datacenters. Voor een zoekopdracht van één persoon is het niet nodig om de informatie in al die datacenters tegelijkertijd te updaten.


'Google beschikt niet over de mogelijkheid om op vaste momenten het systeem plat te leggen voor onderhoud', zegt Armando Fox. Hij is hoogleraar systeemontwerp op de University of Berkely. 'Ook voor het uitvoeren van updates kunnen ze de boel niet even stop zetten. En toch lanceren ze aan de lopende band nieuwe diensten.' Volgens Fox is het tempo waarin dat gebeurt 'ongehoord' voor internetbedrijven.


Ook Amazon behoort tot de pioniers op het gebied van internetdienstverlening. Aan andere bedrijven verkoopt het zijn dienst 'Amazon Web Services', dat bestaat uit talloze verschillende webtoepassingen, die het bedrijf zelf ook gebruikt om Amazon.com succesvol en betrouwbaar in de lucht te houden.


Een daarvan heet de 'Simple Storage Service', ook wel S3. Het biedt andere bedrijven de mogelijkheid om hun data op servers van Amazon te stallen. 'We hebben het over 'duurzaamheid' van data', aldus James Hamilton van Amazon Web Services.. 'Het systeem is zo ontworpen dat het in 99,9999999 procent van de gevallen moet werken'. 'De kans dat data verloren gaan of het systeem ongewild plat gaat is dan 0,00000000,1 procent. Althans, in theorie.'


De betrouwbaarheid van internetdiensten is van enorm belang. Websites als Facebook, Twitter of Skype die even uit de lucht zijn, veroorzaken binnen de kortste keren een storm aan kritiek op internet, met flinke imagoschade als gevolg.


Bedrijven die webdiensten leveren hebben daarvan geleerd hun softwareproblemen zo goed en zo kwaad als dat kan, zo veel mogelijk buiten het zicht van hun klanten te houden. John Ciancutti van Netflix schreef in een blog op de site van zijn bedrijf dat dat precies de reden was voor Netflix om zijn it-infrastructuur te verhuizen naar de servers van Amazon. Bovendien heeft Netflix, dat televisie en films via internet aanbiedt, verschillende lagen aangebracht in haar dienstverlening. 'Als onze gepersonaliseerde aanbevelingen tijdelijk niet werken, krijgen onze bezoekers gewoon zoekresultaten te zien met daarbij links naar door anderen veel bekeken programma's. De dienstverlening wordt tijdelijk iets minder van kwaliteit, maar de dienst blijft wel gewoon in de lucht. '


Ciancutti legt uit dat het bedrijf de eigen systemen constant bloot stelt aan zogenoemde 'Chaos Monkey'-tests. Deze stresstests leggen willekeurig bepaalde delen van het systeem plat om te kijken hoe andere onderdelen van het systeem dat probleem oppakken. 'Alleen op die manier kunnen we zeker zijn dat het ook goed gaat als zich een echte storing voordoet.'


De aanpak van Amazon en Netflix zorgt vaak voor tevreden klanten. En als ze ontevreden zijn, ligt het probleem vaak bij de internetprovider. Hoe betrouwbaar de webdiensten ook zijn, de uiteindelijke betrouwbaarheid van het systeem is afhankelijk van de zwakste schakel daarin. Een internetverbinding in huis, in combinatie met een laptop die gebruik maakt van wifi al ongeveer 99,8procent van de tijd werken, schat Hölzle van Google, wat neerkomt op 18 uur storing per jaar. 'Dan heeft de gebruiker thuis het dus niet eens door als wij een betrouwbaarheid van 5 9's leveren.'


Meer over