leestijd 12 minuten

De meest voorkomende noot in een muziekstuk komt twee keer zo vaak voor als de op een na meest voorkomende noot. Het meest gebruikte woord op Wikipedia komt tien keer zo vaak voor als het woord dat op de tiende plaats staat. Deze wetmatigheid staat bekend als de wet van Zipf en je ziet hem op heel veel plekken terug.

Pure mathematics is, in its way, the poetry of logical ideas

Albert Einstein

Wat is de wet van Zipf precies? Waar zie je deze wetmatigheid terug? En wat is de praktische toepassing hiervan? In dit artikel lees je wat de wet van Zipf is en je ontdekt hoe dit principe onder andere wordt ingezet in de zoektocht naar buitenaards leven!

Wat is de wet van Zipf?

In het gebruik van woorden in teksten zit een wetmatigheid die door George Kingsley Zipf werd geconstateerd. George Zipf keek naar de frequentie waarmee woorden in teksten en boeken voorkomen. Zo kwam hij er achter dat het woord dat het vaakst voorkomt ongeveer twee keer zo vaak wordt gebruikt als het op één na meest voorkomende woord. Het meest frequente woord komt dan weer drie keer zo vaak voor als het op twee na frequentste woord. Ook voor het volgende woord zet deze reeks zich voort en zo is uiteindelijk de wet van Zipf als term gemunt.

De wet van Zipf stelt dat de frequentie waarmee een woord voorkomt omgekeerd evenredig is met de positie van dat woord in de rangschikking op basis van de frequentie. Kort gezegd is de rang omgekeerd evenredig met de frequentie. In formulevorm kan je dit als volgt omschrijven:

De wet van Zipf - formule

Een voorbeeld van de wet van Zipf

Laat ik de wet van Zipf toelichten aan de hand van een voorbeeld. Stel dat in een boek het woord de het meest voorkomt, met 1000 vermeldingen (1000 is dan de ‘a’ in bovenstaande formule). Het woord een wordt het op een na vaakst genoemd, het staat op plek 3 en deze op plek 4. Wanneer de tekst in het boek voldoet aan de wet van Zipf, dan komt het woord een ongeveer 500 keer voor. Namelijk ½ * 1000. Het woord het komt dan 333 keer voor en deze zie je 250 keer terug. De tabel hieronder geeft dit weer:

Positie WoordFrequentie
1De 1000
2Een1/2 * 1000 = 500
3Het1/3 * 1000 = 333
4Deze1/4 * 1000 = 250
51/5 * 1000 = 200
Distributie van woorden volgens de wet van Zipf

Een andere verbijzondering van de wet van Zipf is de wet van Lotka. Deze wet is specifiek gericht op het aantal publicaties van artikelen door verschillende auteurs. Lotka stelt dat het aantal artikelen dat door verschillende auteurs wordt geschreven, gelijk is aan het aantal auteurs gedeeld door het aantal artikelen in het kwadraat:

De wet van Lotka - formule

Stel dat er 100 auteurs zijn die 1 artikel hebben gepubliceerd, dan zijn er 25 auteurs die 2 artikelen hebben geschreven, 11 auteurs die 3 artikelen hebben geschreven, enzovoorts, totdat je bij 10 artikelen komt. Er is namelijk slechts 1 auteur die zo ver is gekomen 10 artikelen te publiceren. De wet van Lotka is dus een specifiek voorbeeld van de wet van Zipf.

Een speciale weergave: de dubbel logaritmische schaal

Zet je deze waarden uit de tabel die ik hierboven toonde in een grafiek, waarbij je de rang uitzet tegen de frequentie, dan ziet dat er als volgt uit:

De wet van Zipf

Wanneer de waarden die je in een grafiek wilt weergeven zo ver uit elkaar liggen als hier het geval is, dan is het gebruikelijk de data op een dubbel logaritmische schaal weer te geven. Een logaritmische schaal wil zeggen dat de afstand tussen bijvoorbeeld de waarden 10 en 20 en 50 en 60 (beiden een verschil van 10) niet gelijk is. In plaats daarvan is de afstand tussen de waarden 10 en 100 gelijk aan de afstand tussen 60 en 600. Elke volgende stap betekent dus dat de waarde een factor 10 verschilt.

Een bekend voorbeeld van het gebruik van een logaritmische schaal is de weergave van geluidsintensiteit in decibel (dB). Elke stap van 10 dB betekend een vertienvoudiging van de geluidsintensiteit. Van 10 dB naar 20 dB betekent dus dat het geluidsniveau 10 keer zo sterk is.

Door voor beide assen van de grafiek een logaritmische schaal toe te passen, is eenvoudig zichtbaar of de data zich verhoudt volgens de wet van Zipf. Als dit het geval is dan volgen de datapunten namelijk een rechte lijn met een negatieve gradiënt (resulterend in een dalende lijn). Om dit te illustreren heb ik de data uit de grafiek hierboven weergegeven in een grafiek waarbij beide assen een logaritmische schaal hebben:

De wet van Zipf - dubbel logaritmische schaal
Op dubbel logaritmische schaal is eenvoudig zichtbaar of de data de wet van Zipf volgt

De wet van Zipf is een machtswet

De wet van Zipf is een voorbeeld van een machtswet. Zo’n wet kom je niet alleen tegen bij de frequentie van woorden in teksten. De toepasbaarheid is veel breder. Een aantal voorbeelden waar je deze wetmatigheid terugziet: de verdeling van woorden in Moby Dick, de frequentie waarmee achternamen voorkomen, de grootte van aardbevingen, de snelheid waarmee we informatie vergeten, het financiële vermogen van mensen, de webpagina’s die op een website worden bezocht, het aantal mensen dat omkomt in een oorlog, de verkoop van verschillende smaken ijs en ga zo maar door. Je ziet dus dat dit niet alleen menselijk gedrag betreft, maar ook natuurlijke fenomenen zoals aardbevingen.

Mathematics is the music of reason

James Joseph Sylvester

Hoe ontstaat de wet van Zipf?

Toen ik voor het eerst over de wet van Zipf las vond ik het met name erg onwaarschijnlijk. Je zou verwachten dat in ieder geval een aantal van de voorbeelden waarin je deze wet terugziet – zoals de grootte van aardbevingen – willekeurig zijn. Toen ik me meer ben gaan verdiepen in de onderzoeken naar deze wet, kwam ik er achter dat er voldoende waarnemingen zijn om dit als paradigma te accepteren. Kortom, ik geloof dat dit effect voldoende is onderzocht om dit als waarheid aan te nemen, totdat het tegendeel bewezen is.

Als je net als ik op dit punt van acceptatie bent beland, dan komt automatisch de volgende vraag op, namelijk hoe verklaar je deze wet? Met andere woorden, welke mechanismen zorgen er voor dat deze wet zich op zo veel verschillende plekken en in zo veel verschillende domeinen manifesteert?

Je bent niet de enige die zich dit afvraagt, sterker nog, hier is veel discussie over. Het is onduidelijk wat de onderliggende krachten zijn die de wet van Zipf veroorzaken. Wel zijn hierover twee dominante theorieën, namelijk de theorie van preferential attachment en de weg van de minste weerstand.

Theorie 1: Preferential attachment

De theorie van preferential attachment stelt het volgende: in elke groep en bij elk proces waarin een hoeveelheid van iets verdeeld wordt onder verschillende individuen, vergaren degenen die al het meeste hebben nog meer van hetzelfde. Preferential attachment staat ook bekend onder de namen Yule proces, cumulatief voordeel en het Mattheuseffect. Deze laatste zal ik later toelichten, omdat die theorie een fundamenteel verschil bevat ten opzichte van preferential attachment.

Preferential attachment is het concept van ‘de rijken worden rijker’ en ‘success breeds success’. Hoe dit ontstaat is eenvoudig uit te leggen aan de hand van het YouTube algoritme: wanneer ik een video upload op YouTube en deze wordt initieel goed bekeken, dan is dat voor het aanbevelingen-algoritme een teken dat de video potentieel waardevol is. Vervolgens zal de video bij meer gebruikers in hun aanbevelingen zichtbaar zijn, waardoor meer mensen de video zien. Het algoritme pikt dat weer op en zo krijg je een zichzelf versterkend effect. Stel je voor dat ik dezelfde video midden in de nacht had geplaatst en er waren initieel niet zoveel mensen die de video te zien kregen, dan was de bekendheid daarvan lang niet zo groot geweest.

Doordat bepaalde video’s dit voordeel van het YouTube algoritme genieten, ontstaat een groot verschil tussen de ‘haves’ en de ‘have not’s’: een aantal van de video’s krijgen alle aandacht en de rest mag de kliekjes verdelen. Door dit sneeuwbaleffect leidt preferential attachment tot machtsdistributies, zoals we die eerder in dit artikel al zagen.

Het Mattheuseffect

Hierboven noemde ik het Mattheuseffect al en ik gaf aan dat deze theorie op een fundamenteel aspect afwijkt van de theorie van preferential attachment. Het Mattheuseffect is genoemd naar een passage in de bijbel en meer specifiek in het evangelie van Mattheüs:

Want wie heeft zal nog meer krijgen, en wel in overvloed, maar wie niets heeft, hem zal zelfs wat hij heeft nog worden ontnomen.

Uit de ‘Gelijkenis van de talenten’, Mattheüs 25:14-30

Zie je wat het verschil is tussen dit effect en preferential attachment? Het Mattheuseffect neemt ook de mogelijkheid tot verlies mee. Wanneer je het hele verhaal in het boek van Mattheüs leest, dan zie je dat hij hierin menselijk gedrag beschrijft. Ook dit is een verschil, aangezien preferential attachment een wetmatigheid beschrijft die los staat van bewuste menselijke keuzes.

Het klassieke voorbeeld van het Mattheüseffect is een wetenschappelijke ontdekking die gelijktijdig door 2 individuen wordt gedaan en waarbij we eerder geneigd zijn deze doorbraak toe te schrijven aan de bekendere van de twee wetenschappers.

Theorie 2: De weg van de minste weerstand

De weg van de minste weestand is de theorie die George Zipf zelf aanhing. Deze theorie stelt dat mensen, dieren en zelfs machines altijd de weg van de minste weerstand of de minste inspanning volgen.

Wanneer we kijken naar het initiële onderzoek van George Zipf, dan is de weg van de minste weerstand daar als volgt van toepassing: bij het schrijven van teksten is het doel van de schrijver om een boodschap over te brengen. Wanneer ze dit efficiënt wil doen, dan zal ze woorden kiezen die veel worden gebruikt en daardoor ook makkelijk opkomen wanneer ze de boodschap op papier wil zetten. Door ‘bekende’ woorden te gebruiken wordt de boodschap ook voor meer lezers toegankelijk.

De makkelijkste manier om deze weg van de minste weerstand inzichtelijk te maken is aan de hand van het concept van een olifantenpaadje. Als er een manier is om van A naar B te komen die minder moeite kost, dan zullen mensen die route ook gebruiken.

Dit zijn geen sluitende theorieën

Deze twee theorieën kunnen een deel van de mechanismen achter de wet van Zipf verklaren, maar ze verklaren niet dat het aantal oorlogsslachtoffers of de verdeling van de grootte van aardbevingen ook deze wetmatigheid volgt. De reden dat de waarden onderling ver uit elkaar liggen (met een kleine groep die het grootste deel van de waarde bezit) kan je met deze theorieën beargumenteren. De bepaling van de waarde aan de hand van de relatieve positie volgt hier echter niet uit. Met andere woorden, het verklaart niet dat de 2e plek ook resulteert in de helft van de waarde t.o.v. de eerste positie.

In mathematics the art of proposing a question must be held of higher value than solving it.

George Cantor

Een sluitende verklaring geven deze theorieën dus niet. Dit is een mooi bruggetje naar een interessante uitzondering op de wet van Zipf, die bekend staat als het King effect.

Een uitzondering op de wet van Zipf: het King effect

Het King effect verwijst naar de waarneming dat de top één of twee datapunten uit een dataset zogenaamde outliers zijn. Deze datapunten volgen de distributie die de andere datapunten laten zien niet. Ze torenen ver boven de andere waarden uit. Wanneer het effect niet positief, maar negatief is, dan spreken we van het pauper effect.

Een voorbeeld waarbij het King effect voorkomt is de rangschikking van landen op basis van hun inwoneraantal. Plot de positie van alle landen ter wereld op basis van het aantal inwoners tegen de populatiegrootte en je ziet het patroon van een machtswet verschijnen. Behalve voor de grootste landen, China en India. Dit zijn de kings: duidelijke outliers die ver boven de anderen uitstijgen in de rangorde.

Het King effect
Het King effect bij de rangschikking van landen op basis van populatie

Wat betekent dit nu? Is er in China en India een bovennatuurlijke populatiegroei gaande? Is het te verwachten dat dit verschil uiteindelijk nivelleert, of wordt het effect alleen maar groter? Het King effect geeft met name aan dat we heel veel nog niet weten over de mechanismen die de wereld om ons heen vormen. Hoe gaaf is dat, er is nog zoveel te ontdekken!

Toch is het fijn als het niet alleen bij theorie en terugkijken blijft, dus wat is nu eigenlijk de praktische toepassing van de wet van Zipf?

Praktische toepassingen van de wet van Zipf

De wet van Zipf wordt pas echt interessant wanneer er een praktische toepassing voor is. En die toepassing is er, bijvoorbeeld in de zoektocht naar buitenaards leven.

De zoektocht naar buitenaards leven en de grootte van aardbevingen

George Zipf ontdekte zijn wetmatigheid initieel in het gebruik van taal in teksten. Het interessante is dat de wet zich niet beperkt tot menselijke taal. Uit onderzoek naar de geluiden waarmee dolfijnen communiceren blijkt ook daar een machtswet aan ten grondslag te liggen. Zowel onze taal als verschillende talen in het dierenrijk volgen dus de wet van Zipf. Als er buitenaards leven is, dan weten we natuurlijk niet op welke manier deze levensvormen communiceren. Omdat zowel talen van diersoorten als die van mensen voldoen aan de wet van Zipf, wordt deze wet als eerste filter in de zoektocht naar buitenaards leven gebruikt. Wanneer er een signaal wordt opgepikt, dan wordt eerst gekeken of dit voldoet aan de wet van Zipf. Is dit inderdaad het geval, dan zal er nader onderzoek worden verricht.

Eerder in dit artikel schreef ik al dat de grootte van aardbevingen ook de wet van Zipf volgen. Door hier een model op te baseren, kan je de grootte van aardbevingen voorspellen. Het is met alleen dit model natuurlijk niet mogelijk te bepalen wanneer een aardbeving zal plaatsvinden.

Als je niet de beste bent, waar ben je dan mee bezig?

De meer persoonlijke toepassing van de wet van Zipf kan confronterend zijn. Het vereist dat je jezelf een eerlijke spiegel voorhoudt en bereid bent een existentiële koerswijziging in te zetten.

Wat is jouw niche?

We hebben gezien dat de waarde, welvaart, of wat je dan ook wilt bereiken in dit leven verdeeld wordt tussen enkele grote spelers. Ben je daar niet één van, wat ben je dan aan het doen? Je weet ondertussen dat het systeem zo is opgezet dat degenen die veel hebben nog meer zullen krijgen. Kan jij de beste worden in wat je nu doet? Nee? Dan is het tijd voor een koerswijziging.

Dit betekent niet dat je direct moet opgeven! Integendeel. Je zal nog harder aan de bak moeten. Je moet namelijk een niche zoeken waarin jij de allerbeste bent of kan worden. De markt houdt van winnaars! Nummer 1 zijn betekent dat je niet een beetje beter bent dan de nummer 2, maar dat je mijlenver op hem voorloopt.

Het is als zoeken naar een goed restaurant

Enige tijd geleden ben ik verhuisd en ik zocht een restaurant in mijn nieuwe buurt. Wat doe je dan? Natuurlijk, online zoeken naar een goed restaurant en zo vond ik een plek met fantastische reviews bij mij in de buurt. Eenmaal aangekomen kregen we een prachtige plek in de zon aan het water en het personeel was werkelijk uitmuntend. Elk van de vijf gangen was perfect verzorgd en het was een fantastische avond. De volgende dag schreef ik een lovende review en hiermee hou ik het systeem in stand waardoor ik in de eerste plaats bij dit restaurant terecht kwam.

Zou ik in mijn buurt een nieuw restaurant beginnen, dan is het lastig hier tussen te komen. En dat is waarom je op zoek moet naar de niche waarin jij uitblinkt. Misschien heeft jouw restaurant wel het beste lokale biologische eten, de meeste speciaalbieren in de wijde omgeving of een 360 graden uitzicht over de stad. Wat het ook is, er is iets dat jou uniek maakt, jaag dat na en specialiseer je.

Niemand gelooft in iemand die alles kan, net zomin als we geloven in het zoveelste apparaat op tell sell waarmee je zonder sporten nu toch echt in 5 minuten een six pack krijgt, it’s amazing. Benut je talenten en maak het verschil!

Without mathematics, there’s nothing you can do. Everything around you is mathematics. Everything around you is numbers

Shakuntala