Data opschonen met AI: stap-voor-stap (2026)
Leer hoe je AI gebruikt om rommelige data op te schonen in Excel en Google Sheets. Van duplicaten tot inconsistente formaten - AI maakt het makkelijk.
Rommelige data is de vijand van elke goede analyse. Duplicaten, inconsistente formaten, ontbrekende waarden en typefouten maken je data onbetrouwbaar. Gelukkig kan AI het opschonen van data drastisch versnellen. In dit artikel leer je hoe, stap voor stap.
In het kort
- Data cleaning is essentieel voor betrouwbare analyses - "garbage in, garbage out"
- AI kan de meest voorkomende dataproblemen automatisch herkennen en oplossen
- ChatGPT Code Interpreter, Power Query en OpenRefine zijn de beste tools
- Wat handmatig uren kost, doe je met AI in minuten
- Altijd controleren na het opschonen - AI is niet perfect
- Maak een backup voor je begint met opschonen
Waarom data opschonen zo belangrijk is
Slechte data leidt tot:
- Verkeerde analyses en conclusies
- Misleidende grafieken en dashboards
- Fouten in rapportages
- Slechte beslissingen gebaseerd op onjuiste informatie
- Tijdverspilling bij het debuggen van formules die niet werken door data-fouten
Onderzoek laat zien dat data scientists 60-80% van hun tijd besteden aan data cleaning. AI kan dat percentage drastisch verlagen.
De meest voorkomende dataproblemen
1. Duplicaten
Dezelfde record komt meerdere keren voor, soms met kleine variaties:
- "Jan de Vries" en "J. de Vries" en "jan de vries"
- Hetzelfde ordernummer twee keer met verschillende bedragen
2. Inconsistente formaten
Dezelfde informatie op verschillende manieren opgeslagen:
- Datums: "01-01-2026", "1 jan 2026", "2026/01/01"
- Telefoonnummers: "0612345678", "+31 6 1234 5678", "06-12345678"
- Bedragen: "1.000,00", "1000", "EUR 1.000"
3. Ontbrekende waarden
Lege cellen waar data zou moeten staan. Soms met placeholder tekst als "N/A", "onbekend" of "-".
4. Typefouten en spelfouten
"Amstrerdam" in plaats van "Amsterdam", "Sofware" in plaats van "Software".
5. Verkeerde datatypes
Getallen opgeslagen als tekst (daardoor werken formules niet), datums als tekst, postcode als getal (waardoor voorloopnullen verdwijnen).
6. Uitschieters
Waarden die niet kloppen: een leeftijd van 250, een negatieve prijs, een datum in het jaar 3026.
Stap-voor-stap: data opschonen met AI
Stap 1 - Maak een backup
Voor je iets verandert:
- Kopieer je originele bestand
- Of maak een kopie van het tabblad in Excel/Sheets
- Bewaar altijd de originele data
Stap 2 - Verken je data
Laat AI je data scannen op problemen. Upload je bestand naar ChatGPT:
Prompt: "Analyseer deze dataset en geef een overzicht van datakwaliteitsproblemen:
- Hoeveel duplicaten zijn er?
- Welke kolommen hebben ontbrekende waarden?
- Zijn er inconsistente formaten?
- Zijn er uitschieters?
- Welke datatypes worden verkeerd gebruikt?"
ChatGPT scant je data en geeft een gestructureerd overzicht van alle problemen.
Stap 3 - Duplicaten verwijderen
Met ChatGPT: "Verwijder duplicaten op basis van kolom A (klantnummer). Als er meerdere rijen zijn voor dezelfde klant, behoud de meest recente (op basis van kolom D - datum)."
Met Excel formules (AI-gegenereerd): Vraag ChatGPT: "Geef me een Excel-formule die duplicaten markeert in kolom A zodat ik ze kan filteren en verwijderen."
Met Power Query: Power Query heeft ingebouwde functionaliteit voor duplicaten verwijderen. Copilot in Excel kan je hierbij helpen.
Stap 4 - Formaten standaardiseren
Datums standaardiseren: Prompt: "In kolom C staan datums in verschillende formaten (DD-MM-YYYY, D MMM YYYY, YYYY/MM/DD). Converteer alles naar DD-MM-YYYY formaat."
Namen standaardiseren: Prompt: "Standaardiseer de namen in kolom A naar het formaat 'Voornaam Achternaam' met correcte hoofdletters."
Telefoonnummers: Prompt: "Converteer alle telefoonnummers in kolom E naar het formaat +31 6 XXXX XXXX."
Stap 5 - Ontbrekende waarden behandelen
AI kan helpen beslissen wat te doen met lege cellen:
Prompt: "In kolom D (provincie) ontbreken 47 waarden. De bijbehorende plaatsnamen staan in kolom C. Vul de ontbrekende provincies in op basis van de plaatsnamen."
Of voor numerieke data: "Kolom F (omzet) heeft 12 ontbrekende waarden. Wat is de beste strategie om deze aan te vullen? Geef de opties met voor- en nadelen."
Opties die AI kan voorstellen:
- Gemiddelde of mediaan invullen
- Waarde uit vorige/volgende periode gebruiken
- Voorspellen op basis van andere kolommen
- Rijen verwijderen (als het er weinig zijn)
Stap 6 - Typefouten corrigeren
Prompt: "Controleer kolom B (plaatsnamen) op spelfouten en inconsistenties. Geef een lijst van waarschijnlijke fouten met suggesties voor correctie."
AI herkent:
- "Amstrerdam" moet "Amsterdam" zijn
- "Den haag" moet "Den Haag" zijn
- "Utrehct" moet "Utrecht" zijn
Stap 7 - Uitschieters identificeren
Prompt: "Identificeer uitschieters in kolom G (bedrag). Markeer waarden die meer dan 3 standaarddeviaties van het gemiddelde liggen. Geef aan of het waarschijnlijk fouten of legitieme uitschieters zijn."
Stap 8 - Valideer het resultaat
Na het opschonen:
- Controleer het totaal aantal rijen (zijn er niet te veel verdwenen?)
- Check steekproefsgewijs of correcties kloppen
- Vergelijk totalen voor en na het opschonen
- Test of je formules en analyses nu correct werken
Tools voor data cleaning
ChatGPT Code Interpreter
- Upload je bestand en beschrijf de problemen
- AI schrijft en voert Python-code uit
- Geschikt voor complexe opschoontaken
- Download het opgeschoonde bestand
Power Query (Excel)
- Ingebouwd in Excel
- Visuele interface voor datatransformatie
- Stappen worden opgeslagen en zijn herhaalbaar
- Copilot kan helpen met Power Query stappen
OpenRefine
- Gratis, open source tool
- Speciaal ontworpen voor data cleaning
- Krachtig voor grote datasets
- Clustering algoritmes voor vergelijkbare waarden
Python (Pandas)
- Meest flexibele optie
- Laat ChatGPT het script schrijven
- Geschikt voor geautomatiseerde pipelines
- Lees meer over code schrijven met AI
Veelgemaakte fouten
-
Geen backup maken - Als het opschonen fout gaat, ben je je originele data kwijt. Altijd eerst kopieren.
-
Alles automatisch laten doen zonder controle - AI kan fouten maken bij het opschonen. Steekproefsgewijs controleren is essentieel.
-
Originele data overschrijven - Werk altijd in een kopie. Bewaar de originele data voor het geval je terug moet.
-
Ontbrekende waarden verkeerd invullen - Gemiddelden invullen kan je analyse vertekenen. Overweeg of het beter is om rijen met ontbrekende data uit te sluiten.
-
Niet documenteren wat je hebt gedaan - Houd bij welke opschoonstappen je hebt uitgevoerd. Dit is belangrijk voor reproduceerbaarheid en audit.
-
Data opschonen na de analyse - Schoon altijd eerst op, analyseer daarna. Anders baseer je conclusies op vuile data.
Praktische checklist
Gebruik deze checklist bij elke dataset:
- [ ] Backup gemaakt
- [ ] Kolomkoppen consistent en beschrijvend
- [ ] Duplicaten verwijderd of gemarkeerd
- [ ] Datumformaten consistent
- [ ] Getallen zijn daadwerkelijk getallen (niet tekst)
- [ ] Ontbrekende waarden behandeld
- [ ] Spelfouten gecorrigeerd
- [ ] Uitschieters bekeken
- [ ] Resultaat gevalideerd
- [ ] Opschoonstappen gedocumenteerd
Meer over data-analyse met AI lees je op hulpbijexcel.nl over ChatGPT data-analyse en in ons artikel over AI formules in Excel.
Hulp nodig?
Kom je er niet uit? Neem gerust contact op:
- WhatsApp: Stuur een berichtje
- Email: w.bouwmeester@bouwmeesterconsultancy.nl
- Bel: +31 6 28963636
Ik help je graag verder!
Gerelateerde artikelen
Alles bekijkenChatGPT
Data analyseren met ChatGPT: stap-voor-stap (2026)
Leer hoe je ChatGPT inzet voor data-analyse. Upload spreadsheets, maak grafieken en ontdek inzichten - zonder programmeerkennis.
AI en Excel
AI gebruiken voor Excel formules (2026)
Leer hoe je AI inzet om Excel formules te schrijven, begrijpen en debuggen. Van eenvoudige SOM tot complexe VERT.ZOEKEN - AI helpt je sneller werken.
Copilot
Copilot in Excel: formules maken met AI (2026)
Leer hoe je Microsoft Copilot gebruikt in Excel. Van formules genereren tot data analyseren - complete handleiding met praktische voorbeelden.