Naar inhoud
Hulp bijAI
Alle artikelen
AI en Excel• bijgewerkt februari 2026

Data opschonen met AI: stap-voor-stap (2026)

Leer hoe je AI gebruikt om rommelige data op te schonen in Excel en Google Sheets. Van duplicaten tot inconsistente formaten - AI maakt het makkelijk.

Rommelige data is de vijand van elke goede analyse. Duplicaten, inconsistente formaten, ontbrekende waarden en typefouten maken je data onbetrouwbaar. Gelukkig kan AI het opschonen van data drastisch versnellen. In dit artikel leer je hoe, stap voor stap.

In het kort

  • Data cleaning is essentieel voor betrouwbare analyses - "garbage in, garbage out"
  • AI kan de meest voorkomende dataproblemen automatisch herkennen en oplossen
  • ChatGPT Code Interpreter, Power Query en OpenRefine zijn de beste tools
  • Wat handmatig uren kost, doe je met AI in minuten
  • Altijd controleren na het opschonen - AI is niet perfect
  • Maak een backup voor je begint met opschonen

Waarom data opschonen zo belangrijk is

Slechte data leidt tot:

  • Verkeerde analyses en conclusies
  • Misleidende grafieken en dashboards
  • Fouten in rapportages
  • Slechte beslissingen gebaseerd op onjuiste informatie
  • Tijdverspilling bij het debuggen van formules die niet werken door data-fouten

Onderzoek laat zien dat data scientists 60-80% van hun tijd besteden aan data cleaning. AI kan dat percentage drastisch verlagen.

De meest voorkomende dataproblemen

1. Duplicaten

Dezelfde record komt meerdere keren voor, soms met kleine variaties:

  • "Jan de Vries" en "J. de Vries" en "jan de vries"
  • Hetzelfde ordernummer twee keer met verschillende bedragen

2. Inconsistente formaten

Dezelfde informatie op verschillende manieren opgeslagen:

  • Datums: "01-01-2026", "1 jan 2026", "2026/01/01"
  • Telefoonnummers: "0612345678", "+31 6 1234 5678", "06-12345678"
  • Bedragen: "1.000,00", "1000", "EUR 1.000"

3. Ontbrekende waarden

Lege cellen waar data zou moeten staan. Soms met placeholder tekst als "N/A", "onbekend" of "-".

4. Typefouten en spelfouten

"Amstrerdam" in plaats van "Amsterdam", "Sofware" in plaats van "Software".

5. Verkeerde datatypes

Getallen opgeslagen als tekst (daardoor werken formules niet), datums als tekst, postcode als getal (waardoor voorloopnullen verdwijnen).

6. Uitschieters

Waarden die niet kloppen: een leeftijd van 250, een negatieve prijs, een datum in het jaar 3026.

Stap-voor-stap: data opschonen met AI

Stap 1 - Maak een backup

Voor je iets verandert:

  • Kopieer je originele bestand
  • Of maak een kopie van het tabblad in Excel/Sheets
  • Bewaar altijd de originele data

Stap 2 - Verken je data

Laat AI je data scannen op problemen. Upload je bestand naar ChatGPT:

Prompt: "Analyseer deze dataset en geef een overzicht van datakwaliteitsproblemen:

  • Hoeveel duplicaten zijn er?
  • Welke kolommen hebben ontbrekende waarden?
  • Zijn er inconsistente formaten?
  • Zijn er uitschieters?
  • Welke datatypes worden verkeerd gebruikt?"

ChatGPT scant je data en geeft een gestructureerd overzicht van alle problemen.

Stap 3 - Duplicaten verwijderen

Met ChatGPT: "Verwijder duplicaten op basis van kolom A (klantnummer). Als er meerdere rijen zijn voor dezelfde klant, behoud de meest recente (op basis van kolom D - datum)."

Met Excel formules (AI-gegenereerd): Vraag ChatGPT: "Geef me een Excel-formule die duplicaten markeert in kolom A zodat ik ze kan filteren en verwijderen."

Met Power Query: Power Query heeft ingebouwde functionaliteit voor duplicaten verwijderen. Copilot in Excel kan je hierbij helpen.

Stap 4 - Formaten standaardiseren

Datums standaardiseren: Prompt: "In kolom C staan datums in verschillende formaten (DD-MM-YYYY, D MMM YYYY, YYYY/MM/DD). Converteer alles naar DD-MM-YYYY formaat."

Namen standaardiseren: Prompt: "Standaardiseer de namen in kolom A naar het formaat 'Voornaam Achternaam' met correcte hoofdletters."

Telefoonnummers: Prompt: "Converteer alle telefoonnummers in kolom E naar het formaat +31 6 XXXX XXXX."

Stap 5 - Ontbrekende waarden behandelen

AI kan helpen beslissen wat te doen met lege cellen:

Prompt: "In kolom D (provincie) ontbreken 47 waarden. De bijbehorende plaatsnamen staan in kolom C. Vul de ontbrekende provincies in op basis van de plaatsnamen."

Of voor numerieke data: "Kolom F (omzet) heeft 12 ontbrekende waarden. Wat is de beste strategie om deze aan te vullen? Geef de opties met voor- en nadelen."

Opties die AI kan voorstellen:

  • Gemiddelde of mediaan invullen
  • Waarde uit vorige/volgende periode gebruiken
  • Voorspellen op basis van andere kolommen
  • Rijen verwijderen (als het er weinig zijn)

Stap 6 - Typefouten corrigeren

Prompt: "Controleer kolom B (plaatsnamen) op spelfouten en inconsistenties. Geef een lijst van waarschijnlijke fouten met suggesties voor correctie."

AI herkent:

  • "Amstrerdam" moet "Amsterdam" zijn
  • "Den haag" moet "Den Haag" zijn
  • "Utrehct" moet "Utrecht" zijn

Stap 7 - Uitschieters identificeren

Prompt: "Identificeer uitschieters in kolom G (bedrag). Markeer waarden die meer dan 3 standaarddeviaties van het gemiddelde liggen. Geef aan of het waarschijnlijk fouten of legitieme uitschieters zijn."

Stap 8 - Valideer het resultaat

Na het opschonen:

  • Controleer het totaal aantal rijen (zijn er niet te veel verdwenen?)
  • Check steekproefsgewijs of correcties kloppen
  • Vergelijk totalen voor en na het opschonen
  • Test of je formules en analyses nu correct werken

Tools voor data cleaning

ChatGPT Code Interpreter

  • Upload je bestand en beschrijf de problemen
  • AI schrijft en voert Python-code uit
  • Geschikt voor complexe opschoontaken
  • Download het opgeschoonde bestand

Power Query (Excel)

  • Ingebouwd in Excel
  • Visuele interface voor datatransformatie
  • Stappen worden opgeslagen en zijn herhaalbaar
  • Copilot kan helpen met Power Query stappen

OpenRefine

  • Gratis, open source tool
  • Speciaal ontworpen voor data cleaning
  • Krachtig voor grote datasets
  • Clustering algoritmes voor vergelijkbare waarden

Python (Pandas)

  • Meest flexibele optie
  • Laat ChatGPT het script schrijven
  • Geschikt voor geautomatiseerde pipelines
  • Lees meer over code schrijven met AI

Veelgemaakte fouten

  1. Geen backup maken - Als het opschonen fout gaat, ben je je originele data kwijt. Altijd eerst kopieren.

  2. Alles automatisch laten doen zonder controle - AI kan fouten maken bij het opschonen. Steekproefsgewijs controleren is essentieel.

  3. Originele data overschrijven - Werk altijd in een kopie. Bewaar de originele data voor het geval je terug moet.

  4. Ontbrekende waarden verkeerd invullen - Gemiddelden invullen kan je analyse vertekenen. Overweeg of het beter is om rijen met ontbrekende data uit te sluiten.

  5. Niet documenteren wat je hebt gedaan - Houd bij welke opschoonstappen je hebt uitgevoerd. Dit is belangrijk voor reproduceerbaarheid en audit.

  6. Data opschonen na de analyse - Schoon altijd eerst op, analyseer daarna. Anders baseer je conclusies op vuile data.

Praktische checklist

Gebruik deze checklist bij elke dataset:

  • [ ] Backup gemaakt
  • [ ] Kolomkoppen consistent en beschrijvend
  • [ ] Duplicaten verwijderd of gemarkeerd
  • [ ] Datumformaten consistent
  • [ ] Getallen zijn daadwerkelijk getallen (niet tekst)
  • [ ] Ontbrekende waarden behandeld
  • [ ] Spelfouten gecorrigeerd
  • [ ] Uitschieters bekeken
  • [ ] Resultaat gevalideerd
  • [ ] Opschoonstappen gedocumenteerd

Meer over data-analyse met AI lees je op hulpbijexcel.nl over ChatGPT data-analyse en in ons artikel over AI formules in Excel.


Hulp nodig?

Kom je er niet uit? Neem gerust contact op:

Ik help je graag verder!

Gerelateerde artikelen

Alles bekijken

Hulp met AI in Excel? Neem contact op

Ik help je graag verder met ai in excel hulp.

Meer informatie

Hulp nodig met jouw situatie?

Korte vraag, snel antwoord. Stuur wat context (wat je probeert te bereiken en waar je vastloopt) en ik help je gericht verder.

Contact: w.bouwmeester@bouwmeesterconsultancy.nl • +31 6 28963636