Databewustzijn of data-onwetendheid?

Onlangs heb ik een training gegeven over data awareness. Vreemd genoeg is data awareness binnen organisaties geen gangbare praktijk. Tot mijn grote verbazing is de impact van data op hun business puur een kwestie van inzichten. Dat is een terechte uitspraak, maar dat zegt nog niet alles over data. Kijk om te beginnen eerst naar […]

Onlangs heb ik een training gegeven over data awareness. Vreemd genoeg is data awareness binnen organisaties geen gangbare praktijk. Tot mijn grote verbazing is de impact van data op hun business puur een kwestie van inzichten. Dat is een terechte uitspraak, maar dat zegt nog niet alles over data. Kijk om te beginnen eerst naar de twee manieren waarop gegevens worden opgeslagen en wat dit betekent voor uw dagelijkse werklast.

Je kunt deze verdeling diepgaand bespreken, maar ik heb slechts twee verschillende databronnen binnen organisaties onderscheiden:

  1. persoonlijke gegevensbronnen
  2. organisatorische gegevensbronnen

Laten we dus eens kijken naar de persoonlijke bronnen. Dat zijn bestanden die ‘ergens’ zijn opgeslagen op uw persoonlijke apparaten, bedrijfsservers of cloudgebaseerde services zoals SharePoint. Deze bronnen worden geproduceerd door applicaties, zoals Microsoft Office of Google Docs.

De wortels van dit soort documenten liggen in de 70e eeuw. Ze vonden hun plaats door de introductie van de Personal Computer en in de basisvorm veranderden ze niet veel. Ze behoren tot de meest gebruikte business tools, ook in deze periode. Hoewel de meeste zakelijke Excel-gebruikers in staat zijn om meer gestructureerd (tabel) te denken, blijft het een vrij formaatmodel.

Organisatorische gegevensbronnen zijn zelfs nog ouder. In de oorspronkelijke vorm werden ze bewaard op papieren kaarten of op tapehaspels. Tegenwoordig kennen we ze beter als tabellen in een Data Warehouse (DWH). Een vrij nieuwe manier van bedrijfsgegevensbronnen zijn tabellen die in een datameer worden geplaatst. Gegevens in deze gegevensbronnen zijn meestal gegroepeerd in tabellen, met relaties tussen de tabellen. Omdat deze databronnen de expertise zijn van ICT-professionals, is dit type databron doorgaans goed beveiligd tegen misbruik.

Als u veel persoonlijke gegevensbronnen (zoals Excel) gebruikt en gegevens uit bedrijfsgegevensbronnen haalt, moet u op uw hoede zijn voor de gevaren van wat er met uw gegevens gebeurt. Zeker als je nieuwe applicaties zoals Power Pivot in Excel en Power Bi desktop gebruikt. Deze applicaties werken erg snel met grote datasets, omdat ze compressie gebruiken. Als je naar de onderstaande afbeelding kijkt, zie je dat de compressie van een tekstbestand van 134 Mb (ruim 2 miljoen rijen) wordt omgezet in een Excel-bestand van slechts 3,6 Mb.

Bestanden van dit formaat kunnen eenvoudig per e-mail naar iedereen worden verzonden. Maar niet iedereen heeft door dat de volledige tabel aan dat Excel-bestand wordt toegevoegd! Als de gegevens privé-informatie bevatten, gebruikt u die informatie mogelijk niet in uw visualisatie, maar kunnen de gegevens nog steeds uit dat bestand worden opgehaald. Omdat u meerdere tabellen uit bedrijfsgegevensbronnen kunt halen en deze kunt toevoegen aan één Excel Power Pivot-bestand, tekent u in principe een deel van de bedrijfsgegevens van achter de veiligheidsgrenzen in een persoonlijk document, met een relatief kleine omvang. Als u een gebruiker bent en niet op de hoogte bent van de gegevens achter de visualisaties, kunt u voor een verrassing komen te staan.

Databewustzijn heeft alles te maken met het kennen van de waarde van de data die je gebruikt en de valkuilen van persoonlijke en zakelijke databronnen. En om deze blog af te ronden: we maken allemaal fouten, maar sommige daarvan zijn nogal kostbaar.

2024. Quanto B.V.