De databronnen gebruikt voor de productie van openbare statistieken verschuiven steeds meer van de traditionele volkstellingen of bevragingen naar reeds bestaande administratieve data en big data. Dat impliceert dat nieuwe data en methoden onderzocht en ontwikkeld worden tot ze rijp zijn voor de productie van gevalideerde openbare statistieken. Statbel publiceert zijn experimentele statistieken in DataLab, dat we hier even willen voorstellen.
Verschuiving in databronnen
De Praktijkcode voor Europese statistieken(opent in nieuw venster) is de hoeksteen van het gemeenschappelijke kwaliteitskader van het Europees statistisch systeem. Richtlijn 9.4 van deze code promoot het gebruik van administratieve databronnen en andere gegevens om de respondenten niet buitensporig te belasten.
De databronnen, gebruikt voor de productie van openbare statistieken binnen het Europese en het bredere internationale statistische systeem, verschuiven dan ook meer en meer. Naast de traditionele volkstellingen of surveys bij personen of bedrijven worden reeds bestaande administratieve data en big data steeds belangrijker.
DataLab van Statbel
Onder de noemer Statbel DataLab publiceert Statbel, het Belgische statistiekbureau, nieuwe statistieken, methoden en gegevensbronnen in beta-versie. Deze ruimte staat volgens Statbel open voor samenwerking omdat ze de opmerkingen van hun gebruikers willen gebruiken om hun onderzoek te verfijnen. Op de overzichtspagina(opent in nieuw venster) kan men op zoek naar de thema’s waarvoor men interesse heeft. Meestal is er een verdere opdeling van de informatie in 3 webpagina’s met de statistische informatie, de data en de methodologie.
We beperken ons tot de innovatieve experimentele statistieken die geproduceerd zijn op basis van administratieve data of waarbij data science technieken gebruikt worden. De voorlopige schattingen voor gevalideerde openbare statistieken of de publicatie van nieuwe open data bestanden laten we buiten beschouwing.
Administratieve data
De meeste voorgestelde experimentele statistieken zijn geproduceerd op basis van administratieve data; dit vaak in het kader van de voorbereidingen op de volgende census. Enkele van deze experimentele statistieken betreffen het hoogste behaalde onderwijsniveau van de Belgische bevolking, of het horeca- en verzorgend personeel. Maar er zijn ook andere innovatieve projecten, waaronder de berekening van het wagenbezit per huishouden, de demografische kenmerken van zelfstandigen en het deel van de bevolking dat op een bepaalde afstand van een ziekenhuis, station, (oprit van een) autosnelweg, school of rusthuis of de grens woont. Via het project ‘Multinationale ondernemingsgroepen in België’ wil men statistieken ontwikkelen op basis van het European Group Register (EGR) - het statistisch register van multinationale groepen met ten minste 1 juridische eenheid in ten minste 2 EU-landen.
Data Science project
Het project ‘Platformdata in het verblijfstoerisme’ wil een nieuwe experimentele statistiek produceren over het gebruik van online platformen bij de verhuur van particuliere vakantieverblijven. Hiervoor maakt Statbel gebruik van data van 4 grote platformbedrijven die het via Eurostat ontvangt. Momenteel bestuderen de nationale statistische instellingen, waaronder Statbel, samen met Eurostat welke technieken het best gebruikt kunnen worden om de methodologische problemen met dit bestand op te lossen. Hierbij wordt vooral gekeken naar innovatieve methoden zoals webscraping.
Partnerships en samenwerking
Maar ook de andere statistiekproducenten onderzoeken en ontwikkelen nieuwe bronnen en methoden, tot ze rijp zijn voor de productie van openbare statistieken. De 4de strategische doelstelling van Statistiek Vlaanderen ‘We werken innovatief en richten onze blik naar de toekomst’ promoot in dat kader partnerships en samenwerking.
Binnen Statistiek Vlaanderen is de werkcluster ‘data en methoden’ met de data science hub actief in die materie. Zo werkt Statistiek Vlaanderen samen met partners om de kwaliteit van data science technieken voor het creëren van Vlaamse openbare statistieken te onderzoeken en te verbeteren. In dat kader was er op 24 mei 2022 een SV-seminarie ‘Data science voor openbare statistieken – onderzoeksresultaten academische samenwerking’ waarvan de presentaties beschikbaar zijn op de website van Statistiek Vlaanderen.
Interesse?
Hebben we op basis van de voorstelling je interesse kunnen opwekken voor een of meerdere projecten van onze federale collega’s, neem dan zeker een kijkje op hun website(opent in nieuw venster).