Główny Urząd Statystyczny

Analityczne wsparcie spisów powszechnych.

Informacja o kliencie

Główny Urząd Statystyczny (GUS) to centralny organ polskiej administracji państwowej odpowiedzialny za zbieranie danych statystycznych, przechowywanie i opracowywanie zebranych danych oraz ogłaszanie, udostępnianie i rozpowszechnianie wyników badań jako oficjalnych danych statystycznych. GUS zapewnia rzetelne, obiektywne i systematyczne informowanie społeczeństwa, organów państwa i administracji publicznej oraz podmiotów gospodarki narodowej m.in. o sytuacji ekonomicznej, demograficznej, społecznej oraz środowiska naturalnego. Realizuje zobowiązania międzynarodowe Polski w zakresie spisów powszechnych oraz innych badań statystycznych.

Potrzeba biznesowa

W związku z zaplanowanym na rok 2010 Powszechnym Spisem Rolnym oraz na rok 2011 Narodowym Spisem Powszechnym Ludności i Mieszkań Główny Urząd Statystyczny podjął decyzję o całkowitej zmianie metody realizacji spisu oraz technik pozyskiwania danych. Przez wiele lat podstawową metodą przeprowadzania spisów w Polsce był bezpośredni wywiad rachmistrza z osobą spisywaną. Proces wypełniania ankiet był skomplikowany, zaś samo wprowadzenie danych do systemów trwało wiele miesięcy. Wyniki spisu były dostępne dużo później, nawet po kilku latach. Metoda ta była bardzo kosztowna i stwarzała ogromne trudności organizacyjne. Biorąc pod uwagę rozwój nowoczesnych technologii i nowych metod badawczych oraz możliwość wykorzystania danych z rejestrów publicznych, a także uwzględniając wysoki koszt spisu tradycyjnego, szukano rozwiązania, które pozwoliłoby na skrócenie procesu opracowania wyników spisu oraz obniżenie kosztów.

Główny Urząd Statystyczny przeprowadził analizę dostępnych informacji w rejestrach publicznych, której wynikiem była rekomendacja wykorzystania danych z rejestrów. Większość informacji niezbędnych do prawidłowego przeprowadzenia spisu jest gromadzona przez poszczególne resorty od wielu lat. Ponadto GUS posiadał przygotowaną kadrę IT oraz znał pozytywne doświadczenia innych krajów w realizacji spisów powszechnych z użyciem rejestrów publicznych. Ostatecznie zdecydowano, że Spis będzie realizowany metodą mieszaną tj. z wykorzystaniem danych z systemów informacyjnych administracji publicznej i pozaadministracyjnych oraz danych zebranych w bezpośrednim badaniu. Przyjęto założenie, że w trakcie spisu będą wykorzystywane wyłącznie formularze elektroniczne.

Główny Urząd Statystyczny - przygotowując dane do spisu rolnego i powszechnego - nauczył się pokonywać trudności, czyścić i integrować dane tak, aby rejestry publiczne były dla niego przydatne. Rejestry, które otrzymuje GUS mają początkowo dane poprawne jedynie w 30-50%. Po odpowiednim przygotowaniu, ich jakość wzrasta do 96-97%. Jest więc realna nadzieja, że za dziewięć lat, GUS będzie zbierał dane nie przez Internet, czy przy pomocy rachmistrzów, ale korzystając z rejestrów centralnych

Janusz Dygaszewicz
Dyrektor Centralnego Biura Spisowego
oraz Dyrektor Departamentu Programowania
i Koordynacji Badań w GUS

Jakie cele biznesowe miało zrealizować nowe rozwiązanie?

Najważniejszym celem biznesowym było przeprowadzenie spisów powszechnych w zadanym czasie i w zakresie wymaganym przez przepisy prawa oraz obniżenie kosztów związanych z realizacją spisu. Dodatkowo założono utworzenie infrastruktury teleinformatycznej wspomagającej procesy spisowe, która w późniejszym okresie będzie wykorzystywana do prowadzenia innych badań statystycznych. W celu przeprowadzenia spisów zgodnie z przyjętymi założeniami konieczne było wdrożenie wielu specjalistycznych narzędzi i zaawansowanego oprogramowania komputerowego. Kluczową rolę odgrywały tu dwa rozwiązania do integracji, przetwarzania i analizy danych spisowych: Operacyjna Baza Mikrodanych (OBM) oraz Analityczna Baza Mikrodanych (ABM). Przeprowadzono dwa przetargi, jeden na wykonanie Operacyjnej Bazy Mikrodanych, drugi na opracowanie Analitycznej Bazy Mikrodanych. W obu postępowaniach firma SAS Institute utworzyła konsorcjum z firmą Hewlett Packard oraz z krajowymi integratorami.

Opis rozwiązania

W ramach rozwiązania zostały utworzone dwa środowiska:

  • Operacyjna Baza Mikrodanych – platforma umożliwiająca przetwarzanie danych z rejestrów oraz danych pozyskanych w trakcie wywiadów bezpośrednich, jak również w wyniku samospisu. W tym środowisku pracuje się na danych detalicznych posiadających wszystkie atrybuty, w tym dane osobowe i identyfikatory osób spisywanych. W OBM pracuje kilkunastu użytkowników wykorzystujących takie narzędzia jak: SAS® Enterprise Data Integration Server oraz SAS® STAT i SAS® Enterprise Guide. Po opracowaniu danych spisowych wyprowadzany jest tzw. Golden Record – tj. najlepszy z możliwych do uzyskania zestaw danych spisowych.
  • Analityczna Baza Mikrodanych – platforma umożliwiająca tworzenie produktów spisowych,
    tj. raportów i analiz. W tym środowisku pracuje się na odpersonalizowanych danych detalicznych (usunięto dane personalne i identyfikatory umożliwiające identyfikację osoby spisywanej) uzyskanych z Golden Record-u. W ABM może pracować docelowo ponad 10 000 użytkowników wykorzystujących takie narzędzia jak: SAS® Enterprise Business Intelligence Server oraz SAS® STAT, SAS® ETS i SAS® Enterprise Guide, SAS® Enterprise Miner oraz dedykowane aplikacje wytworzone w ramach projektu.

OBM umożliwia realizację spisów metodą mieszaną z wykorzystaniem danych z systemów administracyjnych i pozaadministracyjnych oraz danych spisowych zebranych w badaniach ankietowych. W OBM wykonano także losowania jednostek spisowych (z wykorzystaniem metod statystycznych modułu SAS STAT), które zostały objęte pełnym badaniem reprezentacyjnym. OBM zapewnia sprawny import, weryfikację, korektę oraz integrację tych danych z danymi uzyskiwanymi od respondentów. Wypełnione ankiety są na bieżąco importowane do OBM, która stanowi centralne miejsce ich przechowywania i synchronizacji. Następnie pozyskane i odpowiednio przetworzone dane spisowe są zapisywane do tabeli Golden Record, która stanowi najlepszy do uzyskania zestaw wynikowych danych spisowych. Kolejnym krokiem jest odpersonalizowanie (usunięcie danych osobowych i identyfikatorów) danych w tabeli Golden Record i przekazywanie wyników spisu do Analitycznej Bazy Mikrodanych. W ABM tworzone są tzw. produkty spisowe – raporty i analizy, zarówno wykorzystujące dane detalicznej jak i mikroagregtaty oraz agregaty. W środowisku ABM są prowadzone również analizy statystyczne m.in. wykorzystujące techniki data miningowe. Po zakończeniu spisów systemy OBM i ABM stanowią elementy systemu informacyjnego statystyki publicznej.

Co zdecydowało o wyborze rozwiązania SAS?

Główny Urząd Statystyczny zdecydował się na technologię SAS Institute, ze względu na jej kompleksową funkcjonalność w zakresie pozyskiwania, integracji, czyszczenia i przetwarzania danych oraz przygotowywania zaawansowanych analiz i prezentacji raportów. Równie ważna była wydajność rozwiązania, umożliwiająca sprawne przetwarzanie danych spisowych, szybki dostęp do wyników oraz zachowanie bezpieczeństwa i kontroli dostępu do zgromadzonych informacji. Jednak kryteria, które decydowały o wyborze rozwiązania były mierzalne, tj. każdy z oferentów (np. Oracle, IBM) miał do rozwiązania 40 zadań przygotowanych przez GUS, za które otrzymywał punkty. I to właśnie zdecydowało, że oferta SAS zwyciężyła. Zaoferowana funkcjonalność i wydajność pozwoliły zdobyć najwięcej punków wśród startujących firm. Wdrożenie Operacyjnej Bazy Mikrodanych zajęło 5 miesięcy, natomiast podstawowe wdrożenie Analitycznej Bazy Mikrodanych w zakresie PSR 2010 wykonano w 6 miesięcy. Ponadto po tym okresie realizowane było wsparcie, szkolenia użytkowników, a także tworzenie dedykowanych aplikacji. Docelowo z systemu korzystać może ponad 10 000 użytkowników, ponadto wyniki spisu są dostępne z wykorzystaniem tzw. CensusHub oraz standardu SDMX.

Uzyskane korzyści

Wyniki przeprowadzonych spisów potwierdziły, że wdrożone rozwiązania miały przełomowe znaczenie dla usprawnienia procesu pozyskiwania i integracji danych spisowych oraz szybkości generowania raportów i analiz. Dzięki zastosowaniu zaawansowanych technologii po raz pierwszy w historii spisów powszechnych w Polsce możliwe było samodzielne przekazanie i potwierdzenie danych za pośrednictwem Internetu. Ogromne znaczenie dla kompletności danych i szybkości ich przetwarzania ma również zautomatyzowany sposób ich pozyskiwania z rejestrów publicznych. Pozyskane i przetworzone dane posłużyły do zasilenia formularzy spisowych, w tym internetowych. Po wypełnieniu i zatwierdzeniu formularza dane trafiają do OBM, gdzie później podlegają integracji z danymi już posiadanymi i służą do wyprowadzenia tzw. Golden Recordu. Ponadto w OBM można generować na bieżąco raporty o postępach spisu, tj. ile spisano osób i mieszkań w każdym z kanałów. Wdrożone narzędzia nie tylko usprawniły pracę wszystkich osób, które uczestniczą w spisach, ale pozwoliły obniżyć koszty całego przedsięwzięcia do niezbędnego minimum. Liczba rachmistrzów zaangażowanych do obsługi spisu została zmniejszona z około 170 tys. w 2002 roku do 18 tys. w roku 2011. Eliminacja formularzy papierowych pozwoliła na zaoszczędzenie około 1 000 ton papieru. W rezultacie uzyskano obniżenie kosztów całkowitych o ponad 40%. Ponadto Główny Urząd Statystyczny zbudował uniwersalną platformę analityczno-informacyjną, która jest niezwykle nowoczesnym środowiskiem analitycznym, zarówno od strony funkcjonalnej, jak i wydajnościowej. Utworzenie dedykowanego środowiska analitycznego daje GUS szerokie możliwości w zakresie prowadzenia badań statystycznych z wykorzystaniem danych gromadzonych w rejestrach publicznych oraz danych pozyskiwanych z innych źródeł. Dzięki temu Główny Urząd Statystyczny będzie mógł sprostać rosnącym oczekiwaniom odbiorców na szybsze przetwarzanie i analizowanie danych oraz dostarczanie zrozumiałej informacji statystycznej.

Analityczne wsparcie spisów powszechnych

Potrzeba biznesowa:

Przeprowadzenie spisów powszechnych we wskazanym terminie, w zakresie wymaganym prawnymi regulacjami krajowymi oraz międzynarodowymi, przy założeniu niezwiększania budżetu w porównaniu do poprzedniego spisu przeprowadzonego w 2002 roku.

Rozwiązanie:

Pakiet rozwiązań SAS:

  • SAS® Enterprise Data Integration Server
  • SAS® Enterprise Business Intelligence Server
  • SAS® Scalable Performance Data Server
  • SAS® Enterprise Miner
  • SAS® Enterprise Guide
  • SAS® STAT
  • SAS® ETS

Korzyści:

Postawione cele zostały osiągnięte. Spisy zostały przeprowadzone w zadanym terminie oraz wymaganym zakresie. Skróceniu uległ proces opracowania wyników spisu. Znacząco obniżono koszty spisu w porównaniu do badania z 2002 roku. Ponadto stworzono i dostarczono służbom statystyki publicznej system informatyczny umożliwiający projektowanie i prowadzenie spisów powszechnych, a także innych badań statystycznych. Odstąpiono od formularzy papierowych na rzecz formularzy elektronicznych, co pozwoliło oszczędzić około 1000 ton papieru, który po spisach powinien ulec zniszczeniu.

Odwiedź Główny Urząd Statystyczny na ich stronie internetowej.

The results illustrated in this article are specific to the particular situations, business models, data input, and computing environments described herein. Each SAS customer’s experience is unique based on business and technical variables and all statements must be considered non-typical. Actual savings, results, and performance characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee or represent that every customer will achieve similar results. The only warranties for SAS products and services are those that are set forth in the express warranty statements in the written agreement for such products and services. Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful implementation of SAS software. Brand and product names are trademarks of their respective companies.