Portale otwartych danych – jak odpowiednio je przygotować?

Autor 25 sierpnia, 202127 września, 2021Nowości FME
otwarte dane fme

Otwarte dane to nic innego jak m.in. informacja publiczna udostępniana przez rząd, samorządy oraz inne instytucje państwowe czy statystyki dotyczące rozmaitych aspektów naszego życia. Czy wiesz, z jaką łatwością platforma FME pozwala je pobierać, udostępniać i przetwarzać?

Dlaczego warto udostępnić dane?

Dane mogą udostępniać – ale też korzystać z nich – następujące podmioty:

  • miasta i gminy
  • organy państwa, np. ministerstwa
  • organizacje pozarządowe
  • jednostki naukowe i badawcze
  • firmy

Dyskusja o tym, do jakiego stopnia dane powinny być dostępne publicznie, trwa. Bywa, że pojawiają się w tej sprawie wątpliwości – dane bywają istotnym źródłem dochodów, a koszt infrastruktury informatycznej niezbędnej do ich udostępniania bywa wysoki (choć nie zawsze, o czym wspomnimy później). Czasami także „surowe” dane mogą przybierać formę trudną do udostępnienia.

Dlaczego mimo wszystko warto udostępnić dane oraz korzystać z nich we własnym zakresie? To proste: liczby czy statystyki to źródło cennej wiedzy, a dostęp do niej może zmieniać jakość naszego życia oraz przyczyniać się do tworzenia innowacyjnych rozwiązań technologicznych. Dane pozwalają podjąć lepszą decyzję, stworzyć lepszy projekt do budżetu obywatelskiego, kontrolować decydentów u sterów władzy, zachęcać do współdecydowania o otoczeniu, a niekiedy nawet… uchronić się przed chorobami.

Tak było w przypadku danych dotyczących zachorowalności na Covid-19 w podziale na województwa czy powiaty, które omówiliśmy w naszym case study. Otwarte dane są w równym stopniu przydatne tak dla osób prywatnych, jak instytucji.

Oto przykłady otwartych danych udostępnianych w Polsce:

  • informacja publiczna
  • informacje finansowe (budżety jednostek samorządowych, umowy, parametry do konkursów ofert)
  • geodane (mapy GIS, MPZP, mapy akustyczne)
  • dane środowiskowe (mapa koron drzew, stopień zanieczyszczenie powietrza w podziale na powiaty)
  • informacje transportowe (rozkłady jazdy, pozycje GPS pojazdów)
  • statystyki (analizy, raporty)
W idealnym świecie otwarte dane cechują się:

  • dostępnością – nie potrzebujesz składać wniosków czy pism, aby je uzyskać; możesz je wykorzystywać jak chcesz (także w celach komercyjnych) i nie musisz się z tego tłumaczyć;
  • aktualnością – są udostępniane bez zwłoki, dzięki czemu nie tracą na wartości;
  • kompletnością – są udostępniane w całości;
  • czytelnością – dane są uporządkowane i mogą być przetwarzane automatycznie.

Oczywiście, opisany powyżej schemat to pewien model – niemniej jednak warto do niego dążyć. Poniżej znajdziesz kilka podpowiedzi, jak udostępnić dane, aby rozwiązanie było jak najbliższe ideału. Więcej informacji na temat otwartych danych znajdziesz w oficjalnym serwisie rządowym oraz portalu europejskich danych.

Jak stworzyć portal otwartych danych i gdzie pomoże ci FME?

Chcesz upublicznić dane, którymi dysponujesz? Doskonale! FME ułatwi ten proces, pozwoli zautomatyzować wiele czynności czy zdefiniować poziomy dostępu. Pracując nad udostępnieniem danych, przyjmij następujące założenia:

Udostępniaj tylko dane dobrej jakości

Podejmowanie decyzji w oparciu o niekompletne dane może mieć poważne konsekwencje. Przed upublicznieniem zbioru danych należy więc sprawdzić wszystkie jego aspekty pod kątem kompletności, poprawności, spójności i zgodności. Obejmuje to sprawdzenie geometrii, atrybutów, zgodności ze standardami, kwestii specyficznych dla formatu, takich jak struktura XML/JSON i wielu innych.

Dobra jakość danych oznacza także dostosowanie ich do mnogości wymagań odbiorców. Użyj ręcznej weryfikacji i narzędzi out-of-the-box do walidacji danych lub użyj FME do wykrywania i automatycznej naprawy problemów.

Zaoferuj wybór formatu danych

Dane nie na wiele się zdadzą, jeśli nie można ich odczytać. Oferuj więc możliwość wyboru formatu i pamiętaj, że dane powinny być czytelne zarówno dla maszyny, jak i dla człowieka. Oto kilka formatów, które zalecamy dla portali z otwartymi danymi:

  • CSV – format tabelaryczny, łatwy do odczytania, podobnie jak arkusz Excela.
  • Shapefile – szeroko stosowany format danych przestrzennych. Z naszego doświadczenia wynika, że jest to zdecydowanie najpopularniejszy format GIS.
  • XML – format czytelny dla maszyn, oferuje użytkownikowi wiele możliwości i elastyczności dla danych tabelarycznych.
  • KML – natychmiastowo widoczny w środowisku sieciowym, jest też formatem wybieranym przez Google Maps i Google Earth.
  • JSON – podobnie jak XML, format ten jest czytelny i elastyczny, a ponadto jest językiem powszechnie używanym przez interfejsy API do przesyłania danych w sieci.
  • GeoJSON – elastyczny format, czytelny dla maszyn. Jest językiem powszechnie używanym przez interfejsy API do przesyłania danych przez Internet, ale również do przechowywania danych przestrzennych.

Inne przydatne formaty do rozważenia to GML i AutoCAD DXF/DWG (dla użytkowników CAD).

Często aktualizuj zbiory danych

Jak już wspominaliśmy, dane w portalu otwartych danych powinny być regularnie aktualizowane.

Aby utwierdzić użytkowników w przekonaniu, że zawsze otrzymują aktualne dane, warto udostępniać je w formie kanałów (np. RSS) lub API, a nie statycznych plików do pobrania. Pozwoli to na korzystanie z end-pointu, a jeśli je zaktualizujesz, najnowsza wersja automatycznie trafi do aplikacji użytkownika.

Świetnym sposobem na skonfigurowanie tego jest połączenie platformy otwartych danych z główną bazą danych. W ten sposób dane zostaną zintegrowane bezpośrednio, a nie zduplikowane w kilku miejscach.

Aby to zrobić, zsynchronizuj swój portal z bazą danych za pomocą transformerów FME, takich jak ChangeDetector, które mogą „obserwować” zaktualizowane pola w bazie danych. Następnie użyj Automations w FME Server, aby zapewnić, że portal jest aktualizowany, gdy tylko zajdą jakieś zmiany.

Zapewnij możliwość wyboru układów współrzędnych dla danych przestrzennych

Udostępnianie danych w różnych formatach jest dobrą praktyką. Warto jednak rozważyć opcje układów współrzędnych oraz ich odwzorowań. Jeśli chodzi o dane przestrzenne, użytkownicy powinni mieć możliwość wyboru pomiędzy układami lokalnymi oraz globalnymi.

Aby dane mogły być wykorzystywane przez szerszą grupę zalecamy korzystać z najpopularniejszych układów globalnych: WGS 84 Lat/Lng (EPSG: 4326) czy Spherical Mercator (EPSG: 3857).

Używając FME do zarządzania otwartymi portalami danych, można zapewnić wybór układu współrzędnych poprzez opublikowanie parametru. Wybór układu współrzędnych można przeprowadzić na kilka sposobów. Jedną z opcji jest użycie transformatora Reprojector, który wykorzystuje silnik reprojekcji CS-Map (ale dostępne są również inne, takie jak PROJ, Gtrans, Esri).

Wybierz najlepszą platformę

Gdy Twoje dane są gotowe do udostępnienia, będziesz potrzebować platformy do ich dostarczenia. Każde z przedstawionych tutaj rozwiązań oferuje unikalny zestaw zalet dla wydawców danych. Oczywiście wciąż powstają nowe warianty, dlatego ważne jest, aby zawsze przeprowadzać research we własnym zakresie i pod kątem własnych potrzeb.

  • ArcGIS Open Data – rozwiązanie komercyjne, dostarczane w modelu SaaS (Software as a Service); polecane szczególnie, jeśli w swojej organizacji korzystasz z rozwiązań Esri.
  • CKAN – plaftorma open source z ponad 300 rozszerzeniami do zarządzania danymi.
  • Socrata – kolejna otwarta technologia, rozwijana m.in. przez społeczność skupioną wokół firmy na Githubie; większość rozwiązań Socraty (w tym serwer API i wszystkie instalowalne narzędzia) jest licencjonowana jako open source, można je zatem modyfikować.
  • Amazon Web Services – rozwiązanie cloudowe Amazona, dostarczane w modelu PaaS (Platform as a Service).
  • Darmowy hosting – idealny, jeśli wystarczy ci zwykłe repozytorium plików. Może być to np. DataHub.io, Google Drive, GitHub czy serwer FTP.

FME wspiera wszystkie opisane powyżej rozwiązania.

Zautomatyzuj proces

Gotowe? Pora pomyśleć o bieżącym funkcjonowaniu portalu. Możesz robić wszystko ręcznie, im jednak większa ilość zbieranych, przetwarzanych i przechowywanych danych, tym szybciej zadanie cię przerośnie. FME pozwoli ci na automatyzację tych czynności.

Zbuduj przepływy pracy, które łączą się z główną bazą danych, standaryzują i walidują wszelkiego rodzaju zbiory danych, łączą je z wybraną platformą za pomocą gotowych konektorów lub interfejsów API, a następnie użyj automatyzacji, aby upewnić się, że gdy aktualizacja nastąpi gdzie indziej, zostanie odzwierciedlona w twoim portalu.

Wykorzystaj też FME do niestandardowego dostępu do otwartych danych, takich jak dystrybucja danych opartych na mapach. Przepływy pracy w FME mogą działać w tle. Dzięki temu – gdy użytkownik wybierze określony obszar zainteresowania – zbiór danych jest przycinany zgodnie z jego dokładnym kształtem. Oszczędza to użytkownikom wysiłku związanego z samodzielnym przekształcaniem danych, zapewniając jeszcze lepszą, w pełni funkcjonalną usługę.

Sprawdź, jak FME pracuje z otwartymi danymi

FME jest znakomitym narzędziem do pracy z otwartymi danymi – umożliwia ich pobieranie, konwersję do potrzebnego formatu oraz integrację z aplikacjami analitycznymi. Zobacz, jak wykorzystaliśmy FME do pobrania i przetworzenia m.in. ortofotomap oraz danych z podstawowej osnowy geodezyjnej – przeczytaj nasze ubiegłoroczne case studies i pobierz skrypty, które stworzyliśmy:

Chcesz dowiedzieć się więcej na temat wykorzystania Platformy FME? Skontaktuj się z nami – chętnie porozmawiamy o możliwościach FME  – nie tylko w kontekście otwartych danych!