Każdego dnia na świecie generowanych jest 2,5 tryliona bajtów danych. Chociaż stały się łatwo dostępne, problemem cały czas pozostaje jakość danych. Błędne i nierzetelne dane to bolączka każdego, kto na co dzień pracuje z danymi. Według statystyk Kissmetrics firmy mogą tracić nawet 20% przychodów z powodu danych złej jakości. Błędne dane są też ważnym ograniczeniem w rozwoju biznesu.
Z tego artykułu dowiesz się:
Dlaczego moje dane są złej jakości? 7 głównych powodów
Przyczyn błędów danych może być wiele, zazwyczaj trudno jest podać tylko jedną. Przyjrzyjmy się najczęstszym z nich:
1. Dane nieaktualne i przestarzałe
Dane, szczególnie te pozyskiwane w terenie, są pozyskiwane z różnych miejsc i z różną częstotliwością. Nie ma gwarancji, że zebrane dane pochodzą z tego samego okresu. Co więcej, w przypadku dużych projektów zbieranie danych może zajmować tyle czasu, że zanim zakończy się ich aktualizacja, dane zebrane na początku tego procesu, pod koniec będą już nieaktualne.
Tak dzieje się często w przypadku ręcznego zbierania danych, które nie nadąża nad ciągle zachodzącymi zmianami. Dobrym przykładem może być ręczne zbieranie danych w terenie np. o sieci wodociągowej, energetycznej czy telekomunikacyjnej.
2. Różne modele danych
Ręczne zbieranie jest oczywistą przyczyną różnic w modelach danych – nawet tych spisywanych przez jedną osobę. To niesamowite, na ile sposobów można zapisać na przykład nazwę ulicy „3 maja”. Może to być 3-maja, 3 MAJA, 3maja, 3-go Maja. Zwykła zmiana zapisu, której możemy nawet nie zauważyć powoduje, że dane są niespójne i przez systemy przetwarzania danych są traktowane jako różne informacje.
Za brak spójności danych nie możemy jednak winić tylko ludzi. Przyczyn występowania różnic w modelach danych jest co najmniej kilka. Często wynikają one z aktualizacji systemów informatycznych – szczególnie tych poważniejszych, gdzie „przeskakujemy” o kilka wersji oprogramowania w górę. Może się okazać, że w nowym systemie pojawiają się atrybuty, które wcześniej nie występowały, przez co przeniesione dane stają się niekompletne.
Problem różnych modelów danych pojawia się też często podczas fuzji przedsiębiorstw, która wiąże się z integracją dotychczas używanej bazy danych z bazą danych drugiej firmy.
Przyczyny różnic w modelach danych
Zmiana zapisu danych
Aktualizacja systemów informatycznych
Łączenie systemów dwóch firm
3. Brak benchmarku
Posiadanie dobrych źródeł odniesienia, które pozwalają zweryfikować, czy dane, z którymi chcemy pracować są wiarygodne, jest niezwykle istotne – szczególnie, gdy chcemy korzystać z danych otwartych (ogólnodostępnych).
Oprócz niewątpliwej zalety jaką jest dostępność, dane otwarte są obarczone szczególnym ryzykiem błędu, ponieważ są aktualizowane przez szeroką społeczność (za przykład weźmy Open Street Map).
Aby nie narażać się na zafałszowania wyników naszych analiz, warto porównać kilka zestawów danych z różnych źródeł, żeby wychwycić części wspólne i miejsca, gdzie występuję największe różnice. Możemy porównać na przykład dane z Open Street Map z Bazą Danych Obiektów Topograficznych.
4. Zbyt duże zaufanie do zewnętrznych źródeł danych
Częstym błędem jest zbyt duże zaufanie do danych pozyskanych z zewnątrz.
Zwykle są one sprawdzone i dobrej jakości. Przeczą temu choćby bazy danych kontaktów mailowych, które można pozyskać do wysyłania mailingów. Bardzo często, choć zawierają bardzo wiele pozycji, tak naprawdę użyteczna jest tylko niewielka ich część. Nie mamy żadnej wiedzy na temat tego, jak zostały pozyskane takie dane, czy są aktualne, pełne, spójne. Nie ma też gwarancji, że będą przydatne w kontekście naszej działalności.
Podczas analizy danych warto też mieć na uwadze kontekst (w tym czas) ich wytworzenia, a także to kto zbierał dane (np. jaka instytucja) i w jakim celu. Stronniczość danych może pojawić się już na poziomie ich zbierania, co może wpłynąć na ostateczne efekty analizy.
5. Wiele źródeł danych w organizacji
Źródła danych mogą być rozproszone w ramach jednej organizacji. Różne typy danych są gromadzone w odmienny sposób – brak na przykład spójnego modelu czy formatu danych.
Problemy pojawiają się przy próbie integracji takich danych. Dany rekord (np. na temat jednego klienta) pojawi się kilkukrotnie w centralnym systemie, gdzie trafiają dane z kilku źródeł. Wówczas trzeba zdecydować, która baza lub system są nadrzędne, a które traktujemy jako uzupełnienie głównego źródła danych, a następnie usunąć niepotrzebne pozycje.
O korzyściach z integracji danych dowiesz się więcej z artykułu Dane przestrzenne – sposób na lepsze zarządzanie firmą.
6. Zduplikowane rekordy
Bardzo często po połączeniu kilku źródeł danych, w wynikowym zbiorze znajdują się rekordy, które występują dwu- lub kilkukrotnie. Jeśli są one identyczne, to nie ma problemu – wystarczy usunąć zduplikowane rekordy. Problem natomiast pojawia się, jeśli różnią się one jednym atrybutem – jednym szczegółem, np. jedną cyfrą w numerze telefonu danej osoby. Wówczas nie wiemy, który z nich jest prawdziwy i który możemy usunąć. W takiej sytuacji trzeba przeprowadzić dodatkową weryfikację prawdziwości danych.
7. Błędy ludzkie
O błędach ludzkich po krótce wspomnieliśmy już wcześniej. Powstają m.in. przy przepisywaniu danych do systemu czy bazy danych. Mogą się przejawiać jako błędne wartości atrybutów, literówki czy rozbieżność w stosowanym formacie zapisu w różnych krajach (np. kropki vs przecinki w zapisie liczb).
Błędy tego rodzaju mogą wynikać ze zmęczenia czy rozkojarzenia pracownika, powtarzalności i monotonności zadania czy pośpiechu. Mogą też mieć związek z brakiem kompetencji adekwatnych do zadania, np. brakiem wiedzy na temat tego, jak powinien być wypełniony dany formularz.
Najczęściej spotykane błędy danych
Wśród błędów w danych możemy wyróżnić przede wszystkim te odnoszące się do atrybutów:
- brakujące wartości lub wartości zerowe,
- literówki,
- brak polskich znaków (znaków diakrytycznych),
- różne zapisy wartości danego atrybutu (ul. -> ulica -> ul -> Ul.; pl. -> pl -> Plac; al. -> Aleje -> Aleja; etc.) = brak spójności w modelach danych z różnych źródeł (również w przypadku np. nazw własnych – nazwy ulic, placów, skwerów itp. – czy podajemy przedrostek, czy stosujemy pełne imię i nazwisko – Stefana Żeromskiego, czy Żeromskiego),
- brak unikalnego numeru (ID),
- różny zapis daty i/lub różne jednostki (raz %, raz konkretna wartość, raz setki, raz tysiące czy miliony).
Do innych często pojawiających się błędów należą:
Z przeprowadzonej przez nas ankiety wynika, że niska jakość danych wynika najczęściej z błędów ludzkich oraz z faktu, że dane są przestarzałe i pochodzące z różnych źródeł.
Błędy danych przestrzennych
Dane przestrzenne są coraz częściej wykorzystywane także w firmach i instytucjach, po których w pierwszym odczuciu zupełnie byśmy się tego nie spodziewali. Ten trend będzie się tylko nasilał, dlatego ważne jest, żeby zadbać o jakość również w przypadku danych geoprzestrzennych.
Dla przypomnienia – dane przestrzenne to takie dane, które poza listą atrybutów, które opisują poszczególne rekordy, zawierają dodatkowo informacje o lokalizacji czy też o położeniu danego obiektu w terenie.
Praktycznie wszystkie opisane wcześniej zagadnienia, związane z błędnymi danymi mają odniesienie zarówno do danych nieprzestrzennych, jak i przestrzennych.
W obydwu przypadkach napotykamy na brakujące atrybuty, błędne wartości, literówki itp, etc. I tu, i tu błędy te mogą mieć związek m.in. z nieaktualnymi systemami, błędami ludzki, wykorzystaniem wielu źródeł danych, duplikacją obiektów po integracji baz danych, itp.
Niestety poza tymi znanymi już problemami, dane przestrzenne mogą być obarczone jeszcze dodatkowymi, specyficznymi dla siebie błędami.
Najczęściej spotykane błędy danych przestrzennych
Wśród najczęściej spotykanych błędów danych przestrzennych możemy wymienić:
- niedomknięcie poligonów,
- brak dociągnięć linii do punktów,
- samoprzecinanie się linii,
- błędnie umieszczony wierzchołek lub punkt przecięcia,
- źle przypisany typ geometrii,
- błędnie zdefiniowany schemat modelu,
- błędne jednostki lub układ współrzędnych,
- niespójność sieci i brak możliwości znalezienia ścieżki między dwoma lub kilkoma wybranymi punktami.
Dobrym przykładem może okazać się wyzwanie z klasyfikacją gleb w obszarach przygranicznych. W momencie walidacji może okazać się, iż niektóre profile nakładają się na siebie.
Złe wykorzystanie technik generalizacyjnych lub parametrów generalizacji dla danych wektorowych (np. zbyt duży parametr wygładzania czy upraszczania).
Skąd biorą się błędy w danych przestrzennych?
Źródła błędów danych przestrzennych są podobne do tych, które omówiliśmy powyżej. Mogą wynikać z faktu, że:
- źródła danych są tworzone przez niedoświadczone osoby, które mogą popełnić wiele błędów,
- dane nie są poddawane kontroli przed udostępnieniem szerszej społeczności,
- dane, z których korzystamy, są nieaktualne,
- zostały stworzone w systemie lub modelu, który nie jest już obsługiwany przez nowsze systemy, które w związku z tym nie są w stanie ich prawidłowo odczytać,
- osoba pracująca z danymi przestrzennymi nie ma wystarczającego doświadczenia, a tym samym nie wie np. jakiego układu współrzędnych użyć lub które techniki generalizacji czy klasyfikacji powinny być wykorzystane przy konkretnym zbiorze danych.
Jakie są skutki korzystania z błędnych danych?
Pierwszą i podstawową konsekwencją korzystania z danych złej jakości są równie niskiej jakości efekty pracy z takimi danymi.
Opieranie się na analizie danych zawierających błędy sprawi, że wyciągniemy błędne wnioski, a więc wszelkie decyzje podjęte na ich podstawie również będą nietrafione. To wyjątkowo zła strategia, zwłaszcza na rynku, na którym cały czas panuje zaciekła konkurencja, a być albo nie być wielu firm zależy od podejmowania słusznych, strategicznych decyzji.
Zarówno w przypadku danych przestrzennych, jak i nieprzestrzennych, błędy bardzo utrudniają i opóźniają pracę, co przekłada się na opóźnienia w projektach, niezadowolenie klientów, a oprócz możliwych strat finansowych, może wpłynąć na decyzję klienta o niekontynuowaniu współpracy.
W przeprowadzonej przez nas ankiecie, jako najczęstsze konsekwencje pracy z danymi złej jakości respondenci podali: nieefektywność pracy, błędne wnioski z analiz oraz utracone szanse sprzedażowe.
Błędy w danych przestrzennych mogą mieć jeszcze inne konsekwencje – o wiele bardziej namacalne niż wpływ na zyski lub straty w sferze biznesowej.
Od jakości danych przestrzennych może nawet zależeć ludzkie życie.
Jak to możliwe? Najbardziej bliskim nam w codziennym życiu wykorzystaniem danych przestrzennych jest nawigacja. Korzystają z niej też służby ratownicze, dojeżdżające na miejsce w zdarzenia. W takich sytuacjach każda sekunda może zadecydować o tym, czy ktoś uzyska pomoc na czas. Błędne dane mogą spowodować, że karetka jadąca do wypadku nie trafi od razu w dobre miejsce, przez co czas dojazdu do poszkodowanych może się znacznie wydłużyć i zadecydować o czyimś życiu.
Innym, nieco mniej dramatycznym przykładem (ale jednak pokazującym bardzo realny wpływ błędnych danych na życie), jest przypadkowe przebicie wodociągu, gazociągu lub instalacji elektrycznej przez firmę budowlaną, która podczas wykopów korzystała z map zawierających błędnie naniesione dane o instalacjach. Jest to zarówno niebezpieczne, jak i uciążliwe dla mieszkańców, którzy zostają pozbawieni dostępu do gazu, wody czy elektryczności.
Podsumowanie
Wiemy już jakie mogą być źródła błędnych danych – zarówno nieprzestrzennych, jak i tych przestrzennych, i z jakimi typami błędów mamy najczęściej do czynienia. Błędne dane mają realny wpływ na działania biznesowe, ale także na codzienne życie wielu ludzi. Warto więc zadbać o dobrą jakość danych, zanim wykorzystamy je do analiz i projektów. Dzięki temu, będziemy mieli większą pewność, że efekty naszej pracy również są wiarygodne, a wszelkie decyzje są podejmowane w oparciu o rzetelne analizy.
O tym, jak wyeliminować błędy danych, napiszemy w kolejnej części artykułu – jeśli nie chcesz jej przegapić, zaobserwuj nas na LinkedIn!
Zainteresował Cię ten artykuł? Chcesz dowiedzieć się więcej o tym, jak rozwiązać problem błędnych danych? Skontaktuj się z nami!