Skip to main content

Jak zadbać o jakość danych i dlaczego walidacja to podstawa?

By 16 listopada, 202224 listopada, 2022Integracja i przetwarzanie danych
Zadbaj o jakość danych poprzez walidację

W jednym z wcześniejszych artykułów „Błędy danych – jakie konsekwencje ma korzystanie z danych złej jakości?” przyjrzeliśmy się przyczynom występowania błędów danych i skutkom, jakie może nieść działanie w oparciu o nieprawidłowe dane. Tym razem zastanowimy się jak zadbać o jakość danych, wyjaśnimy, czym jest walidacja danych, jakie są jej etapy i dlaczego pod żadnym pozorem nie należy o niej zapominać podczas pracy.  

Walidacja danych to proces sprawdzania, poprawiania lub usuwania nieprawidłowych, niekompletnych, uszkodzonych, nieprawidłowo sformatowanych oraz zduplikowanych danych ze zbioru, wykorzystywanego w projekcie.

dane zaufanie

Na czym polega walidacja danych?

Walidacja danych to bardzo istotny etap pracy z danymi. Dobrze przygotowane dane sprawią, że praca z nimi będzie przebiegać sprawniej, a zakładając, że trafią w kompetentne ręce, jej efekty będą rzetelne i wiarygodne.

Walidacja to wieloetapowy proces, a wykonywany ręcznie jest też bardzo czasochłonny. Jeśli więc pracujemy z dużymi zbiorami danych albo potrzebujemy często sprawdzać ich jakość, warto pomyśleć o automatyzacji – wówczas opisane niżej etapy potoczą się niemal bez naszej wiedzy i będziemy w stanie szybko przejść do właściwej pracy z danymi.

Jakie są etapy walidacji danych?

Sprawdzenie danych – przejrzenie danych pod kątem podstawowych błędów, możliwych do wyłapania „na pierwszy rzut oka”.
Parsowanie danych – rozbicie jednego pola na wiele pól w oparciu o rodzaj danych i kontekst. Dobrym przykładem parsowania danych jest ich wyodrębnianie z elektronicznego formularza osobowego – z podziałem na osobne atrybuty: imię, nazwisko, kod pocztowy, miejscowość, ulicę itp.

Na tym etapie można dodać kolejne atrybuty wynikające z posiadanych danych: określić płeć na podstawie imienia, dodać brakujący kod pocztowy lub nazwę gminy na podstawie nazwy miejscowości, etc.

Usunięcie duplikatów – czyli tych pozycji, które się powtarzają. W ramach tego etapu możliwe jest m.in. wyszukanie wielu wpisów dotyczących tego samego klienta nawet, gdy dane są zapisane na różne sposoby. Można też łączyć kilka baz danych i ujednolicić wpisy tak, aby rekord jednego klienta obejmował wszystkie informacje na jego temat pozyskane z różnych źródeł.
Uzupełnienie danych lub usuwanie niepełnych rekordów – tak aby baza danych była kompletna, a brakujące informacje nie zaburzały wyników prowadzonych analiz.
Ujednolicenie danych (standaryzacja) – przyjęcie jednego sposobu zapisu pewnych danych i przekształcenie wszystkich rekordów tak, aby pasowały do tego wzorca – np. zapisywanie daty według formatu dd/mm/rrrr lub numeru telefonu komórkowego jako +48 XXX XXX XXX.
Wykrywanie konfliktów w zbiorze danych – aby wyeliminować wartości oraz dane, które wzajemnie się wykluczają. Przykładem może być należność jednego z klientów w bazie danych firmy, która wynosi 0 PLN, wiadomo jednak, że ta wartość nie jest prawidłowa, ponieważ mamy w posiadaniu dopiero co wystawioną fakturę za usługi dla tego klienta. Albo więc baza danych nie została jeszcze zaktualizowana albo ktoś przeoczył tę pozycję.

Co to znaczy, że dane są dobrej jakości?

Powtórzmy to jeszcze raz – niezależnie od tego, czy chodzi o pracę z danymi, czy o kształtowanie własnych opinii i podejmowanie decyzji, ważne jest, żeby opierać się na danych dobrej jakości. Co to jednak oznacza? Jakimi cechami charakteryzują się „dobre dane”?

Są wiarygodne

Tak jak poszukujemy wiadomości o świecie ze źródeł, które są uważane za rzetelne, wiarygodne i opiniotwórcze, tak powinniśmy sięgać do zbiorów danych, co do których nie mamy wątpliwości, że są prawdziwe.

Są aktualne

To, jakie dane można uznać za aktualne w dużej mierze zależy od branży czy dziedziny w jakiej są wykorzystywane. Ważne jest jednak, żeby pracować z jak najnowszymi danymi. Opracowywanie analiz, które opierają się na przestarzałych informacjach oznacza, że analizujemy coś, co już nie istnieje – wyniki takiej pracy będą więc mało przydatne.

Spójność danych

Są spójne

Oznacza to tyle, że dane dotyczące jednego zjawiska, pochodzące z różnych źródeł wzajemnie się uzupełniają dając jego pełniejszy obraz. Spójność może też odnosić się do danych w ramach jednego zestawu – wtedy chodzi o integralność np. nazewnictwa czy sposobu wyznaczania określonych parametrów.

Są istotne

Dane są ważne i wartościowe dla użytkownika w kontekście projektu w jakim są wykorzystywane i pomagają rozwiązać konkretny problem.

Są dokładne

Są zapisane, w odpowiednim formacie i przy wykorzystaniu odpowiedniego modelu danych, z wykorzystaniem spójnych miar i jednostek, etc.

Są kompletne

Dane zawierają wszystkie niezbędne elementy lub atrybuty i żadnego z nich nie brakuje.

Kompletność danych

Dlaczego warto zadbać o jakość danych

Jak już wspominaliśmy, w przypadku pracy z danymi nie da się uzyskać dobrych wyników korzystając ze zbiorów złej jakości. Jeśli wykorzystamy do analizy dane, które są niekompletne, przestarzałe, w nieodpowiednim formacie, niewiarygodne, etc. – takie same będą efekty naszej pracy.

Sprawdzenie danych przed wykorzystaniem ich w dalszej pracy nie jest więc tylko zalecane, ale wręcz konieczne. Dlaczego?

By wykorzystywane i udostępniane dane i informacje były prawidłowe i rzetelne

Podczas ręcznego zbierania lub aktualizowania danych bardzo łatwo o błędy. Pojawiają się literówki, zduplikowane rekordy, błędy w wartościach. Analiza przeprowadzona w oparciu o takie dane oznacza błędne wyniki.

By wykonywane projekty i analizy były prawidłowe i użyteczne oraz by móc podejmować trafne decyzje biznesowe

Wiodące na rynku firmy wykorzystują dane w bardzo szerokim spektrum – na co dzień korzystają z nich wewnętrzne zespoły w firmie, a także managerowie, dyrektorzy i inne osoby decyzyjne. Tylko wykorzystywanie rzetelnych danych pozwoli podejmować właściwe decyzje biznesowe i utrzymać przewagę konkurencyjną na rynku.

By zwiększyć efektywność procesów

Praca z zaniedbanymi danymi, zawierającymi wiele błędów jest bardzo żmudna i frustrująca. Ich poprawianie zabiera dużo czasu i energii. Co więcej, jeśli dane nie zostaną poprawione u źródła, pracę tę trzeba wykonywać od nowa za każdym razem, gdy wykorzystuje się dany zbiór. W miarę rozrastania się bazy coraz trudniej jest pracować z danymi, które nie są na bieżąco porządkowane i aktualizowane.

By zmniejszyć koszty i zwiększyć zyski

Wspomniana wcześniej nieefektywność procesów wynikająca ze słabej jakości danych przekłada się bezpośrednio na koszty (straty) – wynikające z dłuższego czasu pracy pracowników, opóźnień w projektach i powiązanych z tym kar umownych albo po prostu faktu, że nie można przejść do realizacji nowych projektów dla nowych klientów. Kontrola danych i dbanie o ich jakość pozwala zwiększyć efektywność pracy i zmniejszyć koszty.

By zdobywać nowych klientów

Aktualne i wiarygodne dane otwierają przed firmami nowe możliwości. Zachowania potencjalnych klientów mogą szybko się zmieniać, aktualne informacje na ten temat pozwalają szybko reagować na te zmiany i lepiej dostosować swoją ofertę do wymogów rynku, a tym samym zwiększyć szansę na zdobycie nowych klientów.

7 kroków do danych dobrej jakości

Na koniec krótka instrukcja, jak postępować, żeby nasze dane były zawsze dobrej jakości.

1

Korzystaj ze sprawdzonych i wiarygodnych źródeł danych

2

Poświęć czas na sprawdzenie danych

W przypadku dużych zbiorów lub częstych walidacji, zautomatyzuj procesy walidacji.
3

Jeżeli chcesz wykorzystać dane w projekcie, przeanalizuj kilka źródeł

Sprawdzaj kompletność danych, aktualność oraz użyteczność w kontekście projektu.
4

Dziel się przemyśleniami, problemami i wynikami walidacji z pozostałymi współpracownikami

Przy następnym projekcie nie trzeba będzie ponownie sprawdzać i analizować tego samego zbioru danych.
5

Podejmuj decyzje biznesowe, tylko wtedy, gdy masz pewność, że wykorzystane dane są wiarygodne, poprawne i aktualne

Dzięki temu nie narazisz się na dostarczenie błędnych wyników analizy.
6

Ogranicz ilość wykorzystywanych źródeł danych i używanych narzędzi do minimum

Dzięki temu zniwelujesz ryzyko błędów wynikających z integracji źródeł, niekompatybilności formatów i systemów.
7

Jeśli korzystasz z wielu różnych źródeł danych, z wielu systemów – integruj je i pozyskuj potrzebne dane przy pomocy platform integracyjnych

Umożliwiają one kontrolę, naprawę błędnych i uzupełnienie brakujących danych.

Chcesz dowiedzieć się więcej o tym, jak dbać o jakość danych? Obejrzyj nagranie z webinaru „Dane pod kontrolą. Jak poradzić sobie z nieprawidłowymi danymi?

Zainteresował Cię ten temat? Chcesz lepiej zadbać o jakość danych w Twojej firmie? Skontaktuj się z nami, porozmawiamy o Twoich potrzebach i możliwościach.