W jednym z wcześniejszych artykułów „Błędy danych – jakie konsekwencje ma korzystanie z danych złej jakości?” przyjrzeliśmy się przyczynom występowania błędów danych i skutkom, jakie może nieść działanie w oparciu o nieprawidłowe dane. Tym razem zastanowimy się jak zadbać o jakość danych, wyjaśnimy, czym jest walidacja danych, jakie są jej etapy i dlaczego pod żadnym pozorem nie należy o niej zapominać podczas pracy.
Walidacja danych to proces sprawdzania, poprawiania lub usuwania nieprawidłowych, niekompletnych, uszkodzonych, nieprawidłowo sformatowanych oraz zduplikowanych danych ze zbioru, wykorzystywanego w projekcie.
Na czym polega walidacja danych?
Walidacja danych to bardzo istotny etap pracy z danymi. Dobrze przygotowane dane sprawią, że praca z nimi będzie przebiegać sprawniej, a zakładając, że trafią w kompetentne ręce, jej efekty będą rzetelne i wiarygodne.
Walidacja to wieloetapowy proces, a wykonywany ręcznie jest też bardzo czasochłonny. Jeśli więc pracujemy z dużymi zbiorami danych albo potrzebujemy często sprawdzać ich jakość, warto pomyśleć o automatyzacji – wówczas opisane niżej etapy potoczą się niemal bez naszej wiedzy i będziemy w stanie szybko przejść do właściwej pracy z danymi.
Jakie są etapy walidacji danych?
Na tym etapie można dodać kolejne atrybuty wynikające z posiadanych danych: określić płeć na podstawie imienia, dodać brakujący kod pocztowy lub nazwę gminy na podstawie nazwy miejscowości, etc.
Co to znaczy, że dane są dobrej jakości?
Powtórzmy to jeszcze raz – niezależnie od tego, czy chodzi o pracę z danymi, czy o kształtowanie własnych opinii i podejmowanie decyzji, ważne jest, żeby opierać się na danych dobrej jakości. Co to jednak oznacza? Jakimi cechami charakteryzują się „dobre dane”?
Są wiarygodne
Tak jak poszukujemy wiadomości o świecie ze źródeł, które są uważane za rzetelne, wiarygodne i opiniotwórcze, tak powinniśmy sięgać do zbiorów danych, co do których nie mamy wątpliwości, że są prawdziwe.
Są aktualne
To, jakie dane można uznać za aktualne w dużej mierze zależy od branży czy dziedziny w jakiej są wykorzystywane. Ważne jest jednak, żeby pracować z jak najnowszymi danymi. Opracowywanie analiz, które opierają się na przestarzałych informacjach oznacza, że analizujemy coś, co już nie istnieje – wyniki takiej pracy będą więc mało przydatne.
Są spójne
Oznacza to tyle, że dane dotyczące jednego zjawiska, pochodzące z różnych źródeł wzajemnie się uzupełniają dając jego pełniejszy obraz. Spójność może też odnosić się do danych w ramach jednego zestawu – wtedy chodzi o integralność np. nazewnictwa czy sposobu wyznaczania określonych parametrów.
Są istotne
Dane są ważne i wartościowe dla użytkownika w kontekście projektu w jakim są wykorzystywane i pomagają rozwiązać konkretny problem.
Są dokładne
Są zapisane, w odpowiednim formacie i przy wykorzystaniu odpowiedniego modelu danych, z wykorzystaniem spójnych miar i jednostek, etc.
Są kompletne
Dane zawierają wszystkie niezbędne elementy lub atrybuty i żadnego z nich nie brakuje.
Dlaczego warto zadbać o jakość danych
Jak już wspominaliśmy, w przypadku pracy z danymi nie da się uzyskać dobrych wyników korzystając ze zbiorów złej jakości. Jeśli wykorzystamy do analizy dane, które są niekompletne, przestarzałe, w nieodpowiednim formacie, niewiarygodne, etc. – takie same będą efekty naszej pracy.
Sprawdzenie danych przed wykorzystaniem ich w dalszej pracy nie jest więc tylko zalecane, ale wręcz konieczne. Dlaczego?
By wykorzystywane i udostępniane dane i informacje były prawidłowe i rzetelne
Podczas ręcznego zbierania lub aktualizowania danych bardzo łatwo o błędy. Pojawiają się literówki, zduplikowane rekordy, błędy w wartościach. Analiza przeprowadzona w oparciu o takie dane oznacza błędne wyniki.
By wykonywane projekty i analizy były prawidłowe i użyteczne oraz by móc podejmować trafne decyzje biznesowe
Wiodące na rynku firmy wykorzystują dane w bardzo szerokim spektrum – na co dzień korzystają z nich wewnętrzne zespoły w firmie, a także managerowie, dyrektorzy i inne osoby decyzyjne. Tylko wykorzystywanie rzetelnych danych pozwoli podejmować właściwe decyzje biznesowe i utrzymać przewagę konkurencyjną na rynku.
By zwiększyć efektywność procesów
Praca z zaniedbanymi danymi, zawierającymi wiele błędów jest bardzo żmudna i frustrująca. Ich poprawianie zabiera dużo czasu i energii. Co więcej, jeśli dane nie zostaną poprawione u źródła, pracę tę trzeba wykonywać od nowa za każdym razem, gdy wykorzystuje się dany zbiór. W miarę rozrastania się bazy coraz trudniej jest pracować z danymi, które nie są na bieżąco porządkowane i aktualizowane.
By zmniejszyć koszty i zwiększyć zyski
Wspomniana wcześniej nieefektywność procesów wynikająca ze słabej jakości danych przekłada się bezpośrednio na koszty (straty) – wynikające z dłuższego czasu pracy pracowników, opóźnień w projektach i powiązanych z tym kar umownych albo po prostu faktu, że nie można przejść do realizacji nowych projektów dla nowych klientów. Kontrola danych i dbanie o ich jakość pozwala zwiększyć efektywność pracy i zmniejszyć koszty.
By zdobywać nowych klientów
Aktualne i wiarygodne dane otwierają przed firmami nowe możliwości. Zachowania potencjalnych klientów mogą szybko się zmieniać, aktualne informacje na ten temat pozwalają szybko reagować na te zmiany i lepiej dostosować swoją ofertę do wymogów rynku, a tym samym zwiększyć szansę na zdobycie nowych klientów.
7 kroków do danych dobrej jakości
Na koniec krótka instrukcja, jak postępować, żeby nasze dane były zawsze dobrej jakości.
Chcesz dowiedzieć się więcej o tym, jak dbać o jakość danych? Obejrzyj nagranie z webinaru „Dane pod kontrolą. Jak poradzić sobie z nieprawidłowymi danymi?
Zainteresował Cię ten temat? Chcesz lepiej zadbać o jakość danych w Twojej firmie? Skontaktuj się z nami, porozmawiamy o Twoich potrzebach i możliwościach.