Skip to main content

Praca z danymi – 20 pojęć, które musisz znać!

By 26 lutego, 20244 marca, 2024Integracja i przetwarzanie danych
Lupa leżąca na książce

Jeśli chcesz zajmować się pracą z danymi, na pewno będziesz na co dzień spotykać się z pojęciami charakterystycznymi dla tej dziedziny. Aby ułatwić ci poznanie najważniejszych z nich stworzyliśmy ten krótki słowniczek 20 haseł związanych z gromadzeniem, przetwarzaniem i zarządzaniem danymi.

Kliknij w nazwy poniżej, aby dowiedzieć się, co oznaczają.

Artificial intelligence (AI)

(pol. Sztuczna inteligencja) – dziedzina wiedzy obejmująca funkcjonowanie inteligentnych programów, które są w stanie wykonywać skomplikowane czynności, włącznie z rozumowaniem. To także posługiwanie się przez maszyny zdolnościami zastrzeżonymi dla Ciebie, czyli myśleniem, uczeniem się albo planowaniem. AI obejmuje między innymi systemy eksperckie, sieci neuronowe czy uczenie maszynowe.

Big Data

To ogromne zbiory różnorodnych danych, które pochodzą z wielu źródeł, takich jak czujniki GPS, aplikacje mobilne czy platformy e-administracji. Są gromadzone w czasie rzeczywistym lub zbliżonym rzeczywistego. Pozwalają analizować informacje z dużą szybkością i równie szybko zdobywać nową wiedzę. Możesz z nich korzystać na przykład, jeśli pracujesz w branży logistycznej, medycznej czy telekomunikacyjnej, między innymi w analityce biznesowej i marketingowej, uczeniu maszynowym bądź wizualizacji danych.

Data analytics

(pol. Analiza danych) – umożliwi Ci uporządkowanie, zinterpretowanie i wymodelowanie danych pochodzących z różnych źródeł w celu uzyskania użytecznych informacji. Dzięki temu pomoże w podjęciu lepszych decyzji biznesowych. Obejmuje analizę statystyczną (zajmuje się głównie problemami demograficznymi i ekonomicznymi), macierzową (przegląd danych marketingowych) i eksploracyjną (porównanie zmiennych), a także analizę Big Data.

Data democratization

(pol. Demokratyzacja danych) – udostępnienie danych w formie cyfrowej, które są niezbędne podczas wykonywania różnych zadań, na przykład zawodowych. Obejmuje integrowanie i centralizację danych pierwotnych (nieprzetworzonych) w ramach jednego systemu oraz ich przekazanie pracownikom organizacji. Demokratyzacja danych usprawni oznacza łatwiejszy dostęp do źródeł wiedzy i pomaga pozwala podejmować bardziej racjonalne decyzje – w oparciu o dane.

Data engineering

(pol. Inżynieria danych) – to projektowanie, budowanie i utrzymywanie systemów niezbędnych do zarządzania danymi. Polega na tworzeniu oprogramowania czy aplikacji, które pomogą przekształcić surowe dane w użyteczne zbiory informacji. To dzięki data engineering powstają nowoczesne rozwiązania, dzięki którym możesz poprawić dostępność danych oraz szybciej je pozyskać, przetworzyć czy zintegrować.

Data governance

(pol. Zarządzanie danymi) – to proces gromadzenia i przetwarzania danych w organizacji. Jest istotny, jeśli zajmujesz się administrowaniem danymi, przekazywaniem do nich dostępu oraz ich przechowywaniem czy odtwarzaniem po awarii. Obejmuje również integrację danych ustrukturyzowanych i nieustrukturyzowanych oraz dbanie o ich prywatność.

Data ingestion

(pol. Pozyskiwanie danych) – zdobywanie danych pochodzących z różnych źródeł i ich importowanie do hurtowni czy jeziora danych w celu ich gromadzenia oraz przetworzenia. Dane możesz przesyłać strumieniowo, w czasie rzeczywistym albo partiami, w określonych odstępach czasu. Nowoczesne oprogramowanie pozwoli Ci zaimportować dane w różnych formatach. Na przykład w przypadku danych numerycznych jest to .nc, .csv lub.json.

Data integration

(pol. Integracja danych) – to scalanie danych pochodzących z różnych źródeł, jak bazy danych, aplikacje czy systemy zarządzania przedsiębiorstwami. Pozwala usprawnić proces analizowania informacji, raportowania oraz podejmowania decyzji biznesowych. Sprzyja koordynacji zadań związanych z obsługą klienta czy logistyką, również wtedy, gdy współpracujesz z partnerami zewnętrznymi.

Data lake

(pol. Jezioro danych) – repozytorium (lokalne lub chmurowe), w którym możesz przechować dane pochodzące z wielu różnych źródeł. Dane te, dostępne zarówno w oryginalnym formacie (dane nieustrukturyzowane), jak również w formie przetworzonej (ustrukturyzowane), możesz wykorzystywać wielokrotnie. Data Lake pozwoli Ci raportować, analizować w czasie rzeczywistym (przyda się to na przykład podczas śledzenia ruchu pojazdów), wizualizować czy wykorzystać uczenie maszynowe bezpośrednio w odniesieniu do tych, zgromadzonych danych.

Data management

(pol. Zarządzanie danymi) – polityka organizacji dotycząca danych, sformułowana na piśmie. Dzięki niej zorientujesz się, jakie procedury i standardy obowiązują w przypadku gromadzenia, administrowania, przetwarzania i udostępniania danych. Ułatwi Ci to wykonywanie obowiązków zawodowych, a także doprowadzi do zwiększenia poziomu bezpieczeństwa podczas wykorzystywania danych.

Data mining

„Eksplorowanie danych” pozwoli Ci systematycznie porównywać dane znajdujące się w bazach w poszukiwaniu nowych prawidłowości i zależności między nimi. Data mining bazuje na metodach statystycznych, a także na sztucznej inteligencji, w tym sieciach neuronowych i uczeniu maszynowym. Pomoże Ci lepiej zrozumieć potrzeby klientów, prognozować sprzedaż lub wykrywać awarie w oprogramowaniu. Data mining znajduje zastosowanie m.in. w branży marketingowej, finansowej czy handlowej.

Data pipeline

(pol. Potok danych) – przepływ danych między różnymi procesami czy elementami infrastruktury w celu dostarczenia ich do odbiorcy końcowego. Obejmuje przesył danych od momentu ich pozyskania aż po raportowanie i wykorzystanie w określonym oprogramowaniu, również chmurowym, czy w systemie informatycznym bądź w magazynie danych. Potok danych umożliwia również przetwarzanie i zarządzanie danymi. Przykładem potoku danych może być dwukierunkowy przepływ danych w interfejsie API.

Data quality

(pol. Jakość danych) – to miara przydatności danych do realizacji procesów w organizacji. Dzięki niej sprawdzisz, czy dane można wykorzystać do bieżącej działalności oraz wdrożenia strategii firmy i czy posłużą do podejmowania prawidłowych decyzji biznesowych. Dane mają odpowiednią jakość wówczas, gdy odpowiadają potrzebom odbiorców. Powinny być aktualne, wiarygodne, dokładne i możliwe do zinterpretowania. Istotna jest też spójność, niezawodność i kompletność danych.

Data replication

(pol. Replikacja danych) – tworzenie kopii danych przechowywanych w określonej lokalizacji, dzięki czemu możesz je przenieść do miejsca inne miejsce. Przesyłanie następuje w czasie rzeczywistym albo w określonych odstępach czasu po każdorazowej modyfikacji danych źródłowych. To idealny sposób na aby skutecznie zabezpieczyć istotne dla organizacji dane w razie awarii. W efekcie wyeliminujesz ryzyko przestojów i zapewnisz ciągłość działania firmy.

Data strategy

(pol. Strategia danych) – długoterminowy plan (wizja) zarządzania danymi w organizacji. Znajdziesz w niej opis procesów oraz zasobów ludzkich, technologicznych i finansowych, które umożliwią efektywne pozyskiwanie, przechowywanie, przetwarzanie i udostępnianie danych. Wyznacza ponadto wymagania dotyczące bezpieczeństwa i prywatności danych oraz określa, jakie warunki musisz spełnić, aby uzyskać wystarczającą jakość danych.

Data visualization

(pol. Wizualizacja danych) – prezentacja danych w formie graficznej, która umożliwi ich szybszą analizę. Dane można przedstawić na wykresach, diagramach, grafach czy mapach. Służą do tego również interaktywne dashboardy, czyli panele z licznymi elementami graficznymi. Wizualizacja danych pomoże Ci podczas analizy sprzedaży, tworzenia raportów finansowych czy planowania strategicznego i ułatwi podjęcie decyzji biznesowych.

Data warehouse

(pol. Hurtownia danych) – cyfrowe, centralne repozytorium, w którym możesz gromadzić i przechować dane (zarówno aktualne, jak i archiwalne) pochodzące z rozproszonych baz, systemów (np. ERP, CRM) czy aplikacji. Głównym celem hurtowni danych jest ustrukturyzowanie danych i podzielenie ich na odpowiednie kategorie tematyczne. Hurtownie danych umożliwiają również analizę przechowywanych danych oraz tworzenie raportów.

Geospatial analytics

(pol. Analityka geoprzestrzenna) – analiza danych geograficznych związanych z konkretną lokalizacją. Pomoże Ci gromadzić, wizualizować oraz interpretować dane w oparciu o informacje uzyskane z systemu informacji geograficznej (GIS), tj. dane wektorowe, zdjęcia satelitarne czy dane lokalizacyjne GPS. W ramach analityki geoprzestrzenne możesz również skorzystać z narzędzi analizy statystycznej. Pozwoli Ci ona odkryć różnorodne powiązania między zmiennymi i zbiorami danych w odniesieniu do lokalizacji, co ułatwi podejmowanie decyzji biznesowych.

Machine learning

(pol. Uczenie maszynowe) – dziedzina sztucznej inteligencji, która skupia się na zdobywaniu przez systemy komputerowe i informatyczne wiedzy w taki sposób, w jaki robisz to Ty jako człowiek. To także technologia, która pozwoli Ci dostarczyć maszynom wiedzy pod postacią danych, aby mogły uczyć się identyfikowania i interpretowania określonych zachowań, relacji czy wzorców. W innym ujęciu wskazuje się, że uczenie maszynowe jest nauką o komputerach i robotach, które w sposób automatyczny doskonalą swoje umiejętności poprzez tworzenie modeli w oparciu o dane treningowe.

Jeśli chcesz dowiedzieć się więcej o pracy z danymi i możliwościach jakie daje właściwe ich wykorzystanie, skontaktuj się z nami!