W artykule zostanie poruszona kwestia Eksploracja danych, która ma ogromne znaczenie w różnych obszarach społeczeństwa. Eksploracja danych jest przedmiotem badań i zainteresowań od wielu lat, a jego aktualność pozostaje aktualna także dzisiaj. Na przestrzeni dziejów Eksploracja danych odgrywał kluczową rolę w życiu ludzi, czy to na poziomie osobistym, zawodowym czy akademickim. W tym artykule staramy się pogłębić wiedzę i zrozumienie Eksploracja danych, badając jego różne aspekty i możliwe implikacje dla współczesnego społeczeństwa. Poprzez szczegółową i wyczerpującą analizę będziemy starali się rzucić światło na ważne aspekty związane z Eksploracja danych, aby zapewnić czytelnikowi wszechstronną i wzbogacającą wizję.
Eksploracja danych (ang. data mining – dosł. górnictwo danych) – proces odkrywania wiedzy z baz danych[1].
Idea eksploracji danych polega na wykorzystaniu szybkości komputera do znajdowania ukrytych dla człowieka (właśnie z uwagi na ograniczone możliwości czasowe) prawidłowości w danych zgromadzonych w hurtowniach danych.
Istnieje wiele technik eksploracji danych, które wywodzą się z ugruntowanych dziedzin nauki, takich jak statystyka (statystyczna analiza wielowymiarowa) i uczenie maszynowe.
Techniki i metody służące eksploracji danych wywodzą się głównie z dziedziny badań nad sztuczną inteligencją. Główne przykłady stosowanych rozwiązań należą do następujących obszarów:
W eksploracji danych rozwijane są różne metody przetwarzania, różniące się zakresem zastosowań, stosowanymi algorytmami rozwiązań, sposobem prezentacji wyników. Wśród nich wyróżnia się:
W procesie odkrywania danych (KDD – Knowledge Discovery in Databases) korzysta się z metod statystyki, sztucznej inteligencji, baz danych, oraz eksploracji danych.
Obszarów stosowania odkrywania danych jest wiele, obejmują one te miejsca, w których stosuje się systemy informatyczne, między innymi w celu gromadzenia pozyskanych danych w postaci baz danych. Jesteśmy świadkami prawdziwej eksplozji baz danych, mając na myśli ich liczbę i objętość. Ogromne zbiory danych gromadzone są w hurtowniach danych. Z powodu dużej prostoty konstruowania bazy danych oraz akceptowalnych cen, systemy gromadzące dane stosuje się prawie we wszystkich dziedzinach życia. Wszędzie tam natomiast, gdzie istnieje już baza danych, pojawia się potrzeba analizy tych danych w celu odkrycia nieznanej dotąd wiedzy. Dziedziny, w których szeroko stosuje się eksplorację danych, to technika, medycyna, astronomia, ekonomia, szeroko pojęty biznes.
Zastosowania KDD znajdują zastosowania przy:
Przykładem może być odkrycie w danych z supermarketu zależności polegającej na tym że klient, który kupuje szampana i kwiaty, kupuje zwykle również czekoladki.
Wykresy rozkładów empirycznych dla wybranych zmiennych predykcyjnych są tym lepsze im linie obrazujące poszczególne klasy są względem siebie znacząco przesunięte. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia, do jakiej klasy należą.
Celem obrazowania właściwości poszczególnych cech na wykresach pudełkowych jest wyłonienie takich zmiennych, które charakteryzują się największymi przesunięciami względem siebie kwantyli, wartości maksymalnych, minimalnych oraz median.
Histogramy dla wybranych zmiennych predykcyjnych są tym lepsze, im słupki są bardziej zróżnicowane. W sytuacji, gdy się na siebie nakładają, praktycznie nie ma możliwości wyznaczenia, do jakiej klasy należą.
Tabelka przedstawia, jakie dane można odczytać z poszczególnych wykresów.
Gęstość | Pudełkowy | Histogram | |
---|---|---|---|
Kwantyl | ![]() |
![]() |
![]() |
Mediana | ![]() |
![]() |
![]() |
Minimum | ![]() |
![]() |
![]() |
Maksimum | ![]() |
![]() |
![]() |
Wartość cechy | ![]() |
![]() |
![]() |
Liczebność | ![]() |
![]() |
![]() |
Częstość | ![]() |
![]() |
![]() |
Wzajemna korelacja zmiennych | ![]() |
![]() |
![]() |