Czyszczenie danych



Internet jest niewyczerpanym źródłem wiedzy, także jeśli chodzi o Czyszczenie danych. Wieki i stulecia ludzkiej wiedzy o Czyszczenie danych zostały przelane, i nadal są przelewane, do sieci, i właśnie dlatego dostęp do niej jest tak trudny, ponieważ możemy znaleźć miejsca, w których nawigacja może być trudna lub wręcz niewykonalna. Proponujemy, abyś nie rozbił się w morzu danych dotyczących Czyszczenie danych i abyś mógł szybko i sprawnie dotrzeć do wszystkich portów mądrości.

Mając na uwadze ten cel, zrobiliśmy coś, co wykracza poza to, co oczywiste - zebraliśmy najbardziej aktualne i najlepiej wyjaśnione informacje na temat Czyszczenie danych. Ułożyliśmy je również w sposób ułatwiający czytanie, z minimalistycznym i przyjemnym wyglądem, zapewniając najlepsze wrażenia użytkownika i najkrótszy czas ładowania. Ułatwiamy Ci to, abyś musiał się martwić tylko o to, by dowiedzieć się wszystkiego o Czyszczenie danych! Jeśli więc uważasz, że osiągnęliśmy nasz cel i wiesz już wszystko, co chciałeś wiedzieć o Czyszczenie danych, z przyjemnością przyjmiemy Cię z powrotem na te spokojne morza sapientiapl.com, gdy tylko Twój głód wiedzy zostanie ponownie rozbudzony.

Dla danych oczyszczajcych ( angielski czystek danych lub edycji danych ) obejmuj róne sposoby usuwania i poprawiania bdów danych w bazach danych lub innych systemów informacyjnych . Bdy mog polega na przykad na nieprawidowych (pierwotnie niepoprawnych lub nieaktualnych), nadmiarowych, niespójnych lub niepoprawnie sformatowanych danych .

Kluczowe etapy czyszczenia danych to wykrywanie duplikatów (rozpoznawanie i czenie tych samych rekordów danych) oraz fuzja danych (czenie i uzupenianie niekompletnych danych).

Oczyszczanie danych to wkad w popraw jakoci danych . Wpywa to jednak równie na waciwoci róde danych (wiarygodno, trafno, dostpno), których nie mona poprawi za pomoc czyszczenia danych.

Proces czyszczenia danych

Proces czyszczenia danych dzieli si na pi kolejnych kroków:

  1. Jako danych - zdefiniuj wymagania dotyczce danych
  2. Analiza danych
  3. Utwórz kopi zapasow pliku/tabeli
  4. normalizacja
  5. Oczyszczanie danych

Jako danych - wymagania

Wysokiej jakoci i wiarygodne dane musz spenia okrelone wymagania, m.in. B.

  • prawidowe dane: ten sam typ danych
  • kompletne dane
  • Jednolite dane: ta sama jednostka (np. waluta, waga, dugo)
  • Dane dotyczce integralnoci: dane musz by chronione przed celow i/lub niezamierzon manipulacj.

Analiza danych

Po doprecyzowaniu wymaga dane musz m.in. B. za pomoc list kontrolnych, w jakim stopniu maj wymagan jako. Daje to z. B. odpowiednie poziomy bdów .

Bezpiecznik

Przed wyczyszczeniem danych naley zapisa oryginalne, wadliwe dane jako kopi iw adnym wypadku nie usuwa ich po oczyszczeniu. W przeciwnym razie korekty byyby niezrozumiae. Ponadto taki proces nie byby odporny na audyty.

Alternatyw dla archiwizacji, zwaszcza w przypadku kilku przebiegów czyszczenia, jest zapisanie skorygowanej wartoci w dodatkowej kolumnie. Inn moliwoci jest zapisanie go w dodatkowej linii. Ostatni opcj przy duej liczbie kolumn i wierszy do poprawienia jest utworzenie osobnej tabeli. Odpowiednia decyzja zaley równie od dostpnej przestrzeni magazynowej.

normalizacja

Pomylne czyszczenie moe wymaga standaryzacji danych. Zaley to od wyników analizy danych i poziomu bdu.

Strukturyzacja umoliwia uzyskanie jednolitego lub ulepszonego formatu danych, na przykad data jest wprowadzana do jednolitego formatu danych ( 01.09.2009 ). Lub dane zoone s rozbijane na elementy skadowe, np. B. imi i nazwisko klienta w nazwie elementy zwrot grzecznociowy , tytu , imi i nazwisko . W wikszoci przypadków taka strukturyzacja nie jest trywialna i odbywa si za pomoc skomplikowanych parserów.

Podczas normalizacji istniejce wartoci s mapowane na ustandaryzowan list wartoci. Ta normalizacja moe dla. B. za zwrot grzecznociowy, tytu naukowy lub dodatki firmowe. Na przykad dodatki firmy n.p. Kfr. I Kfm przez znormalizowana warto e. K. mona wymieni, co znacznie uatwia póniejsze czyszczenie.

Wyczy dane

Do wyboru jest sze metod czyszczenia danych, które mona stosowa pojedynczo lub w poczeniu:

  • Wyprowadzanie z innych danych: Prawidowe wartoci pochodz z innych danych (np. zwrot grzecznociowy od pci).
  • Zastp innymi danymi: nieprawidowe dane s zastpowane innymi danymi (np. z innych systemów).
  • Uyj wartoci domylnych : zamiast nieprawidowych danych uywane s wartoci domylne .
  • Usu nieprawidowe dane: Dane s odfiltrowywane i nie s dalej przetwarzane.
  • Usu duplikaty: Duplikaty s identyfikowane za pomoc wykrywania duplikatów , nieredundantne dane s konsolidowane z duplikatów i tworzony jest z nich pojedynczy zestaw danych.
  • Oddzielne podsumowania: W przeciwiestwie do usuwania duplikatów, niepoprawnie podsumowane dane s ponownie rozdzielane.

przykad

Szczególnie czstym przypadkiem jest czyszczenie danych z adresów , gdzie nazwy ulic mog mie rón pisowni (oprócz ulica i ulica). Pisownia nazwisk równie moe by inna, chocia w indywidualnych przypadkach moe to by ta sama osoba. To tworzy duplikaty w kóko. Bardzo rozbudowan form czyszczenia danych, która jednak bardziej przypominaa migracj , byo przejcie z czterocyfrowych na piciocyfrowe kody pocztowe w Niemczech od 1990 roku.

Zobacz te

literatura

  • Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi: Skuteczna kontrola jakoci danych . 2009, Hanser Fachbuch, ISBN 978-3-446-42056-4 .

Indywidualne dowody

  1. Apel, 2009, s. 157
  2. Konwersja do piciocyfrowego. W: Michel-Rundschau . 2/1994

Opiniones de nuestros usuarios

Rafal Kosiński

Musiałem znaleźć coś innego na temat Czyszczenie danych, co nie było typową rzeczą, o której zawsze czyta się w Internecie, i podobał mi się ten artykuł _zmienna.

Jerzy Pawlak

Wreszcie artykuł o Czyszczenie danych, który jest łatwy do przeczytania.

Olaf Kosiński

Podoba mi się ta strona, a artykuł o Czyszczenie danych jest tym, którego szukałem.