Scroll Swipe

Case study: kvalitné dáta

#SK , #data-quality , #BI

19.09.2018

Dáta majú významnú hodnotu pre každú firmu, keďže ide o záznamy z firemných procesov a transakcií. V praxi tieto záznamy analyzujeme, aby sme zistili aký je stav a vývoj nášho podnikania. A s tým je spojená otázka kvality dát.

Case study: kvalitné dáta

Ak si nedáme pozor na kvalitu dát pri vstupe, logicky môžeme očakávať ich nesprávnosť na výstupe v podobe reportov. Jednoduchým riešením môže byť audit vstupných dát podľa indikátorov dátovej kvality a následne očistenie a normalizácia dát pre potreby reportingu.

S požiadavkou nastaviť kvalitu dát nás oslovila spoločnosť Casma, s.r.o., ktorá prevádzkuje sieť značkových športových predajní A Pro sport a je autorizovaným predajcom na slovenskom trhu pre značky ako Nike, adidas, Reebok, Puma, The North Face, Jack Wolfskin, O´Neill a iné. Za roky svojho podnikania nazbierali milióny záznamov z predajných transakcií ako sú produktové, skladové či zákaznícke dáta z kamenných predajní, e-shopu i B2B.

Čo prináša veľké množstvo dát?

 

  • chybovosť (pri zápisoch prirodzene dochádza k preklepom)
  • chýbajúce dáta, prázdne polia databázy - najčastejšie chýbajú charakteristiky produktov (značka, kategoria, dodávateľ, rok, sezóna, farba, atď.)
  • duplicitu názvov, nesprávna diakritika

Výsledkom sú slabé a nekvalitné dátové vstupy, ktoré poskytnú neúplné alebo dokonca chybné reporty.

Postup krokov pri nastavení správnej dátovej kvality:

 

Krok 1 - zber dát z ERP

U klienta sme od začiatku podnikania identifikovali 30 000 unikátnych produktov. V produktovej databáze sú okrem kódov, názvov a cien aj jednotlivé charakteristiky (kategórie produktov). Práve na tie je nutné sa zamerať pri dátovej kvalite.

Krok 2 - Výber aktívnych produktov

Po klientovej požiadavke vyfiltrovať iba aktívne produktu (kritérium bol minimálne jeden predaný produkt za posledné tri roky) sme identifikovali 10 000 unikátnych produktov.

Krok 3 - category management

Klient používal 9 hlavných kategórií produktov. Z databázy sme vybrali všetky charakteristiky z aktívnych 10 000 produktov. Následne sme dospeli k záveru, že dve kategórie sú duplicitné, preto sme ich zlúčili. V ostatných siedmych kategóriách sme identifikovali 214 unikátnych produktových charakteristík. Klienta sme požiadali, aby sa pozrel na tieto charakteristiky a upravil názvy podľa jeho aktuálnej potreby. Vďaka tomu zostalo z dôvodu odstránenia duplicít, preklepov a zlúčení niektorých charakteristík 70 unikátnych.

Ako príklad zvolíme kategóriu “sezóna”:

Na obrázku vidíte preklepy a duplicity, ktoré boli v kategórií sezóna. Pri preskúmaní jednoduchého reportu “predaje produktov podľa sezónnosti” sme zistili, že nie je možné si vyfiltrovať produkty za obdobie jar. Tie sú totiž v jednej množine aj s letom.

Riešenie: Úpravia celej kategorizácie na jar, leto, jeseň a zima.

 

 

Krok 5 - Reporting

Pri importe dát do business intelligence sme len od 1.1.2018 na začiatku procesu identifikovali až okolo 50 000 kusov predaných produktov, ktoré boli evidované ako “Nezaradené”, čiže nemali vyplnené niektoré produktové charakteristiky. Následne sa po očistení a normalizácií celej databázy neobjavil ani jeden produkt medzi “Nezaradenými”. Až po týchto krokoch očakávať kvalitné a presné reporty zodpovedajúce realite vášho podnikania.

Záver:

Tento stav je úplne prirodzený pre každú firmu a je jedno, či je to maloobchod, výrobu, logistiku alebo bankovníctvo. Do procesu podnikania vstupujú kvantá dát, ktoré sa zapisujú manuálne, vznikajú nové požiadavky na kategorizácie, menia sa zamestnanci, ktorí pracujú s dátami a ďalšie okolnosti, ktoré znižujú kvalitu dát z dôvodu chybovosti pri zápise, preklepov, duplicít či chýbajúcich záznamov. Celý tento proces sme zrealizovali v priebehu 3 mesiacov, na čom má podiel aj aktívna spolupráca a súčinnosť zo strany manažmentu nášho klienta. Veríme, že súčasná kvalita dát či nastavenie aplikácie Korner business intelligence sa prejaví na lepších hospodárskych výsledkoch spoločnosti Casma, s.r.o.

Autor

 

Ing. Filip Hložka
retail consultant Korner Analytics, sro