Hackathon
Hackathon byl v našich očích něco jako nazutí sedmimílových bot. Mýty o tomto dni vypravují, že se všechny DA Czechity v práci na svém projektu významně posunou a spatří světlo na konci tunelu. A prý je tam spousta jídla!
To my nemůžeme úplně posoudit, jelikož v paměti je zaryt pouze ranní lov koučů, kteří nám budou ochotní pomoct, představení Simona z Billigence, výměna dopolední Verči za odpolední a prezentace výsledků. Zbytek dne je v mlze a jídlo tam myslíme bylo.
Na hacktahonu nás totiž čekalo spoustu práce a taky pro nás po čtyřech týdnech od poslední lekce představovalo SQL docela výzvu (více kódů dostupných na záložce datovka).
Bojový plán zahrnoval očištění tabulky s přehledem sř od překlepů, převedení datumu do vhodného formátu, abychom si mohly vytvořit sloupec s informací o délce trvání sř a vytvoření sloupce, který nám pak usnadní vizualizace. Připravily jsme si kategorie, které nám měly pomoci zjistit, jestli jsou lhůty správních řízení ještě v normě nebo daný limit přesahují. Například v případě zkrácené revize je lhůta 50 dnů ode dne, kdy bylo řízení zahájeno, v případě hloubkové revize je to 75 dní. Na tomto místě bychom pravděpodobně měly i objasnit, co že to znamená ATC skupina, jejíž výskyt v našich kódech narůstá. Jedná se o anatomicko-terapeuticko-chemické skupiny, které jsou definovány Světovou zdravotnickou organizací a slouží k mezinárodního systému třídění léčiv. Každému léčivu je přidělen sedmimístný kód. Pro naše účely je dobré jen vědět, že čím delší kód, tím konkrétnější informace, a proto v našich kódech uvidíte označení ATC 1, ATC 3, ATC 5 a ATC 7.

Kromě toho bylo potřeba pospojovat 8 tabulek SCAU do jedné velké tabulky o rozměrech milion řádků a set sloupečků. Ta se pak ještě musela doplnit o sloupec “Počet balení” z tabulky DIS-13 podle odpovídajících roků, aby bylo možné doplnit výslednou tabulku o výpočtové sloupce. Výpočtovým sloupcem je myšlen výpočet nákladů pojišťovny za daný lék. Náklady se zjistí porovnáním hodnot maximální finální cena (MFC) a úhrada (UHR) kde nižší hodnot představuje tzv. reálnou úhradu (RUHR). Ta se pak vynásobí počtem balení a tím se zjistí náklady na daný lék za rok. Celý výpočet jsme prováděly za účelem možnosti posoudit vliv nákladů na dané léčivo na délku správního řízení (jeden z cílů zeleného pole).
Samozřejmě i tento proces zahrnoval nutnost čištění dat tak, aby byly odstraněny znaky, se kterými se nedá počítat (pomlčky, desetinná čárka), upravovat datové typy a řešit “nully”.

Po očištění dat a kýženém UNIONu všech tabulek SCAU bylo ve snowflaku ověřeno, že kód funguje správně, tudíž bylo bezpečné překopírovat celý kód do queries v Keboole. Rázem se seriózní věda ve formě datové analýzy změnila v čisté náboženství ve formě modlení se, ať je transformační puntík zelený. PROSÍM!
Po úspěšném proběhnutí transformace v Keboole jsme byly připraveny si nahrát tabulky do writeru v Keboole a napojit se na Tableau. Trochu jsme ale nepočítaly s tím, že Keboola zapomněla na naše handlování před Hackathonem a my byly nuceny opět smlouvat o tom, kolik znaků může být v jednom poli. V tomto boji jsme ale těžce prohrávaly a musely jsme se nakonec pomocí transformace zbavit sloupců, které obsahovaly příliš dlouhé hodnoty.
Zlatým hřebem dne pak měla být vizualizace, která ukáže, jestli délky správního řízení odpovídají délce stanovené zákonem.
Ukázalo se, že vizualizace vychází líbivě špatně, jako by snad zákon nedodrželo v životě nic. Zejména Julie, která na rozdíl od Kláry, není poznamenaná detailní znalostí správních řízení, měla radost, že graf vychází “tak špatně”. Tuto počáteční radost, že v grafu je „bomba“ postupně vystřídal pocit zklamání a upadání zpátky do temnoty tunelu. Zejména u poloviny členů naší dvojičky, kdy Kláře, která je za výběr tématu zodpovědná, došlo, že data rozhodně nejsou čistá, a to ne ve smyslu mezer a překlepů, ale ve smyslu označování jednotlivých typů řízení a dalších sloupců, které figurují jako proměnné v grafech, a to až do té podoby, že znemožňují kvalitní analýzu délky správních řízení.

S vědomím toho, že si nemůžeme dovolit prezentovat zkreslující výsledky vrhající stinné světlo na činnost všech subjektů podílejících se na správních řízeních, jsme končily Hackathon sice s vizualizací, ale ztrátou směru projektu. Faktorů, které bychom musely zanedbat bylo příliš mnoho (předběžná vykonatelnost, odvolání na MZ).
Propojením tabulky přehledu sř a zunionovaného SCAU jsme se pokusily o nápravu výsledků viz níže. Pro tyto účely jsme délku trvání určily jako rozdíl data, kdy se lék objevil ve SCAU, a data zahájení správního řízení. Výsledek je už o něco více reálnější, ale stále je založen na ideálním případu. Nemůžeme vyloučit možnost, že by bylo třeba délku správních řízení po úpravě výchozích dat zkrátit ještě o min. 30 dní. Pokud by totiž rozhodnutí bylo vydáno až ke konci měsíce, objevil by se lék ve SCAU s měsíční “prodlevou”. Pokud by k tomu došlo, výsledky by zase vypadaly úplně jinak a původní graf by od konečného byl změněn k nepoznání.

A z toho plyne další ponaučení: Vizualizuj data hned, abys věděl, co v nich máš! To nám sice říkali už na začátku, ale musely jsme to zažít.
Nestačí, že máš mapu vzdušných zámků a víš, že to v datech nějakým způsobem je. Udělej si datový model!
Nezáleží jenom na čistotě dat ale i na kvalitě.