Vítězem 6. ročníku soutěže Cena Atlas Copco Services, která oceňuje nejlepší ekonomické diplomky vzniklé na tuzemských univerzitách, se stal Dominik Rabatin. Absolvent Fakulty podnikatelské Vysokého technického učení v Brně navrhl, pod vedením Karla Doubravského, revoluční predikční model, který může zachránit tisíce českých pacientů před infarktem. Sám autor diplomové práce říká, že má rád, když má jeho práce skutečný přínos, jaká byla jeho motivace při tvorbě diplomky, proč zatím nelze předpovědět infarkt všem ohroženým pacientům? Budou možné s předstihem předpovídat i jiné nemoci? I na tyto otázky odpovídá Dominik Rabatin v následujícím rozhovoru.
Proč jste si vybral jako téma vaší diplomové práce zrovna vytvoření predikčního modelu infarktu myokardu? Jak vás to vůbec napadlo?
Přestože jsem studoval informatiku a ekonomii, vždy mě zajímala medicína. A jsem rád, když má moje práce skutečný přínos. Ve spolupráci s mým současným zaměstnavatelem, společností STYRAX Consulting, jsme dali dohromady několik zajímavých inovativních nápadů. Z nich jsem si vybral predikční model, který jsem se rozhodl zpracovat na téma infarktu myokardu, protože má ve světě a zejména v České republice poměrně vysokou incidenci i mortalitu. A také proto, že mám v okolí kardiology, se kterými jsem mohl spolupracovat.
Jaká byla vaše motivace pro toto téma, co vás při tvorbě diplomky hnalo kupředu?
Na rovinu přiznávám, že hlavní motivací bylo určitě úspěšné dokončení studia (smích). Ale vědomí, že tato práce může dát lidem několik let kvalitního života navíc, případně infarktu myokardu zcela zabránit, mě rovněž hřála u srdce. Roli hrála i příležitost k osobnímu a kariérnímu růstu.
Váš model má senzační úspěšnost (class recall) 24,29 %. To znamená, že dokáže v populaci identifikovat celou čtvrtinu pacientů, kterým hrozí infarkt. Takzvaná class accuracy modelu je pak 65,83 %, tedy že ke každým 2 pacientům s jistým hrozícím infarktem model navíc „nepřesně“ přidá 1 pacienta, kterému infarkt nehrozí (toho pacienta však lze jednoduše vyloučit jednoduchým a levným lékařským vyšetřením). Proč však váš model zatím nedokáže identifikovat zbylé tři čtvrtiny pacientů, kterým také infarkt rovněž hrozí?
Důvodů je několik. Analyzované údaje obsahují pouze informaci o tom, zda byla péče pojišťovně vykázána, nikoli o tom, zda k ní skutečně došlo nebo jaký byl její výsledek. Každý lidský organismus je jedinečný a má různé predispozice, což může způsobit, že výstup není deterministický. To znamená, že i když máme o dvou pojištěncích stejná data, jeden z nich může dostat infarkt myokardu a druhý ne. Ne všichni pojištěnci chodí pravidelně k lékaři, mnozí z nich přijdou s problémem, až když je pozdě. Dalším důvodem nízké přesnosti je administrativní zátěž lékařů, kteří v zájmu zjednodušení a urychlení své práce často nevykazují správnou nebo potřebnou podrobnou zdravotní péči. Je však důležité poznamenat, že ačkoli model označí přibližně jednoho ze tří pacientů za „nepřesného“, není to z ekonomického hlediska významné, protože náklady na prevenci jsou mnohonásobně levnější než náklady na léčbu. V blízké budoucnosti by však zdravotní pojišťovny měly mít k dispozici i konkrétní hodnoty výsledků laboratorních testů, což by mohlo přinést významné zlepšení mého modelu.
Vaše diplomová práce má tak skvělé výsledky, že podléhá režimu odloženého zveřejnění – je tedy zatím tajná. Vámi vyvinutý model by dokázal všem českým pojišťovnám ročně ušetřit stovky milionů korun a zachránit mnoho životů. Dočkáme se brzy jeho komerčního využití? Jednáte už s pojišťovnami o nasazení vašeho modelu, a pokud ano, v jaké je to fázi?
Informace o jednáních se zdravotními pojišťovnami nebudu, s dovolením, prozatím zveřejňovat. Rozhodně však mohu prozradit, že model nadále prochází neustálým zdokonalováním, aby jeho výsledky byly co nejpřínosnější.
Představují podle vás data o pacientech, jež lékaři a pojišťovny mají, „informační zlatý důl“, který leží ladem a se kterým by se mělo více pracovat? Je škoda nezkoumat zdravotnická data, která máme k dispozici, a nehledat mezi nimi souvislosti?
Určitě ano! A netýká se to pouze údajů ze zdravotnictví. V dnešní době vznikají obrovské objemy dat v různých oblastech, ať už jde o zdravotnictví, energetiku, výrobu nebo služby, a značná část z nich „leží ladem“. Právě zde vidím obrovský potenciál pro datovou analytiku a strojové učení v budoucnosti. Je však třeba poznamenat, že data sama o sobě jsou často málo užitečná bez znalostí dané oblasti.
Šel by váš model teoreticky upravit i pro predikci jiných onemocnění?
Když to velmi zjednoduším, tak ano. Mluvíme však pouze o logickém principu. Každá diagnóza má jiné predispozice a komorbidity, které je třeba s náležitou pečlivostí zohlednit. Takže nejnáročnější část – analýza dat a výběr vhodných faktorů, musí být vždy provedena individuálně a od základu. Ne každá diagnóza je však vhodným kandidátem pro vytvoření predikčního modelu.