AI používáme kromě zpracování fotografií také na třídění smluv. Vodítkem jsou nám průmyslové obory a toto třídění vám usnadňuje hledání v Hlídači smluv.
Úřady a firmy do registru smluv dávají smlouvy jen s naprosto základními údaji, jako jsou:
- smluvní strany,
- datum uzavření smlouvy,
- cena/hodnota smlouvy,
- a pak samotný text smlouvy.
Zákon říká, že text smlouvy by měl být strojově zpracovatelný, resp. dostupný ve formě čistého textu. Ne vždy tomu tak je a tomu, jak to řešíme, se budeme věnovat v další díle tohoto seriálu. Pro potřeba tohoto dílu předpokládejme, že už čistý text smlouvy k dispozici máme.
Obory ve smlouvách vám urychlí hledání
V Hlídači nepracujeme pouze s tím, co nám úřady poskytují, ale vždy se snažíme z mála dostupných informací vytěžit a vypočítat mnohem více. Prostě chceme pro občana najít další užitečné souvislosti.
Jedním z podstatných hledisek pro hledání jsou průmyslové obory, kterých se smlouva týká. Proč?
Představte si, že hledáte smlouvy o tom, kam Jihočeský kraj ukládá volné finanční prostředky. Pokud do vyhledávání Hlídače státu napíšete „Jihočeský kraj„, potvrdíte ENTER a kliknete na HLEDAT smlouvy, najdeme vám přes 30 000 výsledků.
A teď přijde další filtrování právě podle průmyslových oborů.
Pokud ale k Jihočeskému kraji přidáte i obor smluv „bankovní služby“, dostanete kolem stovky smluv. A v těch už je mnohem snazší se vyznat.
Všimněte si také, že klíčová slova pro vyhledávání vypadají takto:
ico:70890650 oblast:finance_bankovni
Jak miliony smluv rozdělujeme podle průmyslových oborů?
Ve všední den přibyde do Hlídače kolem čtyř tisíc smluv. Armádu právníků nemáme, takže jsme na to museli jít chytře a chytré právníky nahradit chytrými stroji.
První jsme si vybrali 120 nejdůležitějších průmyslových oblastí smluv, které jsme rozdělili do jednoduchých hlavních oborů. Poté jsme využili faktu, že veřejné zakázky jsou často zatříděné do velmi rozsáhlé hierarchie oblastí. Ty jsme namapovali na námi vybrané obory a pustili na všechny zakázky několik machine learning procesů a algoritmů. Díky tomu jsme pro více než polovinu oborů získali poměrně kvalitní „most important distinctive keywords“, neboli významná rozlišovací slova pro jednotlivé typy dokumentů.
Ta jsme několik měsíců ladili a převážně ručně doplňovali tak, abychom se dostali na přesnost vyšší než 95 %. K samotnému posouzení a roztřídění smlouvy používáme upravený TF-IDF algoritmus pro práci s n-gramy. Zatřídění jedné smlouvy nám trvá mezi 1-3 sekundami, v závislosti na délce a počtu dokumentů.
Komunitní vylepšování výsledků
Pokud objevíte nesprávně zařazenou smlouvu, můžete nás na to upozornit. Interně se v tu samou chvíli stane několik důležitých věcí. Kromě upozornění na chybu systém automaticky detailně zanalyzuje aktuální důvody zatřídění a obě věci pošle do našeho helpdeskového systému. Zde ho někdo z nás – většinou kolegyně Lenka – do druhého dne prohlédne, zatřídění ručně zkontroluje a hlavně upraví algoritmus a klíčová slova, pomocí kterých se zatřídění projevuje. Pokud jde o širší problém, tak během několika dní přepočítáme všechny nebo vybrané smlouvy.
V dalším díle se koukneme na naše unikátní OCR na steroidech.
✅ Více: ZDROJ ZDE