Umělá inteligence

NLP od Trasku pomáhá bankám automatizovaně analyzovat dokumenty

Řešení Trasku pro zpracování přirozeného jazyka pomáhá bankám automatizovaně analyzovat dokumenty.

Pavel Tužil
Konzultant

Zpracování přirozeného jazyka patří mezi moderní technologie založené na umělé inteligenci. Pomáhá počítačům porozumět lidské řeči – mluvené nebo psané – a získat z ní podstatné informace. Komplexní pochopení lidského jazyka vyžaduje pochopení nejen slov, ale i syntaxe a sémantiky. Systémy pro rozpoznání přirozené řeči nalezneme v běžných aplikacích jako překladač Google, kontrola gramatiky v kancelářských aplikacích MS Office, inteligentních konverzačních rozhraních (tzv. chatbotech) nebo digitálních asistentech (Cortana, Siri, Alexa ad.). Nabízí je také Trask.

Toto unikátní řešení rozumí českému jazyku a v reálném provozu slouží například jedné z největších českých bank k vytěžování informací z notářských dokumentů. Nahrazuje a zkvalitňuje dříve manuální práci a uvolňuje ruce pracovníkům ke kvalifikovanějším činnostem a péči o klienty.

Smyslem technologií pro zpracování přirozeného jazyka (NLP), z nichž většina je založená na strojovém učení, je dešifrovat lidský jazyk v podobě řeči nebo textu, pochopit význam a získat využitelné informace. Absolutní metou je dosáhnout porozumění na úrovni člověka. Poté dokážou počítačové systémy rozumět psanému i mluvenému lidskému projevu, vyvozovat z něj závěry, shrnovat, překládat a generovat přirozený jazykový výstup.

K počítačovému zpracování přirozeného jazyka lze přistupovat několika způsoby:

  • Symbolický přístup: vychází z obecně platných mluvnických pravidel a lexikonu, které pro systém připraví člověk.
     
  • Statistický přístup: je založený na strojovém učení. Pracuje s rozsáhlým tělesem textu, v němž pomocí matematických metod analyzuje výskyt jazykových jevů. Vytváří vlastní pravidla, která uplatňuje na další vstupy.
     
  • Hybridní přístupy: kombinují předchozí dva principy. Systémy vycházejí z nastavených obecně platných pravidel a následně si je upravují pro konkrétní účely na základě statistické analýzy vstupů

Trask Semantic Tool
v praxi

NLP systém společnosti Trask slouží v jedné z největších českých bank pro účely zpracování notářských dokumentů. Přebírá pracnou a časově náročnou činnost související s přibývajícími legislativními požadavky bez přidané hodnoty pro klienty banky.

Systém z notářských žádostí automaticky vytěžuje klíčové informace – údaje o zemřelých osobách (jméno, příjmení, datum narození, rodné číslo, datum úmrtí), jméno notáře, jednací číslo a adresáta žádosti – a vyhodnocuje správnost výsledků podle nastavených pravidel. Umožňuje také v dokumentech vyhledávat. V případě nejistoty požádá o asistenci člověka/operátora a předá mu analýzu předpokládaných nedostatků. 

Díky spolupráci se společností Trask můžeme aplikovat výsledky našeho výzkumu v praxi. Pražský závislostní korpus obsahuje velké množství podrobně analyzovaných českých textů a je proto ideální pro potřeby pokročilých aplikací v oblasti komputační lingvistiky.
ředitelka ÚFAL, MFF UK doc. RNDr. Markéta Lopatková, Ph.D., která se matematické lingvistice věnuje od roku 1999

Ryze české NLP řešení

Právě to je Trask Semantic Tool, při jehož vývoji spolupracujeme s Ústavem pro formální a aplikovanou lingvistiku (ÚFAL) při Matematicko-fyzikální fakultě Univerzity Karlovy, což je špičkové pracoviště, které se zabývá počítačovým zpracováním textu a přípravou velkých korpusů jazykových dat masivně využívaných při strojovém učení. Díky tomu může Trask pracovat se špičkovými nástroji a komponenty pro využití a vytěžování českých textů a může také využívat data unikátní jazykové databáze poskytující syntakticky a sémanticky anotované české texty.

Trask u svého NLP řešení vychází z rozsáhlých znalostí bankovního prostředí a dlouholetých zkušeností s vývojem, implementací a integrací bankovních systémů. Je postavené na špičkových bezpečnostních standardech a splňuje veškeré platné právní předpisy (GDPR) i interní pravidla banky pro nakládání s daty včetně úplné auditní stopy.