NLP pomáhá bankám automatizovaně analyzovat dokumenty

02. ledna 2020

Zpracování přirozeného jazyka patří mezi moderní technologie založené na umělé inteligenci. Pomáhá počítačům porozumět lidské řeči – mluvené nebo psané – a získat z ní podstatné informace.

Komplexní pochopení lidského jazyka vyžaduje pochopení nejen slov, ale i syntaxe a sémantiky. Systémy pro rozpoznání přirozené řeči nalezneme v běžných aplikacích jako překladač Google, kontrola gramatiky v kancelářských aplikacích MS Office, inteligentních konverzačních rozhraních (tzv. chatbotech) nebo digitálních asistentech (Cortana, Siri, Alexa ad.). Nabízí je také Trask. Toto unikátní řešení rozumí českému jazyku a v reálném provozu slouží například jedné z největších českých bank k vytěžování informací z notářských dokumentů. Nahrazuje a zkvalitňuje dříve manuální práci a uvolňuje ruce pracovníkům ke kvalifikovanějším činnostem a péči o klienty.

Smyslem technologií pro zpracování přirozeného jazyka (NLP), z nichž většina je založená na strojovém učení, je dešifrovat lidský jazyk v podobě řeči nebo textu, pochopit význam a získat využitelné informace. Absolutní metou je dosáhnout porozumění na úrovni člověka. Poté dokážou počítačové systémy rozumět psanému i mluvenému lidskému projevu, vyvozovat z něj závěry, shrnovat, překládat a generovat přirozený jazykový výstup.

K počítačovému zpracování přirozeného jazyka lze přistupovat několika způsoby:

  • Symbolický přístup: vychází z obecně platných mluvnických pravidel a lexikonu, které pro systém připraví člověk.
  • Statistický přístup: je založený na strojovém učení. Pracuje s rozsáhlým tělesem textu, v němž pomocí matematických metod analyzuje výskyt jazykových jevů. Vytváří vlastní pravidla, která uplatňuje na další vstupy.
  • Hybridní přístupy: kombinují předchozí dva principy. Systémy vycházejí z nastavených obecně platných pravidel a následně si je upravují pro konkrétní účely na základě statistické analýzy vstupů.

Ryze české NLP řešení

Právě to je Trask Semantic Tool, při jehož vývoji spolupracujeme s Ústavem pro formální a aplikovanou lingvistiku (ÚFAL) při Matematicko-fyzikální fakultě Univerzity Karlovy, což je špičkové pracoviště, které se zabývá počítačovým zpracováním textu a přípravou velkých korpusů jazykových dat masivně využívaných při strojovém učení. Díky tomu může Trask pracovat se špičkovými nástroji a komponenty pro využití a vytěžování českých textů a může také využívat data unikátní jazykové databáze poskytující syntakticky a sémanticky anotované české texty.

Trask u svého NLP řešení vychází z rozsáhlých znalostí bankovního prostředí a dlouholetých zkušeností s vývojem, implementací a integrací bankovních systémů. Je postavené na špičkových bezpečnostních standardech a splňuje veškeré platné právní předpisy (GDPR) i interní pravidla banky pro nakládání s daty včetně úplné auditní stopy.

Díky spolupráci se společností Trask můžeme aplikovat výsledky našeho výzkumu v praxi. Pražský závislostní korpus obsahuje velké množství podrobně analyzovaných českých textů a je proto ideální pro potřeby pokročilých aplikací v oblasti komputační lingvistiky.
Doc. RNDr. Markéta Lopatková, Ph.D., ředitelka ÚFAL MFF UK

Trask Semantic Tool v praxi

NLP systém společnosti Trask slouží v jedné z největších českých bank pro účely zpracování notářských dokumentů. Přebírá pracnou a časově náročnou činnost související s přibývajícími legislativními požadavky bez přidané hodnoty pro klienty banky. Systém z notářských žádostí automaticky vytěžuje klíčové informace – údaje o zemřelých osobách (jméno, příjmení, datum narození, rodné číslo, datum úmrtí), jméno notáře, jednací číslo a adresáta žádosti – a vyhodnocuje správnost výsledků podle nastavených pravidel. Umožňuje také v dokumentech vyhledávat. V případě nejistoty požádá o asistenci člověka/operátora a předá mu analýzu předpokládaných nedostatků.

Chcete se o řešení dozvědět více? Napište nám, co by vás zajímalo, a my se vám co nejdříve ozveme.