FormAnalyzer RBEE

Poznaj nasz system automatycznego odczytu metadanych z dokumentów tekstowych

Przedstawiamy Państwu system FormAnalyzer RBEE, czyli zestaw modułów i funkcjonalności służący do odczytu treści metadanych z niesformalizowanych dokumentów papierowych i elektronicznych.

FormAnalyzer RBEE

Wprowadzenie

Przedstawiamy Państwu system FormAnalyzer RBEE – zestaw modułów i funkcjonalności służący do odczytu treści metadanych z niesformalizowanych dokumentów papierowych i elektronicznych.

System FormAnalyzer jest wykorzystywany od ponad 20 lat do automatyzacji odczytu i weryfikacji metadanych z formularzy i dokumentów sformalizowanych. Z wykorzystaniem systemu FormAnalyzer zeskanowano i przetworzono na wysoko wiarygodne metadane już ponad 1.000.000.000 dokumentów. Przez ten czas komunikacja pomiędzy użytkownikiem a systemami IT uległa znacznej zmianie. Dziś w wielu wypadkach użytkownik sam jest odpowiedzialny za wprowadzenie danych do systemów IT przedsiębiorstw/administracji. Na co dzień wypełniamy szereg webowych formularzy w banku, ubezpieczalni, sklepach internetowych i przy wielu innych okazjach. Jednak nadal formularze interaktywne nie zapewniają pełnej komunikacji z klientami. Zdarza się, że otrzymujemy formularze od wielu kontrahentów, jednak każdy jest zrealizowany w inny, nieznany sposób. Często gdy sprawa staje się mniej standardowa, lub gdy nie można z góry przewidzieć treści komunikatu konieczna staje się wymiana dokumentów niesformalizowanych, bez ściśle określonego układu danych, a nawet tego, jakie dane są podane na dokumencie. Wysyłamy e-maile z załącznikami, przesyłamy wydrukowane podania i inne dokumenty niesformalizowane. Wszystkie one muszą zostać wprowadzone do systemów IT, bo tylko w ten sposób możemy zapewnić sprawny obieg dokumentów i spraw. Zanim to się jednak stanie należy określić rodzaj otrzymanego komunikatu oraz wprowadzić niezbędne metadane.

FormAnalyzer RBEE, wykorzystując techniki sztucznej inteligencji (sieci neuronowe), zapewnia mechanizmy do automatycznej klasyfikacji dokumentów oraz identyfikacji i odczytu metadanych według uprzednio określonych zasad.

Funkcje systemu

Odczyt treści dokumentów

FormAnalyzer RBEE umożliwia odczyt szeregu formatów dokumentów elektronicznych takich jak:

  • Obrazy dokumentów – TIFF, JPEG, PNG, BMP, GIF w formie jedno i wielostronicowej
  • Dokumenty PDF
  • Dokumenty biurowe zgodne z formatami Microsoft Office oraz Open Office
  • Dokumenty tekstowe
  • Starsze formaty dokumentów źródłowych (WP, WS, WRI…)
  • Listy elektroniczne w formacie eml z uwzględnieniem ich treści, załączników oraz metadanych listu e-mail
  • Archiwa dokumentów – zip, arj, rar

Źródłem dokumentów do przetworzenia mogą być następujące kanały wprowadzania:

  • Interfejs web do ręcznej rejestracji dokumentów
  • Program FA RBEE Importer do rejestracji dokumentów z systemu plików
  • Moduł FA RBEE Connector do rejestracji dokumentów z bazy danych FormAnalyzer

W procesie odczytu treści dokumenty są normalizowane do postaci obrazu. Ich treść jest odczytywana przez automatyczne rozpoznawanie znaków drukowanych (OCR) lub analizowana przez pobieranie treści dokumentów biurowych lub pdf z zawartością tekstową.

System FormAnalyzer RBEE zapewnia zachowanie dokumentów źródłowych, ich odpowiedników w formie znormalizowanej oraz treści tekstowej kolejnych stron dokumentów.

Klasyfikacja dokumentów

Klasyfikacja dokumentów polega na przyporządkowaniu określonego typu dokumentu ze względu na jego zbieżność treściową (tekst) z dokumentami wzorcowymi. W przypadku gdy nie można jednoznacznie określić typu dokumentu lub gdy ufność określenia typu jest niewystarczająca dokument określony jest jako „inny”.

Klasyfikacji mogą być poddawane całe dokumenty lub można wydzielać dokumenty z przekazanych dokumentów złożonych.

Przykładowo: pojedynczy list e-mail może zawierać szereg załączników lub załączniki zawierające szereg dokumentów. Osoba przesyłająca wniosek o wypłatę świadczenia może załączyć wymagane dokumenty (polisa, wniosek, karta leczenia,…) w formie jednego pliku PDF lub wielu plików w różnych formatach. System automatycznie rozpozna typy przesłanych dokumentów i oznaczy je w zarejestrowanej przesyłce.

System FormAnalyzer RBEE umożliwia:

  • rejestrację dokumentów/przesyłek wzorcowych
  • rejestrację wzorcowej klasyfikacji dokumentów/przesyłek
  • szkolenie systemu na podstawie wybranych zbiorów treningowych
  • testowanie wyników utworzonych klasyfikatorów na podstawie
  • zbiorów dokumentów/przesyłek testowych

Odczyt metadanych

Odczyt metadanych polega na wyodrębnieniu określonych typów metadanych oraz przyporządkowaniu ich do wcześniej zdefiniowanych klas metadanych.

Standardowe typy metadanych to:

  1. data
  2. kwota
  3. liczba
  4. adres
  5. osoba
  6. PESEL/NIP/REGON
  7. ICD-9
  8. tekst

Klasa metadanych może zostać zdefiniowana poprzez podanie dodatkowych parametrów, takich jak:

  • Spodziewane położenie wystąpienia metadanych na stronie
  • Etykiety wiodące i ograniczające
  • Wzorce wyrażeń regularnych
  • Spodziewana liczba wystąpień
  • Słownik dozwolonych wartości

Dodatkowo, można określić wzorcowe dokumenty i wyniki wyszukiwania metadanych w celu przygotowania automatycznych klasyfikatorów. Zastosowanie sieci neuronowych do klasyfikacji metadanych pozwala na precyzyjne określenie, które odnalezione metadane należą do określonych klas metadanych.

Przykładowo, można zdefiniować metadane klasy „data przyjęcia” i „dat wypisu” (oba typu data) i przygotować klasyfikatory, które automatycznie - na podstawie przekazanych danych wzorcowych - odpowiednio zaklasyfikują odnalezione w tekście metadane typu data.

Weryfikacja metadanych

Weryfikacja metadanych polega na ręcznym sprawdzeniu przez operatorów zgodności znalezionych metadanych z rzeczywistymi danymi z obrazów dokumentów.

System dysponuje interfejsem web użytkownika prezentującym z jednej strony odnalezione metadane z drugiej obraz zarejestrowanego dokumentu.

FormAnalyzer FBEE Designer

Weryfikacja może być realizowana przez wielu operatorów jednocześnie, a system automatycznie przedstawia kolejne dokumenty do weryfikacji przez poszczególnych operatorów.

Zapis wyników przetwarzania

Wyniki przetwarzania dokumentów to:

  • Klasyfikacja i podział dokumentów/przesyłek źródłowych
  • Wyodrębnione i ewentualnie zweryfikowane metadane

Wyniki przetwarzania są zapisywane w bazie danych systemu FormAnalyzer RBEE i mogą być dostępne poprzez następujące kanały eksportu danych:

  • Eksport w postaci xml poprzez aplikację FA RBEE Exporter
  • Udostępnienie wyników poprzez interfejs WebApi

Projektowanie procesu przetwarzania

FormAnalyzer RBEE umożliwia definiowanie dowolnej liczby typów klasyfikowanych dokumentów (klasa lub typ dokumentu) ich zawartości (metadanych) oraz grupowania klas w projekty.

Projekt

Ze względu na źródła dokumentów, system FA RBEE pozwala podzielić możliwe klasy dokumentów na grupy zwane projektami. Taki podział ma ułatwić proces klasyfikacji dokumentów.

Przykładowo: wiemy, że będziemy przetwarzać dokumenty pochodzące od pacjentów szpitali oraz faktury różnych kontrahentów. Wiemy też, że jesteśmy w stanie w procesie odczytu treści dokumentów ustalić, do której grupy będzie należał nadchodzący dokument. Tworzymy więc dwa projekty – projekt „Dokumenty leczenia” oraz projekt „Faktury”. Uprości to system klasyfikacji, gdyż nie będzie wymagane odróżnienie ewentualnych faktur będących składowymi przesyłek „Dokumentów leczenia” od pozostałych „Faktur”.

FormAnalyzer RBEE Designer Projekty

Dla każdego projektu możemy zdefiniować zbiory dokumentów w celu przeprowadzenia trenowania klasyfikacji oraz testowania klasyfikatorów. Pozwala to na kontrolowanie jakości wykonywanych zadań.

FormAnalyzer RBEE zbiory przesyłek

Typ Dokumentu (szablon dokumentu)

FormAnalyzer RBEE umożliwia definiowanie dowolnej liczby typów dokumentów. Typy dokumentów należą do określonego projektu.

Typ dokumentu posiada nazwę, identyfikator GUID oraz definicję metadanych składowych. Dodatkowo można zdefiniować etykiety wyróżniające określony typ dokumentu.

FormAnalyzer RBEE Designer typ dokumentu

Dla typu dokumentów można zdefiniować zbiory dokumentów wzorcowych w celu trenowania i testowania systemu. Możliwe jest przeglądanie wyników przetwarzania dokumentów w zbiorze oraz prezentacja podsumowania wyników przetwarzania z automatycznie wyliczonymi wskaźnikami poprawności przetwarzania metadanych.

Metadane

System FormAnalyzer RBEE umożliwia definicję dowolnej liczby metadanych dokumentu.

Każda meta dana może być typu:

  1. data
  2. zakres dat (data od i data do)
  3. kwota
  4. liczba
  5. adres
  6. osoba
  7. PESEL/NIP/REGON
  8. tekst

Dodatkowo dostępne jest definiowanie następujących parametrów meta danej:

Nazwa

Nazwa meta danej. (może być zmieniana w czasie eksploatacji systemu gdyż metadane identyfikowane są po identyfikatorach typu GUID)

Położenie źródłowe

Lewo, Prawo, Góra, Dół – spodziewane położenie na stronie dokumentu definiowane bezwzględnie – piksele, cm, cale lub względnie % wielkości strony.

Szerokość, Wysokość – względne określony obszar wyszukiwania.

Położenie względem etykiet wartości.

Słownik dopuszczalnych wartości

Słownik wartości wraz z ewentualnym współczynnikiem rozmycia wartości.

Wzorce

Wzorce wyrażeń regularnych definiujących możliwe wartości meta danej.

Etykiety wartości Etykiety ograniczające

Zbiór etykiet (fraz) występujących przed lub po spodziewanej wartości meta danej. Etykiety mogą być podawane wraz z ich ewentualnym stopniem rozmycia. Podanie stopnia rozmycia ma uwzględniać ewentualne błędy OCR lub błędy nieścisłości źródłowych dokumentów.

Trening

Stosowane klasyfikatory neuronowe (klasyfikatory przygotowane na podstawie zbiorów dokumentów wzorcowych).

FormAnalyzer RBEE metadana

Metadana - definicja właściwości podstawowych

Licencjonowanie

Ze względu na licencjonowanie, system FormAnalyzer RBEE jest podzielony na następujące moduły:

Moduł Opis Przykładowy zakres licencj
OCR Service 2 Core - No-Limit Moduł OCR odczytu treści dokumentów. Wyniki odczytu treści – tekst OCR i dane o zauważonym obrocie stron (przekosie) są zapisywane w bazie danych systemu.​ Bez limitu stron. Ograniczenie przetwarzania na dwóch wątkach jednocześnie.
 OCR Service 1M/Y  Moduł OCR odczytu treści dokumentów. Wyniki odczytu treści – tekst OCR i dane o zauważonym obrocie stron (przekosie) są zapisywane w bazie danych systemu.  1 milion stron rocznie.
 TextExtractor  Moduł odczytu treści dokumentów elektronicznych msg, pdf, doc, docx, rtf. Wyniki odczytu treści – tekst i metadane są normalizowane i zapisywane w bazie danych systemu.  Bez limitu dokumentów.
1 Serwer do 8 wątków przetwarzania.
MetadataEngine Silnik wykonywania klasyfikacji i ekstrakcji metadanych na podstawie przygotowanych przez moduł projektowania konfiguracji. Wykorzystanie sieci neuronowych, metod statystycznych i probabilistycznych (NB, SVN, DT), analiza morfologiczna i statystyczna wypowiedzi. Bez limitu dokumentów.
1 Serwer do 8 wątków przetwarzania.
Designer Moduł projektowania, przetwarzania dokumentów, trenowania i statystyk. Bez limitu dokumentów.
1 Serwer do 8 wątków przetwarzania. Instalacja centralna web bez limitu użytkowników.
Verifier Moduł weryfikacji przez operatora metadanych z dokumentami źródłowymi i zasadami walidacji metadanych. Bez limitu dokumentów.
1 Serwer. Instalacja centralna web bez limitu użytkowników.
Exporter Moduł wykonywania grupowego eksportu danych z systemu FA RBEE do pików XML, CSV, TEXT oraz do kanałów danych własnych. Bez limitu dokumentów.
1 licencja pływająca aplikacji/serwisu.
Importer Moduł do przenoszenia danych i dokumentów z instancji FormAnalyzer 7.X oraz do importowania plików ze wskazanych wolumenów sieciowych. Automatyczny import dokumentów EML, ZIP, 7z, PDF, DOC, TIFF. JPEG i innych. Bez limitu dokumentów.
Dowolna konfiguracja modułu.

Arhat sp.z o.o.
ul. Antoniego Józefa Madalińskiego 23 lok.7 A
02-513 Warszawa, Polska

tel: +48-22-8491225
e-mail: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.

© 2020 Arhat. All rights reserved. Powered by Indico.pl