system digitalizacji dokumentów i wprowadzania danych z dokumentów papierowych

Przedstawiamy Państwu system FormAnalyzer, służący do odczytu treści dokumentów papierowych. Funkcjonalność systemu rozwijana jest na podstawie rzeczywistych potrzeb instytucji, na rzecz których system pracuje w Polsce i w USA. W trakcie wieloletniej eksploatacji okazało się, że cechy podstawowe systemów ICR takie jak skuteczność rozpoznawania, duża przepustowość, możliwość implementowania walidacji kontrolujących poprawność danych itp. to dopiero warunki minimalne efektywnego przetwarzania masowych ilości dokumentów.

Do skutecznego wdrożenia systemu ICR potrzeba jeszcze aby system dobrze wspierał organizację pracy wokół problemów trudnych, takich jak np. obsługa dokumentów błędnych formalnie (zwykle dokumenty takie muszą zostać wyjaśnione lub poprawione) lub rzeczywisty mechanizm nadzoru i kontroli jakości pracy operatorów systemu. Dotychczasowe doświadczenia pokazują również, że podobne problemy muszą być rozwiązane innymi metodami w różnych instytucjach. O różnicach decyduje zwykle zawartość merytoryczna i znaczenie samych dokumentów, ale również charakter i organizacja pracy danej instytucji. ARHAT na bieżąco śledzi potrzeby rynku i sukcesywnie rozwija funkcjonalność systemu. W swojej wieloletniej historii FormAnalyzer osiągnął kilka znaczących sukcesów. Podczas reformy emerytalnej system przetworzył 80% wszystkich wniosków o uczestnictwo w funduszach emerytalnych. Niektóre instalacje przetwarzały 100 000 takich wniosków na dobę (wniosek był wielostronicowym dokumentem wypełnionym pismem ręcznym). Innym znaczącym sukcesem była instalacja w USA, gdzie przy wyborze systemu porównywano faktyczną skuteczność rozpoznawania. Porównaniu podlegały wszystkie liczące się rozwiązania. Wygrał FormAnalyzer. Współpraca z amerykańskim partnerem trwa - w krótkim czasie system powinien zyskać wiele nowych referencji.

O pozycji FormAnalyzer'a na rynku decydują następujące zalety:

  • sprawdzona jakość systemu,
  • krótki czas wdrożenia,
  • możliwość dostosowania systemu do specyficznych potrzeb klientów.
Podstawowe zalety
systemu FormAnalyzer to:

Skuteczność - system rozpoznaje pismo ręczne, maszynowe, kody kreskowe i pola wyboru. Mechanizmy rozpoznawania są wspomagane szeregiem algorytmów, z których najważniejsze to wspomaganie słownikowe, trigramy i połączenie z zewnętrznymi bazami danych.

Szybkość - oprogramowanie nie zawiera sztucznych ograniczeń prędkości działania, licencje nie zależą od liczby przetwarzanych dokumentów.

Bezpieczeństwo- jądrem systemu pozostaje stabilna, transakcyjna baza danych, dostęp do systemu mają wyłącznie autoryzowani użytkownicy.

Poprawność- odczytywane dane kontrolowane są za pomocą procedur walidacyjnych, sprawdzających ich zgodnośćz założeniami merytorycznymi.

Skalowalność- w jednej instalacji systemu może działać wiele stacji roboczych tego samego typu, praca pomiędzy nimi jest równomiernie rozkładana przez system.

Elastyczność- mechanizm definiowania dokumentu w systemie umożliwia opisanie praktycznie każdego rodzaju dokumentu.

Niezawodność- we wszystkich uruchomionych instalacjach system pracuje bezawaryjnie od lat.

Niskie koszty eksploatacji

 

Nowości najnowszej, siódmej wersji systemu FormAnalyzer, dotyczą przede wszystkim jakości otrzymywanych danych i dynamicznego zarządzania pracą systemu. Poniżej wymieniamy wybrane nowe cechy i funkcje systemu:

Silnik bazy danych - wymienione zostało jądro systemu, jego centralna baza danych, ma nową technologicznie wersję, która współpracuje z najnowszymi rozwiązaniami ochrony, bezpieczeństwa i niezawodności danych.

Jakość danych - wprowadzono dodatkowe mechanizmy poprawiające jakość danych:
zatwierdzanie: wybrane pola lub cały dokument mogą być skierowane do zatwierdzenia przez uprawnionego użytkownika, o ile treść danych spełnia zadany warunek, np.wartość przelewu jest większa od ustalonej kwoty;
arbitraż: wybrane dane lub całe dokumenty mogą być weryfikowane niezależnie przez dwie osoby, jeśli wynik ich pracy jest różny, dane trafiają do arbitra, który rozstrzyga o zawartości wskazanych pól.

Zarządzanie - w systemie pojawił się nowy moduł, FormAnalyzer ProductionManager, za pomocą którego steruje się zarówno działaniem systemu jak i obsługujących go pracowników:
definiowanie przepływu dokumentu przez system w zależności od jego typu i odczytanych treści:
- z automatycznym rozpoznawaniem lub bez;
- bez weryfikacji, normalna weryfikacja, weryfikacja z zatwierdzaniem,weryfikacja z arbitrażem;

zarządzanie pracą:

  • przydzielanie pracownikom praw do przetwarzania konkretnych typów dokumentów;
  • określanie roli pracowników w systemie, w szczególności dla stacji weryfikacji będą to: weryfikator, zatwierdzający, arbiter, kierownik, kontroler jakości pracy;
  • śledzenie bieżącego stanu systemu tj. ilości aktualnie przetwarzanych w systemie dokumentów, z podziałem na ich typ i stan w którym się znajdują;
  • statystyki okresowe z ilości i efektywności przetworzonych dokumentów, z podziałem na poszczególnych pracowników;

administracja - rejestracja nowych definicji dokumentów w systemie.

Jakość pracy - wprowadzono postać kontrolera jakości pracy weryfikatorów. Osoba o takim uprawnieniu ma możliwość sprawdzania liczby pomyłek każdego z pracowników weryfikacji i wystawiania im ocen z jakości pracy (na wielu rodzajach pól nie sposób określić algorytmu poprawności, np. pole).

Skanowanie - ulepszono proces skanowania dokumentów poprzez:

  • zaimplementowanie programowego wykrywania kodów kreskowych na stacji skanowania;
  • uelastycznienie definicji pojedynczego dokumentu na stacji skanowania z punktu widzenia tej stacji dokument jest sekwencją obrazów otrzymywanych ze skanera. Definicja, o której tu mowa, pozwala na masowe, ciągłe skanowanie różnych dokumentów w pojedynczym wsadzie. Oznacza to możliwość optymalnego wykorzystania prędkości posiadanego skanera;
  • stacja skanująca ma możliwość współpracy z najnowszym oprogramowaniem firmy PixelTranslation© do dynamicznej korekty graficznej uzyskiwanych ze skanera obrazów dokumentów;
  • sterowanie nadrukiem wykonywanym przez wewnętrzną drukarkę skanera (endorser lub imprinter).

Rozproszenie - w tej wersji systemu pojawiły się moduły zdalnego skanowania i transmisji dokumentów z oddziałów terenowych do centrali i zwrotnej transmisji wymaganej informacji do odległej stacji skanującej. Odległa stacja skanująca jest konfigurowana, diagnozowana i aktualizowana automatycznie z centrali. Od operatora wymaga się znajomości obsługi skanera, która jest porównywalna do obsługi kserokopiarki. Skanowane dokumenty są transmitowane automatycznie lub na żądanie do centrali, gdzie są odczytywane. Do stacji skanującej wraca informacja np. o wykrytych błędach formalnych w treści dokumentów. Ponadto wracają tam dane statystyczne o ilości i typach dokumentów. Po dostosowaniu do indywidualnych potrzeb można również przesyłać wybrane lub wszystkie dane z dokumentów. Stacja skanująca wyposażona jest w moduł generowania okresowych raportów statystycznych.

Działanie systemu FormAnalyzer FormAnalyzer jest modularnym systemem przeznaczonym do masowego przetwarzania dokumentów. Dokumenty przechodzą przez kolejne fazy przetwarzania. Każda z faz jest obsługiwana przez wyspecjalizowany moduł systemu. Natomiast przejście dokumentów pomiędzy fazami jest w pełni automatyczne. Do każdej z faz przetwarzania dokumentów można przeznaczyć odpowiednią liczbę równolegle pracujących modułów. Ich ilość i rodzaj jest dobierany w zależności od potrzeb użytkowników, takich jak wymagana przepustowość systemu, cechy charakterystyczne dokumentów czy też wymagania logistyczne.

 

Podstawowa linia produkcyjna to zestaw modułów realizujących odczyt dokumentów w centrum przetwarzania dokumentów. Odczyt dokumentu jest procesem składającym się z następujących faz: skanowania, kontroli jakości obrazu, automatycznego rozpoznawania treści, weryfikacji i eksportu uzyskanych danych.

Stację konfigurowania służącą do definiowania i modyfikowania szablonów przetwarzania każdego rodzaju dokumentu.
Stację zarządzania służącą do określania sposobu przetwarzania każdego dokumentu, przydzielania użytkownikom praw do rodzajów dokumentów, śledzenia bieżącej liczby dokumentów w systemie i stanu, w jakim się znajdują, generowania okresowych statystyk ilościowych.
Zdalne stacje skanowania wraz z modułem komunikacyjnym służące do skanowania dokumentów w oddziałach terenowych, ich transmisję do centrum przetwarzania dokumentów i transmisję wyników do oddziału.

Moduły
systemu
FormAnalyzer

System składa się z następujących modułów:

FormAnalyzer Scan&Admin - skanowanie i administracja

FormAnalyzer Engine - automatyczne rozpoznawanie (OCR/ICR, kody kreskowe)

FormAnalyzer Verifier - weryfikacja rozpoznania, kontrola jakości

FormAnalyzer Database - baza systemu (integralny składnik systemu)

FormAnalyzer Export - eksport danych wynikowych

FormAnalyzer Designer - definiowanie szablonów przetwarzania i ekranów weryfikacji

FormAnalyzer ProductionManager - zarządzanie i administracja

FormAnalyzer Scan - skanowanie dokumentów w zdalnych ośrodkach

FormAnalyzer Listener - transmisja obrazów ze zdalnych ośrodków

FormAnalyzer Scan&Admin

- moduł realizuje funkcje skanowania i administracji systemem. Funkcja skanowania zapewnia obsługę wszystkich dostępnych urządzeń skanujących (interfejs ISIS), automatyczne programowe rozpoznawanie kodów kreskowych i programową poprawę jakości skanowanego obrazu. Separacja dokumentów z ciągu skanowanych kartek możliwa jest za pomocą kilku różnych algorytmów. W procesie skanowania możliwe jest określenie typu skanowanych dokumentów i automatyczne inicjowanie zdefiniowanego (FA Production Manager) obiegu przetwarzania dokumentu. Funkcja administrowania zapewnia realizację wszystkich zadań administratora systemu, w tym zarządzanie użytkownikami, dokumentami, szablonami przetwarzania oraz generowanie wymaganych statystyk i raportów. - realizuje automatyczny odczyt treści dokumentów. Rozpoznaje pismo maszynowe, pismo ręczne, kody kreskowe i pola wyboru.

FormAnalyzer Engine

Wynikiem rozpoznawania tekstu źródłowego jest zbiór rozpoznanych liter. Dla każdej zidentyfikowanej litery tworzony jest zestaw najbardziej prawdopodobnych znaków jej odpowiadających. Przykładowo dla źródłowej litery możliwy wynik rozpoznania znaku to „h” lub „n”.Wynik rozpoznawania jest oceniany przez system za pomocą trigramów. Trigramy zawierają statystyczną wiedzę o prawdopodobieństwie występowania kombinacji kolejnych liter w słowach danego języka naturalnego lub jego podzbioru. Zestawy trigramów można i należy zawężać do określonych podzbiorów słów. Standardowo w systemie zaimplementowane są trigramy dla imion, nazwisk, miejscowości i ulic. Kolejnym etapem jest ocena słownikowa, która polega na znalezieniu w słowniku wyrazu najbliższego rozpoznanemu ciągowi liter.

FormAnalyzer Verifier

- moduł weryfikacji wyników automatycznego rozpoznania. Operatorzy widząc wynik rozpoznania i obraz dokumentu korygują ewentualne błędy rozpoznania. Ich praca jest nad zorowana przez procedury walidacji danych, zaimplementowane indywidualnie dla każdego typu dokumentu. Ponieważ nie zawsze możliwe jest określenie algorytmu sprawdzającego poprawność danych, w module Verifier przewidziano dodatkowe sposoby uzyskania bezbłędnych danych. Wprowadzono specjalne uprawnienia dla użytkowników, którzy mogą realizować specjalistyczne funkcje. I tak użytkownik z prawami zatwierdzającego ma prawo do sprawdzenia i zatwierdzenia szczególnie istotnych danych wprowadzonych przez operatora podstawowej weryfikacji. Arbiter rozstrzyga różnice między danymi wprowadzonymi na różnych stanowiskach weryfikacji. Kierownik decyduje o przypisaniu właściwego szablonu dokumentów, których system (moduł Engine) nie potrafił rozpoznać. Kontroler jest osobą mającą uprawnienia do wyrywkowej kontroli jakości wyników pracy pozostałych operatorów. 

FormAnalyzer Export

- moduł służący do zapisania odczytanych danych do plików tekstowych o ustalonej strukturze. Dane eksportowane mogą być co określony czas lub na żądanie operatora. Dane z różnych rodzajów dokumentów mogą być umieszczane w jednym lub rozłącznych zbiorach eksportowych.

FormAnalyzer Designer

- za pomocą tego modułu definiuje się szablony przetwarzania dokumentów przez cały system. Definicja szablonu dokumentu określa z czego dokument się składa, jak rozpoznać jego typ, jakie informacje zawiera i gdzie są one umieszczone, jakie reguły poprawności rządzą tymi informacjami, jaka ma być struktura pliku eksportowego. Te skrótowo wyliczone możliwości przekładają się na setki funkcji i opcji odpowiadających najróżniejszym konfiguracjom informacji na rzeczywistym dokumencie.

FormAnalyzer ProductionManager

- moduł przeznaczony do bieżącego monitorowania i zarządzania pracą operatorów na stanowiskach produkcyjnych systemu. Zarządzanie odbywa się poprzez tworzenie zadań i przydzielanie ich użytkownikom. Zadaniem jest zbiór szablonów dokumentów wraz z definicją sposobu ich przetwarzania.W ten sposób możliwe jest np. ograniczanie dostępu do treści dokumentów albo skierowanie wysiłku zespołu operatorów na konkretny rodzaj dokumentu, którego przetworzenie jest w danej chwili priorytetowe. Określenie sposobu przetwarzania dokumentu pozwala na zdefiniowanie kolejnych kroków przez jakie musi przejść dokument, np. zatwierdzanie szczególnie istotnych pól przez uprawnioną osobę, o ile wartość pola spełnia podany warunek logiczny. FA ProductionManager umożliwia monitorowanie ile dokumentów i jakiego typu oczekuje na przetwarzanie. Dzięki temu możliwa jest elastyczna reakcja zarządzającego na ewentualne chwilowe spiętrzenia pracy.

FormAnalyzer Scan

- moduł przeznaczony do obsługi stacji skanującej w odległej jednostce terenowej. Jego podstawową funkcją jest skanowanie dokumentów i ich transmisja do Centrali. Transmisja zeskanowanych obrazów dokumentów wykorzystuje sieć TCP/IP i ogólnodostępne protokoły komunikacyjne (HTTP, SOAP, WSDL). Ze względu na miejsce eksploatacji - odległe jednostki terenowe- moduł ten jest szczególnie prosty do instalacji i codziennej obsługi. Wyeliminowano czynności administracyjne, których dokonuje się z instalacji centralnej. Dodatkową zaletą tego modułu jest funkcja generowania okresowych statystyk, umożliwiających rozliczanie okresowej pracy. Generowane przekroje statystyczne można dostosować do konkretnych realiów i potrzeb instytucji.

FormAnalyzer Listener

- moduł komunikacyjny, zainstalowany w centrali i odpowiadający za komunikację z oddziałami terenowymi (FAScan). Administrator centrali ma możliwość sterowania komunikacją poprzez włączanie i wyłączanie kanałów transmisyjnych. Za pomocą tego modułu rozsyłane są do oddziałów terenowych modyfikacje oprogramowania lub zmiany w jego konfiguracji. Możliwe jest również zdalne zdiagnozowanie stanu odległej stacji skanującej. Wszystko po to, aby w oddziale nie było potrzeby angażowania wysoko wykwalifikowanej kadry informatycznej.