Projekt

Projekt to podstawowy kontener obiektów w systemie FormAnalyzer RBEE.

Każda przesyłka, dokument, definicja typu etc. należą do określonego projektu.

Żaden obiekt nie może należeć do więcej niż jednego projektu. Wyjątek stanowią obiektów zarządzania użytkownikami i zadaniami. Użytkownik, grupa użytkowników lub zadanie może być przypisane do więcej niż jednego projektu.

Można zdefiniować dowolnie wiele projektów.

Bezpośrednio projekt posiada następujące cechy:

nazwa

nazwa projektu – nie więcej niż 128 znaków. Projekty powinny mieć różne nazwy żeby korzystający z systemu operatorzy nie mylili projektów.

klasyfikator

aktualnie wybrany klasyfikator, którego celem jest automatyczne rozpoznawanie (klasyfikacja) dokumentów lub stron dokumentów co do ich przynależności do typów dokumentów zdefiniowanych w danym projekcie.

język

wskazanie języka, który ma być stosowany przez silnik OCR do rozpoznawania treści stron.

Tesseract

flaga oznaczająca, że przy wyodrębnianiu tekstu z podanych stron ma być użyty system Tesseract.
Uwaga Domyślnym silnikiem rozpoznawania treści OCR jest Kofax (Nuance) OmiPage. Stosowanie Kofax (Nuance) OmiPage wymaga odpowiedniej licencji.

Silnik (tryb) rozpoznawania Tesseract

wybierz jedną z możliwych wartości:,

  • OEM_DEFAULT - domyślny tryb rozpoznawania Tesseract. Może zależeć od ustawień w pliku konfiguracyjnym (patrz tessdata/configs).
  • OEM_TESSERACT_ONLY - tryb rozpoznawania Tesseract.
  • OEM_LSTM_ONLY - tryb rozpoznawania LSTM (rozpoznawanie linii tekstu)
  • OEM_TESSERACT_COMBINED - tryb rozpoznawania LSTM (rozpoznawanie linii tekstu) jednak gdy układ strony jest złożony włącz rozpoznawanie Tesseract
Segmentacja strony

Segmentacja strony to proces wyodrębnienia z obrazu strony obszarów zawierających tekst do rozpoznawania. Wybierz jedną z możliwych wartości:

  • PSM_OSD_ONLY - Wykonaj tylko rozpoznanie orientacji strony i skryptu.
  • PSM_AUTO_OSD - Automatyczna segmentacja strony z detekcją orientacji strony i przekosu. Rozpoznawanie OCR treści obszarów strony.
  • PSM_AUTO_ONLY - Wykonaj tylko automatyczną segmentacje strony. Brak OCR i OSD.
  • PSM_AUTO - Automatyczna segmentacja strony bez rozpoznawania orientacji OSD. Rozpoznawanie OCR treści obszarów strony.
  • PSM_SINGLE_COLUMN - Przyjmij, że strona zawiera pojedynczą kolumnę (jak książka) z tekstem różnego wymiaru.
  • PSM_SINGLE_BLOCK_VERT_TEXT - Przyjmij, że strona zawiera pojedynczą wertykalną kolumnę z tekstem różnego wymiaru.
  • PSM_SINGLE_BLOCK - Przyjmij, że strona zawiera pojedynczą i jednolitą kolumnę tekstu.
  • PSM_SINGLE_LINE - Przyjmij, że strona zawiera pojedynczą linię tekstu.
  • PSM_SINGLE_WORD - Przyjmij, że strona zawiera pojedynczy wyraz.
  • PSM_CIRCLE_WORD - Przyjmij, że strona zawiera pojedynczy wyraz otoczony kolistym rantem.
  • PSM_SPARSE_TEXT - Przyjmij, że strona zawiera rozrzucony tekst bez kontekstu. Postaraj się odnaleźć maksymalnie wiele słów.
  • PSM_SPARSE_TEXT_OSD - Wykonaj rozpoznanie orientacji/przekosu strony i skryptu oraz przyjmij, że strona zawiera rozrzucony tekst bez kontekstu. Postaraj się odnaleźć maksymalnie wiele słów.
id

techniczny identyfikator projektu (GUID). Wartość ID nie jest zazwyczaj przedstawiana operatorom ale zapewnia unikalność projektu oraz możliwość przenoszenia projektów pomiędzy instancjami RBEE.

FormAnalyzer RBEE projekt

Projekt zawiera następujące elementy:

Typy Dokumentów

lista dostępnych typów dokumentów, które definiują swoje zestawy metadanych i sposoby ich wyodrębniania (klasyfikacji) oraz walidacji.

Zbiory Przesyłek

zbiory przesyłek stosowane do trenowania i/lub testowania klasyfikacji przesyłek i ich treści do poszczególnych typów dokumentów.

Zbiory Dokumentów

zbiory dokumentów dla danego projektu stosujemy wtedy gdy nie przewidujemy sytuacji, że pojedyncza przesyłka może składać się z więcej niż jednego dokumentu. Zbiory Dokumentów, podobnie jak Zbiory Przesyłek, mogą służyć trenowaniu i/lub testowaniu klasyfikacji przesyłek jedno-dokumentowych do poszczególnych typów dokumentów.

Trenowanie

Lista wyników trenowania rozpoznawania (klasyfikacji) przynależności dokumentów i/lub stron przesyłek do określonych typów dokumentów.

Testowanie

Lista wyników testowania rozpoznawania (klasyfikacji) przynależności dokumentów i/lub stron przesyłek do określonych typów dokumentów.

FormAnalyzer RBEE Projekt Nirvana TUW

Tworzenie projektu

Tworzenie projektu RBEE rozpoczynamy od nadania mu nazwy i zarejestrowania go w systemie. W tym celu w interfejsie wybieramy ikonę "Projekty" i następnie tworzymy nowy projekt.

System FormAnalyzer RBEE służy do wiarygodnego i efektywnego klasyfikowania przesyłek i pozyskiwania metadanych.
Kolejne kroki w tworzeniu projektu będą miały na celu określenie sposobu klasyfikacji przesyłek oraz metod wyodrębniania metadanych z dokumentów.

Klasyfikacja przesyłek

Klasyfikacja przesyłek ma za zadanie określić, jakiego typu dokumenty zawiera przesyłka oraz gdzie w przesyłce się one znajdują.
Przykładowo otrzymujemy dokumentację wniosku o świadczenie. Spodziewamy się, że dokumentacja (przesyłka) będzie zawierać wypełniony formularz wniosku (skan podpisanego dokumentu lub pdf) oraz załączniki - faktury dokumentujące poniesione koszty. Wysyłający może dowolnie umieścić załączniki w liście e-mail lub w przesyłce pocztowej. Przesyłka może zawierać także inne niż wymagane dokumenty.

W celu realizacji przykładowego projektu musimy wykonać następujące kroki:

1. Zdefiniować w projekcie dwa typy dokumentów - Wniosek i Faktura.
Na początku nie musimy definiować metadanych tych typów dokumentów ani innych ich parametrów.

FormAnalyzer RBEE projekt typy dokumentów

2. Zebrać wiarygodny zbiór przesyłek, które posłużą nam do trenowania systemu klasyfikacji.

3. Utworzyć zbiór przesyłek - nadać mu nazwę i wybrać cel utworzenia - trenowanie i/lub testowanie. Nowy zbiór przesyłek tworzymy wybierając "Nowy zbiór przesyłek" po rozwinięciu zakładki projektu - "Zbiory Przesyłek".

FormAnalyzer RBEE nowy zbiór przesyłek

4. Zarejestrować w systemie zebrane przesyłki. Przy rejestracji wskazać nasz projekt oraz zbiór przesyłek. System odczyta treść przesyłek, znormalizuje dane (otworzy i odczyta załączniki, utworzy obrazy stron i treść tekstową) oraz początkowo uzna, że przekazane przesyłki są nieokreślonego typu.
Rejestracji nowych przesyłek można dokonać poprzez wybranie polecenia "upload" z głównego okna programu.

 

FormAnalyzer RBEE wysłanie dokumentu do OCR

5. Otworzyć zbiór przesyłek i ręcznie dokonać klasyfikacji typu dokumentów. Wskazać dokumenty będące typu "Wniosek" i typu "Faktura". Pozostałe strony przesyłek, nie będące ani częścią wniosku ani faktury pozostawić nieokreślone.
Klasyfikacji zawartości przesyłek i zapisania wzorca ich podziału dokonujemy poprzez:

  1. wybranie w liście zbiorów przesyłek przycisku przeglądu zbioru "dashboard"
  2. otwarcie edytora przesyłek "edit"
  3. dokonanie przeglądu i klasyfikacji przesyłek. Pamiętajmy o tym, że musimy w sposób spójny i dokładny oznaczać wszystkie dokumenty w przesyłce. Jeżeli przesyłka zawiera więcej niż jeden dokument określonego typu, to wszystkie powinny być odpowiednio oznaczone. Inaczej system klasyfikacji dostanie od nas niespójny (sprzeczny) komunikat - raz strona zawierająca fakturę jest określona jako faktura a raz jako nieistotna (nieoznaczony typ dokumentu).
  4. Po dokonaniu klasyfikacji zawartości przesyłek zbioru zapamiętujemy nasz wzorcowy podział przesyłek wybierając wszystkie przesyłki i przycisk "gwiazdka"
FormAnalyzer RBEE zbiór przesyłek

UWAGA zbiór przesyłek powinien zawierać wszystkie spodziewane typy dokumentów. Jeżeli później będziemy chcieli uzupełnić projekt o kolejne typy dokumentów, to musimy uzupełnić zbiór przesyłek służący trenowaniu klasyfikacji dokumentów o kolejne przesyłki i powtórzyć procedurę trenowania i zmienić klasyfikator projektu.

6. Utworzyć słownik cech (słów), które mają na posłużyć do klasyfikacji dokumentów i stron dokumentów.

  1. Na liście zbiorów przesyłek wybierz polecenie wyświetlenia listy słowników "spellcheck"
  2. Utwórz nowy słownik cech podając jego nazwę oraz parametry doboru słów.
    Przykładowo ustal, że słownik ma zawierać 10% najczęściej pojawiających się słów, mają zostać pominięte słowa typowe (i, ale, lecz, że...) oraz, że system ma brać pod uwagę odmianę fleksyjną słów (jabłko to samo co jabłku, jabłkiem...).
    Wybierając klawisz "Zapisz" inicjujesz proces utworzenia słownika. Serwer systemu RBEE przejrzy wszystkie przesyłki wskazanego zbioru i utworzy odpowiedni słownik - może to potrwać parę minut albo dłużej, w zależności od wielkości zbioru.
  3. Przejrzyj utworzony słownik i dodaj albo usuń słowa (cechy) słownika

7. Wykonać trenowanie klasyfikacji rozpoznawania przesyłek/dokumentów.

W tym celu, w liście zbiorów przesyłek, wybierz polecenie "settings_input_composite". Ustaw nazwę klasyfikatora, słownik (cechy) i rozpocznij trenowanie.

UWAGA Jeżeli w zbiorze przesyłek będzie brakowało dokumentów jednego lub więcej typów to trenowanie zakończy się błędem! Nie można uczyć systemu klasyfikacji nie podając mu kompletnego zestawu przykładów.

Informacja Więcej informacji o trenowaniu klasyfikacji możliwych
parametrach i ogólnej zasadzie działania sieci NN znajdziesz w artykule pomocy dostępnym po otwarciu konfigurowania procesu treningu.

8. Podłączyć wykonany klasyfikator rozpoznawania przesyłek/dokumentów do projektu.

Wskaż wybrany klasyfikator w oknie edycji projektu:

FormAnalyzer RBEE Projekt klasyfikator

Arhat sp.z o.o.
ul. Antoniego Józefa Madalińskiego 23 lok.7 A
02-513 Warszawa, Polska

tel: +48-22-8491225
e-mail: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.

© 2020 Arhat. All rights reserved. Powered by Indico.pl