Projekt
Projekt to podstawowy kontener obiektów w systemie FormAnalyzer RBEE.
Każda przesyłka, dokument, definicja typu etc. należą do określonego projektu.
Żaden obiekt nie może należeć do więcej niż jednego projektu. Wyjątek stanowią obiektów zarządzania użytkownikami i zadaniami. Użytkownik, grupa użytkowników lub zadanie może być przypisane do więcej niż jednego projektu.
Można zdefiniować dowolnie wiele projektów.
Bezpośrednio projekt posiada następujące cechy:
nazwa | nazwa projektu – nie więcej niż 128 znaków. Projekty powinny mieć różne nazwy żeby korzystający z systemu operatorzy nie mylili projektów. |
klasyfikator | aktualnie wybrany klasyfikator, którego celem jest automatyczne rozpoznawanie (klasyfikacja) dokumentów lub stron dokumentów co do ich przynależności do typów dokumentów zdefiniowanych w danym projekcie. |
język | wskazanie języka, który ma być stosowany przez silnik OCR do rozpoznawania treści stron. |
Tesseract | flaga oznaczająca, że przy wyodrębnianiu tekstu z podanych stron ma być użyty system Tesseract. |
Silnik (tryb) rozpoznawania Tesseract | wybierz jedną z możliwych wartości:,
|
Segmentacja strony | Segmentacja strony to proces wyodrębnienia z obrazu strony obszarów zawierających tekst do rozpoznawania. Wybierz jedną z możliwych wartości:
|
id | techniczny identyfikator projektu (GUID). Wartość ID nie jest zazwyczaj przedstawiana operatorom ale zapewnia unikalność projektu oraz możliwość przenoszenia projektów pomiędzy instancjami RBEE. |
Projekt zawiera następujące elementy:
Typy Dokumentów | lista dostępnych typów dokumentów, które definiują swoje zestawy metadanych i sposoby ich wyodrębniania (klasyfikacji) oraz walidacji. |
Zbiory Przesyłek | zbiory przesyłek stosowane do trenowania i/lub testowania klasyfikacji przesyłek i ich treści do poszczególnych typów dokumentów. |
Zbiory Dokumentów | zbiory dokumentów dla danego projektu stosujemy wtedy gdy nie przewidujemy sytuacji, że pojedyncza przesyłka może składać się z więcej niż jednego dokumentu. Zbiory Dokumentów, podobnie jak Zbiory Przesyłek, mogą służyć trenowaniu i/lub testowaniu klasyfikacji przesyłek jedno-dokumentowych do poszczególnych typów dokumentów. |
Trenowanie | Lista wyników trenowania rozpoznawania (klasyfikacji) przynależności dokumentów i/lub stron przesyłek do określonych typów dokumentów. |
Testowanie | Lista wyników testowania rozpoznawania (klasyfikacji) przynależności dokumentów i/lub stron przesyłek do określonych typów dokumentów. |
Tworzenie projektu RBEE rozpoczynamy od nadania mu nazwy i zarejestrowania go w systemie. W tym celu w interfejsie wybieramy ikonę "Projekty" i następnie tworzymy nowy projekt.
System FormAnalyzer RBEE służy do wiarygodnego i efektywnego klasyfikowania przesyłek i pozyskiwania metadanych.
Kolejne kroki w tworzeniu projektu będą miały na celu określenie sposobu klasyfikacji przesyłek oraz metod wyodrębniania metadanych z dokumentów.
Klasyfikacja przesyłek ma za zadanie określić, jakiego typu dokumenty zawiera przesyłka oraz gdzie w przesyłce się one znajdują.
Przykładowo otrzymujemy dokumentację wniosku o świadczenie. Spodziewamy się, że dokumentacja (przesyłka) będzie zawierać wypełniony formularz wniosku (skan podpisanego dokumentu lub pdf) oraz załączniki - faktury dokumentujące poniesione koszty. Wysyłający może dowolnie umieścić załączniki w liście e-mail lub w przesyłce pocztowej. Przesyłka może zawierać także inne niż wymagane dokumenty.
W celu realizacji przykładowego projektu musimy wykonać następujące kroki:
1. Zdefiniować w projekcie dwa typy dokumentów - Wniosek i Faktura.
Na początku nie musimy definiować metadanych tych typów dokumentów ani innych ich parametrów.
2. Zebrać wiarygodny zbiór przesyłek, które posłużą nam do trenowania systemu klasyfikacji.
3. Utworzyć zbiór przesyłek - nadać mu nazwę i wybrać cel utworzenia - trenowanie i/lub testowanie. Nowy zbiór przesyłek tworzymy wybierając "Nowy zbiór przesyłek" po rozwinięciu zakładki projektu - "Zbiory Przesyłek".
4. Zarejestrować w systemie zebrane przesyłki. Przy rejestracji wskazać nasz projekt oraz zbiór przesyłek. System odczyta treść przesyłek, znormalizuje dane (otworzy i odczyta załączniki, utworzy obrazy stron i treść tekstową) oraz początkowo uzna, że przekazane przesyłki są nieokreślonego typu.
Rejestracji nowych przesyłek można dokonać poprzez wybranie polecenia "upload" z głównego okna programu.
5. Otworzyć zbiór przesyłek i ręcznie dokonać klasyfikacji typu dokumentów. Wskazać dokumenty będące typu "Wniosek" i typu "Faktura". Pozostałe strony przesyłek, nie będące ani częścią wniosku ani faktury pozostawić nieokreślone.
Klasyfikacji zawartości przesyłek i zapisania wzorca ich podziału dokonujemy poprzez:
UWAGA zbiór przesyłek powinien zawierać wszystkie spodziewane typy dokumentów. Jeżeli później będziemy chcieli uzupełnić projekt o kolejne typy dokumentów, to musimy uzupełnić zbiór przesyłek służący trenowaniu klasyfikacji dokumentów o kolejne przesyłki i powtórzyć procedurę trenowania i zmienić klasyfikator projektu.
6. Utworzyć słownik cech (słów), które mają na posłużyć do klasyfikacji dokumentów i stron dokumentów.
7. Wykonać trenowanie klasyfikacji rozpoznawania przesyłek/dokumentów.
W tym celu, w liście zbiorów przesyłek, wybierz polecenie "settings_input_composite". Ustaw nazwę klasyfikatora, słownik (cechy) i rozpocznij trenowanie.
UWAGA Jeżeli w zbiorze przesyłek będzie brakowało dokumentów jednego lub więcej typów to trenowanie zakończy się błędem! Nie można uczyć systemu klasyfikacji nie podając mu kompletnego zestawu przykładów.
Informacja Więcej informacji o trenowaniu klasyfikacji możliwych
parametrach i ogólnej zasadzie działania sieci NN znajdziesz w artykule pomocy dostępnym po otwarciu konfigurowania procesu treningu.
8. Podłączyć wykonany klasyfikator rozpoznawania przesyłek/dokumentów do projektu.
Wskaż wybrany klasyfikator w oknie edycji projektu:
Arhat sp.z o.o.
ul. Antoniego Józefa Madalińskiego 23 lok.7 A
02-513 Warszawa, Polska
tel: +48-22-8491225
e-mail: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
© 2020 Arhat. All rights reserved. Powered by Indico.pl