Projekt
Projekt to podstawowy kontener obiektów w systemie FormAnalyzer RBEE.
Każda przesyłka, dokument, definicja typu etc. należą do określonego projektu.
Żaden obiekt nie może należeć do więcej niż jednego projektu. Wyjątek stanowią obiektów zarządzania użytkownikami i zadaniami. Użytkownik, grupa użytkowników lub zadanie może być przypisane do więcej niż jednego projektu.
Można zdefiniować dowolnie wiele projektów.
Bezpośrednio projekt posiada następujące cechy:
nazwa | nazwa projektu – nie więcej niż 128 znaków. Projekty powinny mieć różne nazwy żeby korzystający z systemu operatorzy nie mylili projektów. |
klasyfikator | aktualnie wybrany klasyfikator, którego celem jest automatyczne rozpoznawanie (klasyfikacja) dokumentów lub stron dokumentów co do ich przynależności do typów dokumentów zdefiniowanych w danym projekcie. |
język | wskazanie języka, który ma być stosowany przez silnik OCR do rozpoznawania treści stron. |
Tesseract | flaga oznaczająca, że przy wyodrębnianiu tekstu z podanych stron ma być użyty system Tesseract. |
Silnik (tryb) rozpoznawania Tesseract | wybierz jedną z możliwych wartości:,
|
Segmentacja strony | Segmentacja strony to proces wyodrębnienia z obrazu strony obszarów zawierających tekst do rozpoznawania. Wybierz jedną z możliwych wartości:
|
id | techniczny identyfikator projektu (GUID). Wartość ID nie jest zazwyczaj przedstawiana operatorom ale zapewnia unikalność projektu oraz możliwość przenoszenia projektów pomiędzy instancjami RBEE. |
Projekt zawiera następujące elementy:
Typy Dokumentów | lista dostępnych typów dokumentów, które definiują swoje zestawy metadanych i sposoby ich wyodrębniania (klasyfikacji) oraz walidacji. |
Zbiory Przesyłek | zbiory przesyłek stosowane do trenowania i/lub testowania klasyfikacji przesyłek i ich treści do poszczególnych typów dokumentów. |
Zbiory Dokumentów | zbiory dokumentów dla danego projektu stosujemy wtedy gdy nie przewidujemy sytuacji, że pojedyncza przesyłka może składać się z więcej niż jednego dokumentu. Zbiory Dokumentów, podobnie jak Zbiory Przesyłek, mogą służyć trenowaniu i/lub testowaniu klasyfikacji przesyłek jedno-dokumentowych do poszczególnych typów dokumentów. |
Trenowanie | Lista wyników trenowania rozpoznawania (klasyfikacji) przynależności dokumentów i/lub stron przesyłek do określonych typów dokumentów. |
Testowanie | Lista wyników testowania rozpoznawania (klasyfikacji) przynależności dokumentów i/lub stron przesyłek do określonych typów dokumentów. |
Tworzenie projektu
Tworzenie projektu RBEE rozpoczynamy od nadania mu nazwy i zarejestrowania go w systemie. W tym celu w interfejsie wybieramy ikonę "Projekty" i następnie tworzymy nowy projekt.
System FormAnalyzer RBEE służy do wiarygodnego i efektywnego klasyfikowania przesyłek i pozyskiwania metadanych.
Kolejne kroki w tworzeniu projektu będą miały na celu określenie sposobu klasyfikacji przesyłek oraz metod wyodrębniania metadanych z dokumentów.
Klasyfikacja przesyłek
Klasyfikacja przesyłek ma za zadanie określić, jakiego typu dokumenty zawiera przesyłka oraz gdzie w przesyłce się one znajdują.
Przykładowo otrzymujemy dokumentację wniosku o świadczenie. Spodziewamy się, że dokumentacja (przesyłka) będzie zawierać wypełniony formularz wniosku (skan podpisanego dokumentu lub pdf) oraz załączniki - faktury dokumentujące poniesione koszty. Wysyłający może dowolnie umieścić załączniki w liście e-mail lub w przesyłce pocztowej. Przesyłka może zawierać także inne niż wymagane dokumenty.
W celu realizacji przykładowego projektu musimy wykonać następujące kroki:
1. Zdefiniować w projekcie dwa typy dokumentów - Wniosek i Faktura.
Na początku nie musimy definiować metadanych tych typów dokumentów ani innych ich parametrów.
2. Zebrać wiarygodny zbiór przesyłek, które posłużą nam do trenowania systemu klasyfikacji.
3. Utworzyć zbiór przesyłek - nadać mu nazwę i wybrać cel utworzenia - trenowanie i/lub testowanie. Nowy zbiór przesyłek tworzymy wybierając "Nowy zbiór przesyłek" po rozwinięciu zakładki projektu - "Zbiory Przesyłek".
4. Zarejestrować w systemie zebrane przesyłki. Przy rejestracji wskazać nasz projekt oraz zbiór przesyłek. System odczyta treść przesyłek, znormalizuje dane (otworzy i odczyta załączniki, utworzy obrazy stron i treść tekstową) oraz początkowo uzna, że przekazane przesyłki są nieokreślonego typu.
Rejestracji nowych przesyłek można dokonać poprzez wybranie polecenia "upload" z głównego okna programu.
5. Otworzyć zbiór przesyłek i ręcznie dokonać klasyfikacji typu dokumentów. Wskazać dokumenty będące typu "Wniosek" i typu "Faktura". Pozostałe strony przesyłek, nie będące ani częścią wniosku ani faktury pozostawić nieokreślone.
Klasyfikacji zawartości przesyłek i zapisania wzorca ich podziału dokonujemy poprzez:
- wybranie w liście zbiorów przesyłek przycisku przeglądu zbioru "dashboard"
- otwarcie edytora przesyłek "edit"
- dokonanie przeglądu i klasyfikacji przesyłek. Pamiętajmy o tym, że musimy w sposób spójny i dokładny oznaczać wszystkie dokumenty w przesyłce. Jeżeli przesyłka zawiera więcej niż jeden dokument określonego typu, to wszystkie powinny być odpowiednio oznaczone. Inaczej system klasyfikacji dostanie od nas niespójny (sprzeczny) komunikat - raz strona zawierająca fakturę jest określona jako faktura a raz jako nieistotna (nieoznaczony typ dokumentu).
- Po dokonaniu klasyfikacji zawartości przesyłek zbioru zapamiętujemy nasz wzorcowy podział przesyłek wybierając wszystkie przesyłki i przycisk "gwiazdka"
UWAGA zbiór przesyłek powinien zawierać wszystkie spodziewane typy dokumentów. Jeżeli później będziemy chcieli uzupełnić projekt o kolejne typy dokumentów, to musimy uzupełnić zbiór przesyłek służący trenowaniu klasyfikacji dokumentów o kolejne przesyłki i powtórzyć procedurę trenowania i zmienić klasyfikator projektu.
6. Utworzyć słownik cech (słów), które mają na posłużyć do klasyfikacji dokumentów i stron dokumentów.
- Na liście zbiorów przesyłek wybierz polecenie wyświetlenia listy słowników "spellcheck"
- Utwórz nowy słownik cech podając jego nazwę oraz parametry doboru słów.
Przykładowo ustal, że słownik ma zawierać 10% najczęściej pojawiających się słów, mają zostać pominięte słowa typowe (i, ale, lecz, że...) oraz, że system ma brać pod uwagę odmianę fleksyjną słów (jabłko to samo co jabłku, jabłkiem...).
Wybierając klawisz "Zapisz" inicjujesz proces utworzenia słownika. Serwer systemu RBEE przejrzy wszystkie przesyłki wskazanego zbioru i utworzy odpowiedni słownik - może to potrwać parę minut albo dłużej, w zależności od wielkości zbioru. - Przejrzyj utworzony słownik i dodaj albo usuń słowa (cechy) słownika
7. Wykonać trenowanie klasyfikacji rozpoznawania przesyłek/dokumentów.
W tym celu, w liście zbiorów przesyłek, wybierz polecenie "settings_input_composite". Ustaw nazwę klasyfikatora, słownik (cechy) i rozpocznij trenowanie.
UWAGA Jeżeli w zbiorze przesyłek będzie brakowało dokumentów jednego lub więcej typów to trenowanie zakończy się błędem! Nie można uczyć systemu klasyfikacji nie podając mu kompletnego zestawu przykładów.
Informacja Więcej informacji o trenowaniu klasyfikacji możliwych
parametrach i ogólnej zasadzie działania sieci NN znajdziesz w artykule pomocy dostępnym po otwarciu konfigurowania procesu treningu.
8. Podłączyć wykonany klasyfikator rozpoznawania przesyłek/dokumentów do projektu.
Wskaż wybrany klasyfikator w oknie edycji projektu: