FormaAnalyzer RBEE posiada wbudowane mechanizmy wyodrębniania adresów i nazw osób. Mechanizmy te, jakkolwiek doskonalone, tworzone są na podstawie dostępnych próbek danych. Może okazać się, że aktualnie stosowane dane w jakimś zakresie różnią się od standardowych. W tym celu udostępniono mechanizm uczenia systemu na danych przetwarzanych w konkretnym projektu. Dostępne są mechanizmy uczenia wyodrębniania adresów i nazw osób.
Adres
Uczenie systemu rozpoznawania adresów pocztowych ma na celu dostosowanie (uzupełnienie) algorytmów wykrywania adresów do aktualnie przetwarzanych dokumentów. Zakłada się, że adres zawiera kod pocztowy oraz informacje o miejscowości i, ewentualnie, o ulicy, numeru domu i lokalu. Przetwarzaniu podlegają polskie adresy pocztowe. W celu aktualizacji procedur rozpoznawania adresów pocztowych należy wykonać następujące czynności:
Wybrać dokumenty, które będą służyły jako wzorce różnych sposobów zapisu adresu pocztowego.
Wybrane dokumenty należy dołączyć do zbioru o nazwie "ADRES META"
Utworzyć dane wzorcowe zaznaczając obszary zawierające adresy. Uwaga!!! Należy koniecznie zaznaczyć (wskazać) wszystkie adresy występujące na wszystkich stronach dokumentów wzorcowych, niezależnie od tego, czy będą to adresy wyszukiwanych metadanych czy nie. Pozostawienie nie zaznaczonych adresów powoduje pogorszenie wyniku uczenia systemu.
Wykonać uczenie systemu na podstawie wskazanych danych wzorcowych.
Wynik uczenia adresów możemy zapamiętać w pliku binarnym i później zastosować w innym projekcie.
Osoba
Uczenie systemu rozpoznawania nazw osób (imię (imiona) i nazwisko (nazwiska)) ma na celu dostosowanie (uzupełnienie) algorytmów wykrywania nazw osób do aktualnie przetwarzanych dokumentów. Zakłada się, że nazwa osoby zawiera co najmniej imię (skrót imienia) i nazwisko. Może występować nazwa złożona z wielu imion i członów nazwiska. W celu aktualizacji procedur rozpoznawania nazw osób należy wykonać następujące czynności:
Wybrać dokumenty, które będą służyły jako wzorce różnych sposobów zapisu nazw osób. Wybrane dokumenty należy dołączyć do zbioru o nazwie "OSOBA META"
Utworzyć dane wzorcowe zaznaczając obszary zawierające nazwy osób. Uwaga!!!Należy koniecznie zaznaczyć (wskazać) wszystkie występujące nazwy osobób na wszystkich stronach dokumentów wzorcowych, niezależnie od tego czy będą to nazwy osób należące do wyszukiwanych metadanych czy nie. Pozostawienie nie zaznaczonych nazw osób powoduje pogorszenie wyniku uczenia systemu.
Wykonać uczenie systemu na podstawie wskazanych danych wzorcowych.
Wynik uczenia nazw osób możemy zapamiętać w pliku binarnym i później zastosować w innym projekcie.
Arhat sp.z o.o. ul. Antoniego Józefa Madalińskiego 23 lok.7 A 02-513 Warszawa, Polska
tel: +48-22-8491225, +48 794 033 088 e-mail: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.