Wyszukiwanie załączników po treści – akcja "Dodaj warstwę tekstową"

Facebooktwitterpinterestlinkedinmail
Dotyczy wersji 2021.1.x i powyżej, autor: Daniel Półchłopek

Wstęp

WEBCON BPS Portal umożliwia wyszukiwanie po treści załączników PDF zawierających tekst .

Niezbędne jest do tego zainstalowanie komponentu odpowiedzialnego za generowanie warstwy tekstowej (ABBYY FineReader) i posiadanie aktywnej licencji. FineReader jest programem przekształcającym skanowane dokumenty i pliki PDF do postaci edytowalnej, jest odpowiedzialny za generowanie warstwy tekstowej na załącznikach w obiegach. Procedura instalacji tego modułu została opisana na blogu technicznym w artykule „Instalacja FineReader 11.

W poniższej publikacji przybliżono sposób w jaki należy skonfigurować proces aby możliwe było wyszukiwanie w treści dodanych uprzednio dokumentów. Przedstawiono dwa przykłady:

  1. Wystartowania w obiegu dokumentu workflow, wydruk kodu kreskowego, zeskanowania dokumentu z kodem i powiązania jego skanu w formacie PDF, na który nanoszona jest warstwa tekstowa. Pozwala to na jego łatwe odszukanie poprzez wpisanie w wyszukiwarkę frazy, którą zawiera.
  2. Akcji towarzyszącej przy procesowaniu Faktur przez OCR. Załączniki do faktury nie są poddawane pełnemu OCR – nakładana na nie jest tylko warstwa tekstowa.

Akcja „Dodaj warstwę tekstową” wspiera też pliki typu .jpg, .png. Pliki graficzne konwertowane są do formatu PDF przez system i wtedy nanoszona jest warstwa tekstowa. Skuteczność takiej operacji zależy od jakości pliku graficznego. Warto zaznaczyć, że wyszukiwanie w zawartości plików możliwe jest także w przypadku formatów .txt i .docx.

Przykład pierwszy

Na potrzeby realizacji pierwszego przykładu można przyjąć, że użytkownikami WEBCON BPS są pracownicy archiwum zajmujący się zarządzaniem dokumentami. W rozpatrywanej firmie do ich zadań należy segregacja dokumentów do właściwych teczek i segregatorów, jeśli zakończyły już swój obieg. W celu ułatwienia ich codziennej pracy, można zaimplementować funkcję nanoszenia warstwy tekstowej do skanowanych dokumentów. Pracownicy zamiast szukać właściwej teczki czy segregatora i nierzadko wertując wielostronicowe dokumenty, po wpisaniu interesującej ich frazy zyskają szybki dostęp do poszukiwanego dokumentu, co istotnie przyczyni się do oszczędności czasu.

W przykładzie pierwszym, użytkownik startuje w obiegu jeden dokument Workflow, który może być odzwierciedleniem jednego papierowego dokumentu bądź całej partii/teczki. Później drukuje naklejkę z kodem i przykleja ją na pierwszej stronie dokumentu, który ma zostać powiązany. Następnie skanuje dokument, który trafia w formie pliku .pdf do HotFolderu i na podstawie kodu z naklejki, jest on umieszczany jako załącznik PDF w powiązanym dokumencie workflow.

W kolejnym kroku załącznik PDF poddawany jest nanoszeniu warstwy tekstowej i w wyniku tego możliwe jest przeszukiwanie jego treści w BPS Portal. Samo wyszukiwanie oparte jest na silniku wyszukiwania SOLR z uwzględnieniem treści dokumentów. Wykorzystanie technologii SOLR umożliwia użytkownikowi wpłynięcie na sposób w jaki silnik przeszukuje zindeksowane dane – pozwala to na uzyskanie trafniejszych wyników. Informacje o sposobie konstruowania fraz wyszukujących dostępne są w artykule „Wyszukiwarka w WEBCON BPS 2019 Portal.

Konfiguracja obiegu

Aby możliwy był opisany scenariusz, należy skonfigurować następujące elementy:

  • Drukarka kodów kreskowych – wykorzystywana do drukowania naklejek zawierających kod kreskowy lub kod QR. Na jego podstawie następuje parowanie wersji papierowej dokumentu z elektroniczną. Przebieg instalacji został opisany w artykule "Instalacja drukarki kodów kreskowych"
  • HotFolder – miejsce, gdzie skaner wysyła automatycznie zeskanowane dokumenty. Konto na którym pracuje serwis BPS musi mieć dostęp do utworzonego udziału sieciowego. Sposób konfiguracji funkcjonalności również opisano na blogu technicznym w publikacji „HotFolder’y – dołączanie zeskanowanych plików do procesu"
  • Skaner – urządzenie powinno posiadać możliwość skanowania dokumentu do wybranego udziału sieciowego. Rekomenduje się skanowanie w odcieniach szarości.

Na potrzeby pierwszego przykładu niniejszego artykułu zbudowano obieg składający się z następujących kroków:

  1. Start – krok, w którym ma miejsce uzupełnienie pól informacyjnych o dokumencie oraz możliwość wyboru ilości naklejek do druku na drukarce kodów kreskowych. Domyślnie jest to jedna naklejka ale istnieje możliwość zwiększenia tej liczby, jeśli do formularza wprowadzamy kilka partii dokumentów. W kroku na ścieżce „Wydrukuj kod” wykonuje się akcja drukowania naklejki z kodem.
  2. Oczekiwanie na skan – krok, w którym przechowywane są elementy workflow, oczekujące na dopasowanie skanu dokumentu. Po sparowaniu, zeskanowany dokument dodawany jest jako załącznik PDF a formularz przesyłany jest do kolejnego kroku.
  3. Oczekiwanie na warstwę tekstową – krok, w którym przechowywane są elementy workflow, których załączniki PDF oczekują na naniesienie warstwy tekstowej przez system.
  4. Repozytorium – krok końcowy, w którym znajdują się dokumenty które zakończyły już swój obieg i których załączniki PDF mają naniesioną warstwę tekstową.

 

Rys. 1. Schemat obiegu dla przykładu 1

 

Konfiguracja akcji „Dodaj warstwę tekstową”

Na ścieżce “Nałóż warstwę tekstową” w kroku „Oczekiwanie na skan” należy dodać akcję „Dodaj warstwę tekstową” i skonfigurować ją, jak na poniższym zrzucie ekranu:

 

Rys. 2. Sposób konfiguracji akcji „Dodaj warstwę tekstową”

 

  • Rozdzielczość pliku PDF – domyślnie przyjmuje wartość pliku źródłowego. Wyrażona jest w liczbie punktów obrazu przypadającej na cal,
  • Jakość warstwy obrazu – wyrażona w procentach, parametr ustawiony domyślnie na 90%,
  • Format pliku wynikowego – określa format pliku który będzie wynikiem wykonania akcji,
  • Język warstwy tekstowej – decyduje o tym, w jakim języku będzie przeprowadzany proces rozpoznania tekstu. Dostępny tryb automatyczny zalecany jest w przypadku, gdy nie jest znany język przetwarzanych dokumentów. Jego zastosowanie może powodować gorszą jakość rozpoznania tekstu.
  • Tryb działania – miejsce w którym określa się w jakiej formie załącznik z warstwą tekstową ma zostać dołączony do elementu,
  • Priorytet – decyduje o kolejności przetwarzania załączników. Przyjmuje wartości z zakresu od 1 do 10, gdzie wartość „1” jest najwyższym priorytetem,
  • Obsługa błędów – pole determinuje sposób obsługi błędów; określa co dzieje się gdy wystąpi pierwszy błąd przetwarzania elementu kolejki,
  • Typ plików – określa typ plików załączników źródłowych.
  • Wyrażenie regularne – pole umożliwiające wprowadzenie wyrażenia regularnego, służącego do wybierania plików, dla których warstwa tekstowa zostanie wygenerowana.
  • Kategoria – określa kategorię załączników źródłowych. W przypadku wybrania kategorii niestandardowej można ją skonstruować dynamicznie (przy wykorzystaniu zmiennych z edytora) lub wpisać manualnie. Kategoria powinna być podana w formacie ID#Nazwa lub samo ID.

Załączniki PDF, na które ma zostać nałożona warstwa tekstowa dodawane są do kolejki i analizowane zgodnie z wartością przypisanego im priorytetu. Po nałożeniu warstwy tekstowej, system przesuwa zmodyfikowany dokument PDF do kroku końcowego i możliwe jest wyszukiwanie jego zawartości.

Należy pamiętać że warstwa tekstowa umieszczona może zostać tylko na pliku, który nie został zabezpieczony hasłem.

Przykład zastosowania

W celu zademonstrowania działania funkcjonalności jako załącznik PDF w przygotowanym obiegu dodano jeden z artykułów z bloga technicznego WEBCON – „Funkcja formularza Set focus – Blog techniczny WEBCON BPS

 

Rys. 3. Screen fragmentu załączonego artykułu

 

Rys. 4. Rejestracja nowego dokumentu

 

W wyszukiwarkę, z poziomu strony głównej BPS Portal, wpisano fragment zawarty w dokumencie – „Opisany został fragment rejestracji faktury kosztowej” co pozwoliło szybko go zlokalizować.

 

Rys. 5. Wyszukiwanie dokumentu na podstawie fragmentu jego zawartości

 

Przykład drugi

W celu zaprezentowania działania akcji wykorzystano pełny obieg OCR dla faktur. Sposób jego konfiguracji jest dostępny w artykule „Widok weryfikacji OCR dostępny dla formularza MODERN – Funkcja formularza Set focus – Blog techniczny WEBCON BPS”. Poniżej zamieszczono schemat obiegu:

 

Rys. 6. Schemat pełnego obiegu faktur

 

Dołączone do faktury załączniki nie są poddawane OCR – nakładana na nie jest tylko warstwa tekstowa.

W przykładzie załączono fakturę zbiorczą za usługi remontowo-budowlane. Jako załącznik do faktury dodano między innymi zasady gwarancji na wykonane usługi.

 

Rys. 7. Widok formularza rozważanego obiegu

 

Po przejściu przez krok „Oczekiwanie na warstwę tekstową” możliwe jest wyszukiwanie po treści załącznika PDF za pomocą wyszukiwarki. Działanie zaimplementowanej w przykładzie akcji sprawdzono dla frazy – „Zasady gwarancji dla usług malarskich”. Po jej wpisaniu w wynikach wyszukiwania pojawia się element, gdzie występuje załącznik PDF z poszukiwaną frazą.

 

Rys. 8. Wyszukiwanie dokumentu na podstawie fragmentu jego zawartości

 

Podsumowanie

W artykule przedstawiono dwa przykłady zastosowania akcji „Dodaj warstwę tekstową” w praktyce. Pozwala ona na znaczne przyśpieszenie przeszukiwania zawartości dokumentów PDF. Użytkownik zamiast robić to ręcznie, może wpisać dowolną frazę w wyszukiwarce, a system bez trudu znajdzie dokument, w którym ona występuje. Opisana funkcjonalność istotnie ułatwia pracę pracownika i znacznie zwiększa jego efektywność.

Przydatne linki

[1] Widok weryfikacji OCR dostępny dla formularza MODERN

[2] Instalacja drukarki kodów kreskowych

[3] HotFolder’y – dołączanie zeskanowanych plików do procesu

[4] WEBCON BPS w sekreteriacie – przykładowy przypadek użycia

[5] Integracja WEBCON BPS z Keycloak