Wyszukiwarka w WEBCON BPS 2019 Portal

Facebooktwittergoogle_pluspinterestlinkedinmail

Wstęp

WEBCON BPS 2019 Portal wprowadza zupełnie nowy sposób wyszukiwania elementów w bazie danych. Wyszukiwanie oparte zostało na silniku wyszukiwania SOLR, który pozwala sprawnie wyszukiwać treści nawet w przypadku bardzo dużych zbiorów danych.

 

Konstruowanie fraz wyszukujących

Dzięki użyciu technologii SOLR użytkownik ma możliwość wpływania na to w jaki sposób silnik przeszukuje zindeksowane dane, a w efekcie na wynik wyszukiwania. Użycie odpowiednich parametrów w kwerendzie pozwala uzyskać bardziej trafny wynik.

Poniżej opisane zostały podstawowe operatory, z których użytkownik może korzystać tworząc kwerendy wyszukiwania.

Nazwa operacji Przykład Sposób działania
Wyszukiwanie podstawowe Faktura Zwraca wszystkie elementy zawierające frazę Faktura z uwzględnieniem fleksji językowej. Oznacza to, że zwrócone zostaną również elementy zawierające frazę faktury, fakturą, fakturę itp.
Wyszukiwanie grup wyrazów Faktura kosztowa Zwraca wszystkie elementy zawierające słowa Faktura oraz kosztowa, z uwzględnieniem fleksji językowej.

W tym przypadku w zależności od konfiguracji opcji „Wszystkie słowa” w wyniku znajdą się elementy zawierające wszystkie podane słowa (opcja zaznaczona) lub co najmniej jedno z podanych słów (opcja odznaczona).

Wyszukiwanie pełnych fraz ”Faktura kosztowa” Użycie operatora cudzysłów powoduje, że zwrócone zostaną elementy zawierające podaną frazę, przy czym w wynikach uwzględniona zostanie też fleksja pojedynczych słów frazy. Oznacza to, że zwrócone zostaną również elementy zawierające frazę: ”faktury kosztowe” , „fakturą kosztową”, „fakturę kosztową” itp.
Dowolny pojedynczy znak Dokument? Symbol ? zastępuje dowolny pojedynczy znak w wyszukiwanej frazie. Wynikiem przykładowego wyszukiwania będą elementy zawierające np. Dokument1, Dokument8.
Dowolny ciąg znaków Dok* Symbol * zastępuje dowolny ciąg znaków w wyszukiwanej frazie. Wynikiem przykładowego wyszukiwania będą elementy zawierające np. Dokumenty, DokOdbioru, Dokupienie.
AND ”Faktura kosztowa” AND UGR44 Operator AND wymaga, by frazy po obu stronach operatora były obecne w elemencie. Wynikiem przykładowego wyszukiwania będą elementy zawierające jednocześnie frazę „Faktura kosztowa” i „UGR44”.

W przypadku użycia tego operatora należy wyłączyć opcję „Wszystkie słowa”.

NOT ”Faktura kosztowa” NOT UGR44 Operator NOT wymaga, by fraza po nim podana nie była obecna w elemencie. Wynikiem przykładowego wyszukiwania będą elementy zawierające frazę „Faktura kosztowa” lecz nie zawierające numeru „UGR44”.

W przypadku użycia tego operatora należy wyłączyć opcję „Wszystkie słowa”.

OR „Faktura kosztowa” OR „Faktura korygująca” Operator OR wymaga, by jedna z fraz podanych przy operatorze była obecna w elemencie. Wynikiem przykładowego wyszukiwania będą elementy zawierające frazę „Faktura kosztowa” oraz „Faktura korygująca”.

W przypadku użycia tego operatora należy wyłączyć opcję „Wszystkie słowa”.

Pełna lista obsługiwanych przez silnik operatorów znajduje się w dokumentacji technicznej silnika SOLR: https://lucene.apache.org/solr/guide/7_5/the-standard-query-parser.html

Mechanika wyszukiwania WEBCON BPS 2019 Portal

Specyfika działania systemu WEBCON BPS powoduje, że wyniki wyszukiwania są wstępnie przetwarzane, zanim zostaną wyświetlone użytkownikowi.

Rozszerzone wyszukiwanie

Jedną z zasad działania mechanizmu wyszukiwania WEBCON BPS 2019 Portal jest tzw. „rozszerzenie wyszukiwania”. Oznacza ona, że w momencie, gdy kwerenda wprowadzona przez użytkownika nie zwróci żadnych wyników, system automatycznie ponawia zapytanie, rozszerzając je o operator * (dowolny ciąg znaków) dodany na końcu podstawowej kwerendy. W efekcie użytkownikowi wyświetlone zostaną wyniki najbardziej zbliżone do oczekiwanych.

 

Przykład A:

Kwerenda Faktura nie zwraca żadnych wyników. System automatycznie tworzy nową kwerendę Faktura* i ponawia jej wykonanie.

Użytkownikowi prezentowany jest wynik kwerendy Faktura*.

 

Przykład B:

Kwerenda Faktura zwraca wyniki. System nie wykonuje dodatkowego zapytania.

Użytkownikowi prezentowany jest wynik kwerendy Faktura.

 

Ignorowanie „stopwords”

„Stopwords” są słowami ignorowanymi przez silnik wyszukiwania. Słowa takie jak spójniki, nie są brane pod uwagę w trakcie wyszukiwania fraz.

 

Przykład:

Kwerenda Faktura jako kosztowa  lub nasza faktura kosztowa zwróci wyniki zawierające frazę Faktura kosztowa.

 

Przykładowa lista „stopwords” dla języka polskiego:

a, aby, ach, acz, aczkolwiek, aj, albo, ale, ależ, aż, bardziej, bardzo, bez, bo, bowiem, by, byli, bynajmniej, być, był, była, było, były, będzie, będą, cali, cała, cały, ci, cię, ciebie, co, cokolwiek, coś, czasami, czasem, czemu, czy, czyli, daleko, dla, dlaczego, dlatego, do, dobrze, dokąd, dość, dużo, dwa, dwaj, dwie, dwoje, dziś, dzisiaj, gdy, gdyby, gdyż, gdzie, gdziekolwiek, gdzieś, go, i, ich, ile, im, inna, inne, inny, innych, iż, ja, ją, jak, jakaś, jakby, jaki, jakichś, jakie, jakiś, jakiż, jakkolwiek, jako, jakoś, je, jeden, jedna, jedno, jednak, jednakże, jego, jej, jemu, jest, jestem, jeszcze, jeśli, jeżeli, już, ją, każdy, kiedy, kilka, kimś, kto, ktokolwiek, ktoś, która, które, którego, której, który, których, którym, którzy, ku, lat, lecz, lub, ma, mają, mam, mi, mimo, między, mną, mnie, mogą, moi, moim, moja, moje, może, możliwe, można, mój, mu, musi, my, na, nad, nam, nami, nas, nasi, nasz, nasza, nasze, naszego, naszych, natomiast, natychmiast, nawet, nią, nic, nich, nie, niego, niej, niemu, nigdy, nim, nimi, niż, no, o, obok, od, około, on, ona, one, oni, ono, oraz, oto, owszem, pan, pana, pani, po, pod, podczas, pomimo, ponad, ponieważ, powinien, powinna, powinni, powinno, poza, prawie, przecież, przed, przede, przedtem, przez, przy, roku, również, sam, sama, są, się, skąd, sobie, sobą, sposób, swoje, ta, tak, taka, taki, takie, także, tam, te, tego, tej, ten, teraz, też, to, tobą, tobie, toteż, trzeba, tu, tutaj, twoi, twoim, twoja, twoje, twym, twój, ty, tych, tylko, tym, u, w, wam, wami, was, wasz, wasza, wasze, we, według, wiele, wielu, więc, więcej, wszyscy, wszystkich, wszystkie, wszystkim, wszystko, wtedy, wy, właśnie, z, za, zapewne, zawsze, ze, znowu, znów, został, żaden, żadna, żadne, żadnych, że, żeby

Przykładowa lista „stopwords” dla języka angielskiego:

a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or, such, that, the, their, then, there, these, they, this, to, was, will, with

 

Trafność wyszukiwania

Kwerenda podana przez użytkownika wyszukuje wszystkie elementy spełniające wprowadzony warunek. W trakcie wyszukiwania brane są pod uwagę wartości elementu zapisane w bazie danych:

  • identyfikator elementu
  • sygnatura elementu
  • nazwy obiektów systemowych (nazwa procesu, nazwa obiegu, nazwa kroku, nazwa formularza)
  • nazwy atrybutów formularza
  • wartości atrybutów formularza oraz listy pozycji
  • zawartość tekstowa załączników

Każda z wymienionych wartości posiada przypisany współczynnik trafności (identyfikator elementu – największy, zawartość załączników – najmniejszy) według którego sortowana jest ostateczna lista wyników wyszukiwania. Jeśli szukane wyrażenie zostało odnalezione w kilku miejscach (np. jako wartość atrybutu oraz tekst załącznika), wówczas współczynnik trafności jest sumowany.

W efekcie użytkownik otrzymuje rezultat posortowany według najbardziej pasujących do kwerendy elementów.

Przykład:

Kwerenda 456839 może zwrócić kilka elementów.

Pierwszym na liście wyników będzie element, którego identyfikator to 456839.

Drugim będzie element którego sygnatura to 456839.

Kolejnym może być element którego wartość jednego z atrybutów to 456839.

Ostatnim elementem będzie taki, który zawiera dokument tekstowy z liczbą 456839.

Prezentacja danych wyszukiwania

Wyniki wyszukiwania prezentowane są w formie listy z możliwością podglądnięcia konkretnego elementu lub jego załączników.

Widok wyników wyszukiwania daje też możliwość zmiany parametrów wyszukiwania, doprecyzowania klucza, dodatkowego zawężenia lub posortowania wyników według trafności wyszukania, daty utworzenia i daty modyfikacji.

Wyniki są automatycznie grupowanie według kluczowych tagów wspólnych dla znalezionych elementów i wyświetlane w formie filtru. W każdym filtrze wyświetlanych jest maksymalnie 10 grup zawierających największą liczbę elementów. Jako filtry mogą pojawić się również globalne atrybuty wyboru, jeśli atrybuty te zostały użyte na formularzach elementów. Użytkownik klikając w taką grupę jest w stanie zawężać wynik do elementów utworzonych przez konkretne osoby lub danego dnia. W miarę zawężania wyników system tworzy kolejne grupy dając możliwość bardziej precyzyjnego wskazania konkretnych kryteriów.

Fleksje językowe

Silnik wyszukiwania uwzględnia fleksje językowe co powoduje, że szukana fraza nie musi być wprowadzona w dokładnej formie. Np. podanie frazy wyszukiwania Faktura spowoduje, że zwrócone zostaną również elementy zawierające frazę faktury, fakturą, fakturę itp.

Aktualnie system wspiera fleksje dla języków polskiego, angielskiego, niemieckiego, hiszpańskiego, francuskiego, węgierskiego oraz rosyjskiego.

W przypadku wyszukiwania wartości w atrybutach lub załącznikach elementów, brana jest pod uwagę fleksja języka zgodna z językiem bazy danych skonfigurowanym w trakcie instalacji systemu. Natomiast wyszukiwanie obiektów systemowych (nazwa procesu, obiegu, kroku) uwzględnia fleksję wszystkich wymienionych języków.

Indeksowanie

Dane wprowadzane do systemu przez użytkowników są indeksowane na bieżąco co sprawia, że informacja może być wyszukana prawie natychmiast po jej pojawieniu się w systemie. W praktyce między wprowadzeniem wartości do systemu przez użytkownika (zapis formularza), a stworzeniem nowego indeksu dla zmienionego elementu w bazie SOLR, może upłynąć kilka sekund.

Indeks tworzony jest dla wartości wszystkich atrybutów oraz kolumn list pozycji. Indeksowane są również wszystkie dokumenty tekstowe dołączone jako załączniki na formularzach. Oprócz czysto tekstowych formatów takich jak TXT, RTF, XML, HTML, SQL indeksacji podlegają również dokumenty w formacie Word (DOC, DOCX, DOCX, ODT), Excel (XLSX, XLSM, XLS), PDF posiadające warstwę tekstową oraz pliki wiadomości e-mail (EML, EMLX, MSG, OFT, MBOX, TNEF).

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *