Automatyczna indeksacja

Automatyczna indeksacja
Polecane artykuły

Automatyczna indeksacja to techniki i narzędzia (wykorzystujące między innymi metody sztucznej inteligencji i algorytmów genetycznych), których zadaniem jest prowadzenie automatycznej klasyfikacji i kategoryzacji różnego rodzaju dokumentów przetwarzanych w bazach danych organizacji. Pozwala to na eliminację pracochłonnego procesu klasyfikowania dokumentów do różnego rodzaju obszarów - baz tematycznych, i ułatwia wyszukanie dokumentów zawierających daną kategorię informacji. Bez nowoczesnych technik informatycznych prowadzenie automatycznej indeksacji byłoby niemożliwe. Można stwierdzić, że automatyczna indeksacja wspomaga identyfikację wiedzy, jednak głównie jest to technika wspomagająca gromadzenie i organizowanie wiedzy w przedsiębiorstwie [1].

Efekty zastosowań

Przydatne narzędzie w dziedzinie wyszukiwania informacji w obszernych i licznych źródłach (np. internet). Pozwalają na skrócenie czasu wyszukiwania, oraz eliminację informacji zbędnej (szumów informacyjnych) ze zbioru.

Narzędzia indeksujące zawartość plików

Są to programy służą do wyszukiwania plików różnego rodzaju, wiadomości elektronicznych i załączników poczty elektronicznej. Działa na pojedynczym komputerze. Umożliwia indeksowanie dokumentów oraz ich wyszukiwanie według słów kluczowych lub fraz. Problem z odnajdywaniem konkretnych plików pojawił się również w wypadku małych sieci lokalnych oraz pojedynczych pecetów. Stało się tak głównie z powodu popularyzacji dużych dysków twardych oraz ilości danych związanych z instalowanymi na nich aplikacjami (kliparty, przykładowe dokumenty, pliki Pomocy itp.). Użytkownik pracujący na pojedynczym komputerze nie jest już w stanie samodzielnie zapanować nad dziesiątkami miliardów bajtów oraz ich rozłożeniem na dysku. Zapotrzebowanie na sprawne programy szukające dla zwykłych komputerów zauważyli przede wszystkim twórcy wyszukiwarek internetowych i zaczęli pisać tzw. desktopowe wersje swych aplikacji (ang. desktop search), które można uruchomić na domowym pececie. Programy desktop search umieją, podobnie jak narzędzia przeznaczone do szperania w Sieci, wskazać, który dokument może być dla nas bardziej interesujący, i sortować listę wyników. Tak robią np. Google Desktop Search czy MSN Search Toolbar. Narzędzie systemowe pokaże nam pliki tylko zgodnie z kolejnością ich znalezienia.

Wymienione zalety, które przemawiają na korzyść wyszukiwarek desktopowych, oznaczają dla użytkownika przede wszystkim oszczędność czasu. Funkcjonalność takich aplikacji jest znacznie większa niż zwykłych narzędzi systemowych. Trzeba jednak wiedzieć, jak się nimi posługiwać.

Przykłady aplikacji typu Desktop Search

Obecnie na rynku mamy dostęp do sporej liczby wyszukiwarek typu desktop serach jednak tylko kilka z nich cieszy się szczególna popularnością.

Większość narzędzi tworzonych jest z myślą system Windows jednak ostatnio bardzo prężnie prowadzone są prace nad programami dla środowiska Linux, które zdobywają coraz większą rzesze użytkowników. Programy służących do indeksowania i wyszukiwania danych możemy podzielić na kilka kategorii: pod jakim systemem działają

  • Linux (Beagle, Kat, dtSearch)
  • Windows - większość programów (Copernic Desktop Search, Google Desktop, Yahoo! Desktop Search, dtSearch, MSn Toolbar Suite)
  • Mac OS (Apple Mac OS Spotlight desktop search tool)
  • Linux, Windows, Mac OS (x-friend desktop search)

Zasada działania programów typu Desktop Search

Bezpośrednio po instalacji programu nie możemy z niego korzystać, ponieważ musimy utworzyć bazę zasobów. Indeksowanie zazwyczaj startuje automatycznie. Warto jednak na chwilę wstrzymać narzędzie i samodzielnie zadecydować, które napędy czy katalogi mają zostać przeszukane (łatwo tego dokonać, modyfikując preferencje programu). Niestety, nie wszystkie aplikacje umożliwiają wybór danych do zindeksowania. W wypadku niektórych możemy wskazać jedynie, co nie ma być uwzględniane podczas budowania indeksu.

Indeksowanie zwykle działa w tle i odbywa się podczas bezczynności użytkownika. Dzieje się tak dlatego, iż w trakcie skanowania plików dysk pracuje bardzo intensywnie. Gdyby nie sztuczne spowalnianie całego procesu, nie można by było w ogóle pracować. Cały proces indeksowania trwa czasami nawet kilkadziesiąt godzin, ale to w wypadku olbrzymich zbiorów. Do tak stworzonej bazy dopisywane są jedynie informacje o tych plikach, które zostały zmienione lub utworzone. W systemach Windows 2000 lub nowszych po skompletowaniu indeksu wyszukiwarki potrafią skanować pliki w locie, tzn. po każdym dodaniu dowolnego pliku lub modyfikacji istniejącego użytkownik już po chwili może go odnaleźć. W innym wypadku trzeba by było czekać nawet kilkanaście godzin, zanim robot skanujący dyski ponownie sprawdzi katalog, w którym znajduje się nowy plik. Prawie każda wyszukiwarka umożliwia ręczne usunięcie zindeksowanej bazy słów. Taka funkcjonalność przydaje się w momencie, gdy np. nie chcemy, aby wcześniej znalezione dane były brane pod uwagę podczas wyszukiwania. Po usunięciu indeksu wyszukiwarka automatycznie rozpocznie uzupełnianie bazy. Wyszukiwarki rozpoznają nawet ponad 200 formatów zbiorów. Dodatkowo możliwe jest wskazywanie dowolnych typów plików, tak aby zostały dodane do bazy po nazwie lub przeszukane jak zbiory tekstowe.

Wyszukiwarki potrafią indeksować:

  • przede wszystkim pliki typu PDF, DOC, XSL, HTML itp.
  • zbiory graficzne, np. JPEG, GIF, PNG,
  • pliki muzyczne, np. MP3, OGG,
  • filmy, np. MPG, WMV, AVI, w których zamieszczono tzw. metadane, opisujące zawartość zbioru (nazwisko autora, gatunek muzyczny lub filmowy, data produkcji itp). Informacje te ułatwiają później odnalezienie właściwych danych.
  • szukania w e-mailach programów pocztowych, czyli Outlooku 2003, Outlook Expressie, Eudorze czy Thunderbirdzie. Niektóre programy pozwalają na szukanie w kontaktach, historii i ulubionych odsyłaczach przeglądarek IE, Mozilla czy Netscape.

Wyszukiwarka pracuje dwuetapowo. W pierwszym kroku uruchamiany jest tak zwany robot indeksujący. Jego zadanie polega na przejrzeniu zawartości plików we wszystkich katalogach w komputerze. Każde słowo znalezione w tych dokumentach dodawane jest do indeksu przechowującego informacje wiążące wyraz z dokumentem, w którym się on znajduje. Robotowi można wskazać, jakiego rodzaju pliki ma on odczytywać, np. dokumenty Worda lub zbiory PDF. Skanowanie wszystkich zbiorów mija się z celem, ponieważ szukanie słów w bibliotekach (np. DLL) lub aplikacjach (np. EXE) nie ma zupełnie sensu. Są to zbiory zawierające kod programów i nie ma sensu ich edytować ani przeglądać. Za pierwszym uruchomieniem robot skanujący może zbierać informacje o naszych plikach nawet przez kilka dni, zanim odczyta wszystko, co mamy na dysku.

Po kompletnym uzupełnieniu bazy danych moduł indeksujący nie zaprzestaje działania. Co pewien czas będzie miał za zadanie sprawdzać, czy zawartość plików nie uległa zmianie, np. na podstawie daty ostatniej modyfikacji lub poprzez sprawdzanie sumy kontrolnej dla danego zbioru. W niektórych wyszukiwarkach, np. w Copernic Desktop Search, robot zachowuje się jak szpiegi bezustannie kontroluje to, co w danej chwili edytujemy. Każda modyfikacja pliku jest monitorowana w locie (on the fly), a po takim zdarzeniu aktualizowany jest indeks, dzięki czemu praktycznie w kilka sekund później możemy szukać fraz zawartych w najnowszej wersji edytowanego dokumentu.

Robot dba zatem o to, aby najważniejsza struktura danych, jaką jest indeks, była pełna i możliwie najbardziej aktualna. To właśnie dzięki niej możliwe jest szybkie odnajdywanie interesujących nas zbiorów. Podczas sprawdzania pliku indeksu wyszukiwarki w pierwszej kolejności sprawdzają, czy interesujący nas wyraz istnieje w jakimkolwiek dokumencie. Następnie wyciągane są informacje, które precyzują, który zbiór zawiera daną frazę.

Aby ten proces był optymalny, dokumenty rozpoznawane są na podstawie identyfikatorów (ID) przygotowanych w trakcie indeksowania. Mając ID danego pliku, można już z łatwością pobrać z listy dokładny jego opis, tj. jego nazwę, typ, położenie czy wielkość. W przypadku dużej liczby odnalezionych zbiorów wyszukiwarka może przedstawić listę uporządkowaną według ważności dokumentów. Robi to na podstawie wyliczenia wag dla wskazanych kryteriów (np. strona, na której znajduje się szukane słowo w dokumencie, czy też liczba wystąpień szukanej frazy w pliku). Jakich wag używa wyszukiwarka oraz jakie kryteria bierze pod uwagę, jest tajemnicą jej autorów, gdyż stanowi to często o jakości produktu i jego użyteczności.

Dostęp do najważniejszej funkcji opisywanych programów, czyli modułu wyszukującego, uzyskujemy albo za pomocą przeglądarki, WWW, albo za pośrednictwem specjalnego interfejsu. Znacznie lepszy jest ten drugi sposób, ponieważ gwarantuje większą funkcjonalność niż HTML. Część programów oferuje całą gamę opcji umożliwiających szybkie szukanie i dokonywanie operacji na znalezionych plikach, czyli sortowanie, kategoryzowanie i filtrowanie wyników. Pozwala to łatwo uściślać interesującą nas grupę plików. Również prezentacja zawartości zbiorów jest znacznie lepsza i szybsza niż w wypadku prezentacji za pomocą HTML-a. Co najważniejsze, w celu podejrzenia, gdzie znajduje się znalezione słowo, np. w dokumencie PDF, nie potrzebujemy uruchamiać dodatkowej przeglądarki. Szybki podgląd wraz z podkreśleniami interesujących nas fraz oferuje sama wyszukiwarka. Praktycznie każda aplikacja dodaje do Paska zadań tzw. Deskbar, który ułatwia do niej dostęp. Część aplikacji ma także dodatki, spełniające taką samą funkcję jak Deskbar, w postaci wtyczek do Outlooka oraz Internet Explorera.

Bezpieczeństwo danych podczas indeksowania

Nieostrożne używanie wyszukiwarki może bardzo szybko doprowadzić do wycieku nawet najbardziej poufnych i dobrze strzeżonych danych. Na czym polega niebezpieczeństwo? Podczas indeksowania danych z dysków lokalnych wyszukiwarka desktopowa ma uprawnienia do tych samych zbiorów co użytkownik. Mało tego, dzięki możliwości szperania w poczcie wyszukiwarka potrafi wyciągnąć treść wszystkich wiadomości i listę kontaktów, nie zważając na to, kto jest ich autorem czy adresatem. Jak można zapobiec kłopotom, które mogą nas spotkać w chwili dostania się poufnych plików lub e-maili w ręce osób trzecich?

W pierwszej kolejności musimy się zastanowić, co chcemy umieścić w bazie wyszukiwarki. Programy dają różne możliwości konfiguracji. W wypadku Copernic Desktop Search użytkownik wskazuje, które dane program ma indeksować. Tak jest w większości aplikacji, ale nie we wszystkich. W Google Desktop Search selekcjonujemy jedynie to, czego program ma w ogóle nie brać pod uwagę, a pozostałe zasoby są domyślnie indeksowane. Wskazywanie źródła danych dotyczy zarówno katalogów, dysków lokalnych, sieciowych, jak i poczty.

Drugim warunkiem zachowania bezpieczeństwa jest właściwy wybór miejsca na dysku, gdzie będzie przechowywany indeks. Jeżeli z komputera korzysta więcej niż jedna osoba, to złe umiejscowienie indeksu może być fatalne w skutkach. Wyszukiwarki najczęściej lokują bazę i indeksy w katalogu zawierającym profil lokalnego użytkownika, np: C:\Documents and Settings\Nazwa użytkownika\Ustawienia lokalne\Dane aplikacji\Copernic\DesktopSearch\Index.

Oczywiście ważne jest też, aby partycja, na której znajduje się indeks, była sformatowana jako NTFS, gdyż w wypadku systemów plików FAT 16 lub FAT 32 nie ma możliwości ustawienia praw do katalogu i jego zawartości tylko dla wskazanego użytkownika lub grupy.

Kolejną możliwością ochrony danych jest zabezpieczanie ważnych dla nas plików za pomocą dostępnych mechanizmów dla danego formatu. Dokumenty Worda można zabezpieczyć np. hasłem, podobnie jak archiwa ZIP lub RAR. Nawet jeśli ktoś znajdzie taki plik, to i tak nie będzie potrafił go otworzyć. Niestety, takie zabezpieczenie uniemożliwi wyszukiwarkom sprawdzenie zawartości zaszyfrowanych zbiorów. Zindeksują one jedynie nazwę pliku oraz jego położenie na dysku.

Zastosowanie programów typu desktop serach w firmach

Możliwość szybkiego dostępy do aktualnych dokumentów znajdujących się na dysku Niektóre, np. Copernic Desktop Search, potrafią szukać po udostępnionych zasobach sieciowych, choć ma to sens tylko w wypadku małych sieci. Zindeksowanie większej ilości danych oraz ich przeszukiwanie wymaga już serwera, którego zadanie polega wyłącznie na szperaniu w zasobach intranetu.

  • Poprawia wydajność pracy poprze skrócenie czasu wyszukiwania
  • W bardziej rozbudowanych wyszukiwarkach typu NEToskop, Google Mini występuje możliwość szybkiego dostępu do dokumentów tworzonych i udostępnianych na dyskach sieciowych przez innych pracowników z zespołu / firmy / biura
  • Możliwość przeglądania zapytań zadanych przez użytkowników systemu
  • Monitoring czego szukają inni pracownicy (co jest najbardziej popularne)
  • Szybki dostęp do aktualnych dokumentów i stron
  • Pozwala segregować posiadane zasoby
  • Działa mobilizująco na pracowników, kiedy trzeba korzystać z dawno nie używanych zasobów

Bibliografia

  • Kańduła S., (2017). Metody uelastyczniania wydatków budżetowych państwa, Zeszyty Naukowe Polskiego Towarzystwa Ekonomicznego, Zielona Góra
  • Kwiatkowska W., (1992). Wybrane problemy indeksacji dochodów, Acta Universitatis Lodziensis Folia Oeconomica 121, Łódź
  • Kwiatkowska W., (1997). Redystrybucyjne Aspekty Mechanizmów Indeksacji Dochodów, Acta Universitatis Lodziensis Folia Oeconomica 144, Łódź
  • Rogut A., Ochrymiuk M., (2011). Dostosowania na rynkach pracyw państwach członkowskich strefy euro i w Polsce w okresie kryzysu, Warszawa
  • Woźniak K., (2005), System informacji menedżerskiej jako instrument zarządzania strategicznego w firmie, praca doktorska, Akademia Ekonomiczna w Krakowie, Kraków
  • Wróbel J., Karpiński B., (2003). Automatyczna indeksacja rastrowej dokumentacji technicznej na przykładzie projektu modernizacji e-archiwum, VII Szkoła Komputerowego Wspomagania Projektowania, Wytwarzania i Eksploatacji, Jurata
  • Wróbel J., Karpiński B., (2006). Analiza procesów skanowania dokumentacji technicznej, Instytut Mechanizacji Budownictwa i Górnictwa Skalnego, Warszawa

Przypisy

  1. K. Woźniak 2005 s. 70-75

Autor: Krzysztof Woźniak, Szymon Banach