Wyszukiwarki

Wyszukiwarki
W artykule przedstawiamy historię wyszukiwarek internetowych. Warto przeczytać i dowiedzieć się jak działały w 1945 roku a jak dziś.

1945 Projekt Memex (1), przez wielu badaczy uważany za pierwszą koncepcję wyszukiwarki internetowej na świecie, został opracowany przez amerykańskiego inżyniera Vannevara Busha. Jego twórca to prekursor idei sieci komputerowych oraz pomysłodawca maszyny służącej do wyszukiwania i przechowywania informacji powiązanych ze sobą za pomocą hipertekstu.

Urządzenie o nazwie Memex zbudowane było z dwóch ekranów oraz zasobu mikrofilmów, które umożliwiały wyświetlanie powiązanych ze sobą dokumentów. W ten sposób można było szybko wprowadzać oraz wyszukiwać zbliżone tematycznie informacje, dokumenty i artykuły. W zamyśle autora maszyna miała odnajdywać interesujące słowa kluczowe na zasadzie. Ostatecznie projekt nie został zrealizowany. Jednak pracą Vannevara Busha inspirowali się kolejni naukowcy, tacy jak Douglas Engelbart, Ted Nelson czy Joseph Licklider.

1. Schemat projektu Memex

1978 Początki systemu BBS (Bulletin Board System) umożliwiającego wysyłanie wiadomości e-mail oraz umieszczanie i pobieranie treści zamieszczonych na serwerze. BBS-y wyposażone były w wyszukiwarki plików i innych systemów BBS. Z czasem zaczęły się one łączyć, tworząc własne sieci. A najbardziej znaną z nich była sieć Fidonet. Panowanie systemów BBS trwało do lat 90.

1979 Powstają pierwsze komercyjne sieci komputerowe takie jak m.in. America Online lub Prodigy. Płacącym użytkownikom umożliwiały wymianę informacji, wyszukiwanie danych, plików i innych dokumentów tekstowych. Wtedy też powstawać zaczęły pierwsze bazy danych, zawierające informacje dotyczące serwerów i umieszczanych na nich treści.

1990 Na Uniwersytecie McGill w Montrealu stworzony zostaje mechanizm wyszukiwawczy, przystosowany do usługi FTP, o nazwie Archie (2). Stworzony przez Alana Emtage, Billa Heelana i Petera J. Deutscha, Archie służył w charakterze wyszukiwarki danych znajdujących się na serwerach FTP. Mechanizm raz w miesiącu pobierał z serwerów listy plików, zaś uzyskane w ten sposób informacje przeszukiwane były przy wykorzystaniu uniksowego polecenia grep. Z czasem zaczęto do mechanizmu dodawać zaawansowane techniki wyszukiwania.

2. Strona wyszukiwarki Archie

1991 Na uniwersytecie w Minnesocie powstaje Gopher, protoplasta współcześnie używanych wyszukiwarek. Działający w trybie tekstowym mechanizm Gopher umożliwiał wyszukiwanie danych za pomocą hierarchicznego drzewa, będącego katalogiem serwerów i dokumentów (3). Przeszukiwanie zasobów systemu możliwe było za pomocą dwóch innych systemów: wyszukiwarki Veronica i uproszczonego JugHeada.

1993 Matthew Gray buduje pierwszą wyszukiwarkę, która współpracowała z odnośnikami hipertekstowymi html, nazwaną Wandex. W praktyce wyszukiwarka za pośrednictwem odnośników odnajdywała interesujące użytkowników strony internetowe. Było to możliwe dzięki powstaniu pierwszego robota indeksującego - WWW Wanderer, który został stworzony przez Graya rok wcześniej. Koncepcję jego działania rozwinęły później takie firmy jak Google, Bing czy Yahoo. Potrafił on m.in. indeksować adresy URL stron internetowych, stając się bazą dla kolejnych wyszukiwarek.

1993 Projekt Architext, dzieło pięciu studentów z Uniwersytetu Stanforda, stanowi podłoże dla uruchomionej dwa lata później wyszukiwarki WWW - Excite. Pozwalała na dostosowanie wyszukiwarki do indywidualnych potrzeb użytkowników, tym samym udostępniając możliwość personalizacji otrzymanych wyników (po uprzednim utworzeniu konta osobistego).

3. Strona starego Gophera

1994 Uruchomienie serwisu ALIWEB, stworzonego przez Martijna Kostera, który indeksował metadane i pozwalał użytkownikom na przesłanie stron, które chcieli zaindeksować wraz z opisem. Jednak przesyłanie stron było wówczas zbyt dużym wyzwaniem dla użytkowników.

1994 Do użytku oddany zostaje projekt Jerry'ego Yanga i Davida Filo - Yahoo.com (4), oparty na ich własnym katalogu stron internetowych. Nazwa projektu wzięła swoją nazwę od skrótu słów Yet Another Hierarchic Officious Oracle. Wyszukiwarka Yahoo! funkcjonuje do dnia dzisiejszego. Yahoo to pierwsza firma, która dzięki stworzeniu własnej wyszukiwarki internetowej odniosła globalny sukces.

Od chwili debiutu Yahoo (wcześniej znanego jako Jerry and David’s Guide to the World Wide Web) jasne stało się, w jakim kierunku rozwijać się będą wyszukiwarki internetowe. Stało się wiadome, że usługa tego typu sprowadzać się będzie do okienka, w które należy wpisać słowo lub frazę kluczową, a następnie w ułamek sekundy otrzyma się wyniki wyszukiwania.

4. Strona katalogu Yahoo w 1994 roku

1994 Start nowatorskej wówczas usługi Webcrawler, pełnotekstowej wyszukiwarki stron WWW, wyróżniającej się zwłaszcza możliwością przeszukania zawartości konkretnej strony, pomijając przy tym składniki kodu. Wyszukiwarka Webcrawler funkcjonuje po dziś dzień pod adresem www.webcrawler.com.

1994 Powstanie opartej na działaniu robotów penetrujących sieć wyszukiwarki Lycos. W 1996 roku Lycos identyfikuje 60 milionów dokumentów, więcej niż jakakolwiek inna wyszukiwarka wcześniej (5). W ciągu kolejnych lat zbudowany został wokół wyszukiwarki portal, umożliwiający publikację reklam. Dzięki temu serwis przynosi wielomilionowe przychody, a w 1999 roku wyprzedza w rankingu wyszukiwarek Yahoo! W kolejnym roku następuje jednak upadek Lycosa wskutek splotu niekorzystnych wydarzeń, przede wszystkim wyłonienia się Google’a jako groźnej konkurencji, odejścia reklamodawców, sporów wewnątrz firmy i odejścia kluczowych menedżerów.

5. Strona wyszukiwarki Lycos w 1996 roku

1995 Pojawia się AltaVista, dzieło badaczy Digital Equipment Corporation. Zanim jednak doszło do skonstruowania samej wyszukiwarki, w pierwszej kolejności DEC podjął się stworzenia systemu gromadzenia wyrazów w indeksie, który z kolei stał się swego rodzaju podwaliną AltaVisty. Warto dodać, że była to pierwsza wyszukiwarka wielojęzyczna umożliwiająca użytkownikowi posługiwanie się alfabetem niełacińskim (np. japońskim). AV odznaczała się nowoczesnymi rozwiązaniami, takimi jak chociażby system BabelFish, dzięki któremu możliwa była automatyczna translacja stron.

1995 W Polsce powstaje pierwszy katalog pełniący równocześnie funkcję wyszukiwarki stron WWW oraz serwisu informacyjnego Wirtualna Polska.

1996 Na Uniwersytecie Stanforda stworzona zostaje, w ramach projektu studenckiego, pierwocina wyszukiwarki Google, która najpierw nazywała się BackRub (6). Jej twórcami są Larry Page i Sergey Brin. Zgodnie z pierwotnymi założeniami absolwentów projekt ma działać w oparciu o analizę zależności występującą pomiędzy stronami internetowymi. Stworzony przez studentów algorytm nadawał stronom pozycje w rankingu przy użyciu oznaczeń cytatów, co oznaczało, że każda wzmianka o stronie internetowej na innej stronie była liczona jako głos w rankingu na rzecz cytowanej strony. Pozycja strony zależała od tego, jak wiele stron odnosiło się do niej w połączeniu z informacją o pozycji stron linkujących.

Firma Google Inc., mająca swoją siedzibę w Menlo Park, w Kalifornii, powstała w 1998 r. Niesłabnące zainteresowanie wyszukiwarką w połączeniu z osiągniętymi zyskami pozwoliły firmie na dalszy rozwój oraz dokonywanie kolejnych inwestycji. W roku 1999 powstaje pierwsza, oficjalna strona projektu Google. Sama nazwa wyszukiwarki pochodzi natomiast od matematycznego zwrotu "googol" oznaczającego 10100.

6. Historia Google na osi czasu

1998-2009 Wraz z nową wersją systemu operacyjnego Windows 98 pojawia się w zestawie usług Microsoftu wyszukiwarka MSN Search (7), uznawana za protoplastkę znanego dziś Binga. Jednak droga Microsoftu do własnej wyszukiwarki internetowej nie była prosta. Microsoft pierwotnie uruchomił MSN Search, w 1998 roku wykorzystywał wyniki wyszukiwania mechanizmu Inktomi. Później korzystano z innych narzędzi, m.in. z AltaVista. W końcu Microsoft zdecydował się na inwestycję we własną wyszukiwarkę, której indeks był aktualizowany co tydzień, a czasem codziennie.

Pierwsza publiczna beta Windows Live Search została zaprezentowana w marcu 2006 roku, a ostateczne wydanie nastąpiło 11 września 2006 roku i zastąpiło MSN Search. Nowa wyszukiwarka korzystała z kart wyszukiwania obejmujących strony WWW, wiadomości, obrazy, muzykę, pulpit, usługi lokalne i Microsoft Encarta. Kolejne lata to znów pełna zawirowań historia reorganizacji i zmian, która doprowadziła ostateczne do zmiany nazwy wyszukiwarki Microsoftu na Bing, umowy o współdzieleniu wyszukiwań i przychodów z Yahoo! oraz rozwoju nowych funkcji podobnych do tych wprowadzanych przez Google.

7. MSN Search

2005 W algorytmach indeksujących strony na potrzeby wyszukiwarek pojawia się znacznik "nofollow", który wykluczał wszelkie małej jakości treści, spam i tzw. farmy kontentowe z rankingu wyszukiwarkowego. Rozwiązanie to wprowadziły największe wyszukiwarki - Google, Microsoft i Yahoo!

2008 Powstaje DuckDuckGo (8), wyszukiwarka, która oprócz tradycyjnych źródeł danych wykorzystuje serwisy tworzone przez użytkowników Internetu, w celu poprawy jakości wyników. Wyszukiwarka opiera się na otwartym oprogramowaniu (m.in. perl, FreeBSD, PostgreSQL, nginx, Memcached). Twórcy wyszukiwarki kładą nacisk na ochronę prywatności użytkowników i twierdzą, że nie gromadzą żadnych danych o nich, co z biegiem czasu, zwłaszcza w ostatnich latach powoduje solidny wzrost udziału wyszukiwarki w rynku, głównie kosztem Google’a. 11 stycznia 2021 firma osiągnęła nowy jednodniowy rekord - ponad 100 milionów wyszukiwań.

8. Ikony DuckDuckGo i Google na ekranie telefonu

2008 Google wprowadza usługę "Google Suggest", dzięki której użytkownicy otrzymują rozwijane listy podpowiedzi i sugerowanych tematów związanych z ich zapytaniami.

2009 Uruchomienie strony Wolfram Alpha, która formułuje odpowiedzi na zapytanie użytkownika zadane w języku naturalnym, wykonuje obliczenia, przedstawia dane statystyczne, rozwiązuje równania itp. Wolfram Alpha początkowo był napisany w około pięciu milionach linii kodu jako program (Mathematica) uruchamiany na 10 tysiącach jednostek CPU. Obecnie system ma postać strony internetowej, która posiada API umożliwiające dostarczanie odpowiedzi do innych aplikacji. Jedną z takich aplikacji jest Bing firmy Microsoft.

2010 Na rynku pojawiają się usługi wyszukiwania głosem, wprowadzone niemal jednocześnie przez dwóch potentatów, Google i Apple. Wyszukiwanie głosowe jako narzędzie od Google pozwala użytkownikowi na wykorzystanie mikrofonu w telefonie do tworzenia zapytań w wyszukiwarce. Początkowo, aby uruchomić narzędzie, należało wpisać numer (650) 623-6706, następnie użytkownik oczekiwał na słowa "Wypowiedz swoje kluczowe słowa" (ang. Say your Search Keywords), po usłyszeniu których mógł wypowiedzieć frazę, którą chciał znaleźć. Narzędzie aktualizowało stronę lub generowało link do strony wyszukiwania z zapytaniem użytkownika.

Od kiedy Google zaczęło używać technologii rozpoznawania mowy takich jak GOOG-411, wersje z użyciem numeru telefonu zostały dezaktywowane. Firma Apple wprowadziła w lutym 2010 roku swoje rozwiązanie wyszukiwania głosowego, wydając aplikację o nazwie Siri na urządzenia z systemem iOS. Oprogramowanie opiera się na interfejsie konwersacyjnym. Rozpoznając naturalną mowę użytkownika, odpowiada na jego pytania oraz wykonuje powierzone mu zadania. Dzięki zastosowaniu nauczania maszynowego asystent analizuje osobiste preferencje użytkownika, dzięki czemu zapewnienia bardziej dopasowane wyniki.

Rok 2010 można umownie uznać zatem za początek ery wyszukiwania konwersacyjnego (9), opartego na chatbotach i innych narzędziach umożliwiających interakcje z mechanizmem wyszukiwania w żywym języku.

9. Najpopularniejsze wyszukiwarki głosowe

2015 Google udostępnia aktualizację narzędzi wyszukujących, w ramach której strony przyjazne dla urządzeń mobilnych miały wyższy ranking w wynikach wyszukiwania z użyciem urządzeń przenośnych. Wkrótce potem własną aktualizację algorytmu przyjaznego dla urządzeń mobilnych publikuje Bing.

Klasyfikacja wyszukiwarek i wykorzystywanej przez nie techniki

I. Podział wyszukiwarek ze względu na metodę wyszukiwania

1. Wyszukiwarki oparte na analizie treści strony

Internet rośnie znacznie szybciej niż jakakolwiek grupa ludzi może go katalogować. Ponadto popularne kiedyś katalogi mają zasadnicze wady np. pod danym hasłem mogą znajdować się tysiące stron. Dlatego powstały wyszukiwarki, które przeszukują Internet, analizując zawartość stron. Kiedy użytkownik poda wyszukiwarce zapytanie, ona odpowie mu łączami do stron, które uzna, w zależności od użytego algorytmu, za najbardziej odpowiednie.

Wyszukiwarki oparte na tej zasadzie mogą objąć znacznie większą część sieci niż katalogi. Niestety są one bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony niemające nic wspólnego z jego zapytaniem.

2. Wyszukiwarki oparte na analizie topologii sieci

Żeby przeciwdziałać nadużywaniu mechanizmu analizy treści stron, stosuje się wyszukiwarki, w których na szczycie list pojawiają się strony, do których odnosi się najwięcej stron dotyczących danego zapytania. Tak więc stronę uważa się za odpowiadającą zapytaniu "Iga Świątek", jeśli wiele stron na temat "Iga Świątek" do niej linkuje. Pierwszą wyszukiwarką, która zastosowała zaawansowane algorytmy analizy topologii sieci, było Google.

Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia. W rzeczywistości są narażone na ataki spamujących sytemów automatycznej wymiany linków. Inną formą ataku, czy też nadużycia tego mechanizmu, jest tworzenie dużej liczby bogato linkujących stron, z czego wszystkie na ten sam temat. Jednak dla potencjalnych oszustów jest to zadanie trudne, gdyż wymaga sporych nakładów pracy. Ponadto najnowsze mechanizmy i algorytmy stosowane przez największe wyszukiwarki potrafią dość skutecznie wykrywać i blokować tego rodzaju praktyki.

3. Wyszukiwarki oparte na zasadzie aukcji miejsc

Osobnym pomysłem jest wprowadzony przez Overture system, gdzie strony płacą wyszukiwarce za każde kliknięcie, przy czym miejsca są licytowane - strona, która daje więcej za kliknięcie, znajdzie się wyżej na liście rezultatów. Pozycje płatne są oznaczone jako takie, razem z ceną. System ten jest korzystny dla właścicieli stron - płacą oni tylko za wejścia, nie za wyświetlenia.

Twórcy twierdzą, że jest on również korzystny dla użytkownika, gdyż tylko strony, które oferują coś użytecznego z danej dziedziny, mogą sobie pozwolić na taką reklamę. Z drugiej jednak strony wiele użytecznych stron jest niekomercyjnych, a nawet przy stronach komercyjnych wyniki będą często niekoniecznie najlepsze dla użytkownika, gdyż z tego, że jakaś firma może sobie pozwolić na inwestycję w pozycje w takiej wyszukiwarce, nie oznacza, że to, co ma do zaoferowania, jest najbardziej optymalne z punktu widzenia odbiorcy.

II. Oprogramowanie wyszukiwarek

Oprogramowanie wyszukiwarek to zestaw programów, modułów, z których każdy ma oddzielne zadanie. W skład zestawu wchodzą takie elementy jak:

  • Crawler, Robot, Pająk, Spider, Bot - moduły pobierające dokumenty z sieci
  • Indekser - moduł analizujący i oceniający
  • Searcher - interfejs wyszukujący wyszukiwarki/podsystem odpowiadający na zapytania/analizator zapytań oraz moduł prezentacji wyników

Dochodzą do tego:

  • programy konwersji dokumentów (np. PDF)
  • programy archiwizujące repozytorium (najczęściej w postaci skompresowanej)
  • programy analizy i wykrywania technik niepożądanych (spam)
  • moduły administracyjne

Współczesne oprogramowanie wyszukiwarek jest wysoce skomplikowanym systemem rozproszonym uruchamianym zwykle w wielu oddzielnych etapach na tysiącach oddzielnych komputerów - zarówno ze względu na rozmiar i skalę przeszukiwanej sieci, jak i ze względów na poprawienie dostępności usługi w wypadku awarii poszczególnych komponentów.

M.U.