Wyszukiwarki oparte na uczeniu maszynowym i sztucznej inteligencji

Kiedy miała miejsce ostatnia wielka rewolucja w wyszukiwaniu informacji w Internecie? Po zastanowieniu chyba każdy znający historię sieci powie, że tak naprawdę około dwadzieścia lat temu, gdy Google opracowało swój przełomowy algorytm. Potem był on już tylko udoskonalany i naśladowany.

Najwyższy czas na nową rewolucję w internetowych technikach wyszukiwawczych. Według wielu opinii opierać się ona będzie na uczeniu maszynowym. Oczywiście także tę rewolucję chciałoby przeprowadzić Google, dlatego już od dłuższego czasu słynna firma pracuje nad algorytmem RankBrain, którego aktualizacja z 2015 r. zaprojektowana została do współpracy z wersją wyszukiwarki o nazwie Hummingbird. Ta ostatnia, wprowadzona pięć lat temu, poprawiła zdolność Google’a do identyfikowania kontekstu semantycznego zapytań użytkowników, a nie tylko konkretnych słów kluczowych i zwrotów. Pozwala to zrozumieć znaczenie i prawdziwą intencję pytań wpisywanych do wyszukiwarki.

RankBrain wykorzystuje nauczanie maszynowe, stając się trzecim najważniejszym sygnałem, który poprawia jakość wyników wyszukiwania. Zasadniczo jest przeznaczony do przetwarzania wszystkich nieprzewidywalnych modyfikacji zapytań, które mogą być wymyślone przez użytkowników. Stara się np. zrozumieć i połączyć semantycznie wyrażenia takie jak „warsztat rowerowy w pobliżu”, „gdzie jest najbliższe miejsce do naprawy roweru?” i „jak mogę szybko naprawić rower?”. Wszystkie te pytania mają te same podstawowe intencje i w idealnym modelu wyszukiwania powinny dać podobne wyniki.

Strona wyszukiwarki Google z 1997 r.

Algorytm działa poprzez uważne monitorowanie semantyki zapytań i zachowań użytkowników po uzyskaniu odpowiedzi, aktualizując po drodze swoje rozumienie intencji internautów. Pomaga również w łączeniu wielu powiązanych ze sobą kwestii. Jeśli użytkownik będzie chciał wiedzieć, "gdzie jest pomnik Kościuszki?", a następnie "jak wysoki jest pomnik Kościuszki?", algorytm ma szansę nauczyć się logicznego wiązania obu spraw. RankBrain jest w dodatku stale aktualizowany i sam się doskonali.

W momencie premiery, trzy lata temu, RankBrain był używany do ok. 15% zapytań użytkowników wyszukiwarki Google’a. Dzisiaj jest już wykorzystywany do wszystkich z nich, przez cały czas. Jednak prawdopodobnie mało kto zauważył, że w ogóle istnieje, choć oczywiście nie brakuje ludzi, którzy spostrzegli różnicę w funkcjonowaniu mechanizmu wyszukiwania.

Maszyna - aby lepiej zrozumieć

Do czego wyszukiwarki używają sztucznej inteligencji (AI) czy też systemów uczenia maszynowego? Przede wszystkim do wykrywania wzorców, które pomagają identyfikować spam lub duplikowane, wielokrotnie kopiowane treści. Drastycznie redukuje to potrzebę zatrudniania ludzi do rozpoznawania tego rodzaju niekorzystnych zjawisk. Zdaniem specjalistów w dziedzinie SEO (Search Engine Optimization), nauczanie maszynowe mocno pomaga Google w automatycznym usuwaniu chwastów, czyli niskiej jakości stron z listy wyników wyszukiwania.

RankBrain nie tylko ułatwia identyfikację wzorów w zapytaniach, ale również pomaga wyszukiwarce identyfikować ewentualne nowe sygnały rankingowe, dzięki czemu Google może nieustannie poprawiać jakość wyników wyszukiwania. Ponieważ wyszukiwarki potrafią uczyć się, jak samodzielnie zarządzać przewidywaniami i danymi, zmniejsza się potrzeba pracy ręcznej, a pracownicy mogą zajmować się tym, czego maszyny nie są w stanie zrobić - rozwijać innowacje lub projekty skoncentrowane na człowieku.

Surfujący po sieci mogą w niej wyszukiwać produkty do zakupu, szukać informacji lub po prostu przeszukiwać zasoby. Te same słowa kluczowe są używane do jednego celu lub wielu celów. Analizując wzorce kliknięć i typy wybieranej zawartości, wyszukiwarka może wykorzystać uczenie maszynowe do określenia intencji wyszukującego.

Zrozumienie maszynowo-ludzkie

Jak wynika z badania przeprowadzonego w lipcu 2017 r. na Uniwersytecie Waszyngtońskim, machine learning w wyszukiwarkach może działać w różny sposób, w zależności od kategorii zapytań lub sformułowań. Do analizy wyników dla różnych zapytań naukowcy używali rosyjskiej wyszukiwarki Yandex. Okazało się, że rodzaje wyświetlanych wyników zależą w dużym stopniu od kategorii zapytania lub frazy. Oznacza to, że AI może kłaść większy lub mniejszy nacisk na zmienne w niektórych zapytaniach niż w innych. Wyszukiwarka "uczyła się" preferencji konkretnego użytkownika i opierając swoje informacje na przeszłych zapytaniach, próbowała zaprezentować jak najciekawsze informacje w kolejnych próbach. Jeśli ktoś np. wpisywał hasło "jaguary", a potem chciał szukać najbliższego ogrodu zoologicznego, wpisując w polu zapytania "zoo", Google samo z siebie podpowiadało "zoo z jaguarami".

Wyszukiwarkowa AI coraz lepiej zdaje też egzamin w przeszukiwaniu zasobów zdjęciowych. Systemy uczenia maszynowego potrafią już analizować wzorce kolorów i kształtów oraz kojarzyć je z dowolnym istniejącym schematem danych o zdjęciu, aby pomóc wyszukiwarce zrozumieć, z czym mamy do czynienia na obrazie. W ten sposób Google nauczyło się nie tylko katalogować fotografie do wyników wyszukiwania, ale także wprowadziło funkcję, która pozwala internautom na „wyszukiwanie zdjęciem” zamiast stosowania hasła tekstowego. Użytkownicy są więc w stanie znaleźć w Internecie inne wersje poszukiwanego zdjęcia, jak również podobne fotografie, które zawierają same obiekty, motywy lub kolory plus informacje na temat widocznych obiektów.

Nie rozumiemy, jak działa, ale działa

Chris Nicholson z firmy Skymind

Według opinii krążących w świecie specjalistów w dziedzinie wyszukiwania i wyszukiwarek, nawet oni sami nie do końca rozumieją, jak działają sieci neuronowe. Mechanizmy te jednak dobrze wykonują swoją pracę. Jeśli np. włożymy wystarczająco dużą liczbę zdjęć dziobaka do sieci neuronowej, ta może nauczyć się go samodzielnie rozpoznawać. Jeśli pokażemy sieci neuronowej wystarczającą ilość kodu złośliwego oprogramowania, jest ona w stanie nauczyć się automatycznie rozpoznawać wirusy. Jeśli podamy jej wystarczająco dużo surowych słów lub wyrażeń, które ludzie wpisują do wyszukiwarki, sieć może nauczyć się rozumieć zapytania w locie i pomagać na bieżąco nie tylko na nie odpowiadać, ale nawet precyzyjniej je formułować.

Prawdą jest jednak, że ludzie tracą nad sieciami neuronowymi kontrolę.

"Ale nie tracą jej w całości", zapewniał w "Wired", w 2016 r., Chris Nicholson, założyciel firmy Skymind, rozwijającej techniki uczenia maszynowego. "Sieci neuronowe to tylko matematyka - algebra liniowa. Inżynierowie mogą z powodzeniem śledzić zachowanie liczb wewnątrz tych matematycznych, wielowarstwowych kreacji. Problem polega na tym, że trudno zrozumieć, dlaczego sieć neuronowa w pewien sposób klasyfikuje zdjęcie, słowo mówione lub fragment języka naturalnego".

Jak dodaje Nicholson, sztuczna inteligencja może uzyskać bardzo dokładne wyniki wyszukiwania, ale nie zawsze my, ludzie, jesteśmy w stanie wyjaśnić, co ją doprowadziło do tych dokładnych wyników. Powstaje więc ciekawy paradoks. Nie wiemy dokładnie, czym kieruje się sztuczna inteligencja, ale ona sama całkiem nieźle rozumie nasze wyszukiwawcze intencje i daje nam to, czego chcemy, z coraz większą dokładnością. Redukując nieco cały problem ad absurdum, można by powiedzieć, że w pewnym sensie AI rozumie nas lepiej niż my siebie.