W ostatnich latach usługi Google i Yandex mocno wkroczyły w nasze życie. Pod tym względem wielu prawdopodobnie zastanawia się, co jest wyszukiwarką? Mówiąc najprościej, jest to system oprogramowania przeznaczony do wyszukiwania informacji w sieci WWW. Jego wyniki są zwykle przedstawiane w formie listy, często nazywane stronami wyników wyszukiwania (SERP). Informacje mogą być połączeniem stron internetowych, obrazów i innych typów plików. Niektóre wyszukiwarki zawierają również informacje dostępne w bazach danych lub otwartych katalogach.
W przeciwieństwie do katalogów internetowych, które są obsługiwane tylko przez ich własne edytory, wyszukiwarki zawierają również informacje w czasie rzeczywistym, uruchamiając algorytm w wyszukiwarce internetowej.
Wyszukiwarki pojawiły się przed World Wide Web - w grudniu 1990 roku. Pierwsza taka usługa nosiła nazwę Archie i szukał poleceń na zawartość plików FTP.
Co to jest wyszukiwarka w Internecie? Do września 1993 r. Sieć WWW była całkowicie indeksowana ręcznie. Była tam lista serwerów internetowych, edytowanych przez Tima Bernersa-Lee, które były hostowane na serwerze internetowym CERN. W miarę, jak coraz więcej serwerów przechodziło do trybu online, powyższa usługa nie mogła ich przetworzyć ilość informacji.
Jedną z pierwszych wyszukiwarek opartych na wyszukiwaniu w Internecie był WebCrawler, który został wydany w 1994 roku. W przeciwieństwie do swoich poprzedników, pozwalał użytkownikom wyszukiwać dowolne słowa na dowolnej stronie internetowej. Algorytm ten stał się standardem dla wszystkich głównych wyszukiwarek. Była to również pierwsza decyzja, szeroko znana opinii publicznej. Również w 1994 r. Uruchomiono usługę Lycos, która stała się później ważnym projektem komercyjnym.
Wkrótce potem pojawiło się wiele wyszukiwarek, a ich popularność znacznie wzrosła. Należą do nich Magellan, Excite, Infoseek, Inktomi, Northern Light i AltaVista. Yahoo! był jednym z najpopularniejszych sposobów wyszukiwania interesujących stron internetowych, ale jego algorytm wyszukiwania działał we własnym katalogu stron, a nie na stronach pełnotekstowych. Osoby poszukujące informacji mogą również przeglądać katalog, a nie wyszukiwać według słowa kluczowego.
Google przyjął pomysł sprzedaży zapytań w 1998 roku, zaczynając od małej firmy, goto.com. Ten krok miał znaczący wpływ na działalność SEO, która ostatecznie stała się jedną z najbardziej dochodowych działalności w Internecie.
Około 2000 roku wyszukiwarka Google stała się powszechnie znana. Firma osiągnęła lepsze wyniki dla wielu wyszukiwań dzięki innowacjom o nazwie PageRank. Ten iteracyjny algorytm ocenia strony internetowe na podstawie ich linków do innych stron i stron, opierając się na założeniu, że dobre lub pożądane źródła są często określane przez innych. Google obsługuje również minimalistyczny interfejs dla swojej wyszukiwarki. Wręcz przeciwnie, wielu konkurentów zbudowało wyszukiwarkę do portalu internetowego. W rzeczywistości Google stał się tak popularny, że pojawiły się oszukańcze silniki, takie jak Mystery Seeker. Obecnie istnieje wiele regionalnych wersji tej usługi, w szczególności wyszukiwarka Google.ru, przeznaczona dla rosyjskojęzycznych użytkowników.
Jak jest ranking i dostarczanie wyników? Co to są wyszukiwarki pod względem algorytmu działania? Dostają informacje za pośrednictwem internetu indeksowanego z witryny do witryny. Robot lub "pająk" sprawdza standardową nazwę pliku robots.txt, zaadresowaną do niego, przed wysłaniem określonych informacji do indeksowania. Nacisk kładziony jest na wiele czynników, takich jak nagłówki, zawartość strony, JavaScript, kaskadowe arkusze stylów (CSS), a także standardowy znacznik HTML dla treści lub metadanych w metatagach HTML.
Indeksowanie oznacza łączenie słów i innych definiowalnych tokenów znajdujących się na stronach internetowych z ich nazwami domen i polami opartymi na HTML. Powiązania tworzone są w publicznie dostępnej bazie danych dostępnej dla wyszukiwanych haseł. Żądanie od użytkownika może być jednym słowem. Indeks pomaga znaleźć informacje związane z zapytaniem tak szybko, jak to możliwe.
Niektóre z metody indeksowania i buforowanie to tajemnice handlowe, podczas gdy indeksowanie sieci to prosty proces odwiedzania wszystkich stron w sposób systematyczny.
Pomiędzy odwiedzinami robota, buforowana wersja strony (część lub cała zawartość potrzebna do jej wyświetlenia) przechowywana w pamięci roboczej wyszukiwarki jest szybko przesyłana do użytkownika, który złożył wniosek. Jeśli wizyta jest opóźniona, wyszukiwarka może po prostu działać jako serwer proxy. W takim przypadku strona może różnić się od indeksów wyszukiwania. Źródło z pamięci podręcznej wyświetla wersję, której słowa zostały zindeksowane, więc może być przydatna, jeśli rzeczywista strona została utracona.
Zazwyczaj użytkownik wprowadza zapytanie do wyszukania w postaci kilku słów kluczowych. Indeks ma już nazwy witryn zawierających te słowa kluczowe i są one natychmiast wyświetlane. Prawdziwym obciążeniem jest tworzenie stron internetowych, które są listą wyników wyszukiwania. Każda strona na całej liście powinna być oceniana zgodnie z informacjami w indeksach.
W tym przypadku górny element wyniku wymaga wyszukiwania, rekonstrukcji i zaznaczania fragmentów, które pokazują kontekst dopasowanych słów kluczowych. Jest to tylko część przetwarzania każdej strony internetowej w wynikach wyszukiwania, a kolejne strony (obok niej) wymagają większości dalszego przetwarzania.
Oprócz wyszukiwania słów kluczowych, wyszukiwarki oferują własny GUI lub operatory sterowane poleceniami oraz parametry wyszukiwania w celu zawężenia wyników.
Zapewniają one niezbędne kontrole dla użytkownika za pomocą pętli sprzężenia zwrotnego, filtrując i ważąc przy korygowaniu pożądanych danych na podstawie początkowych stron pierwszych wyników wyszukiwania. Na przykład od 2007 r. Wyszukiwarka Google.com zezwalała na filtrowanie listy wynikowej według daty, klikając "Pokaż narzędzia wyszukiwania" w kolumnie po lewej stronie oryginalnej strony wyników, a następnie wybierając żądany zakres dat.
Większość wyszukiwarek obsługuje użycie operatorów logicznych AND, OR i NOT, aby pomóc użytkownikom końcowym zawężać zapytanie. Niektóre operatory są przeznaczone dla literałów, które pozwalają użytkownikowi zawęzić i rozszerzyć warunki wyszukiwania. Robot wyszukuje słowa lub frazy w taki sam sposób, jak wprowadzane polecenia. Niektóre wyszukiwarki zapewniają zaawansowaną funkcję wyszukiwania, która pozwala użytkownikom określić odległość między słowami kluczowymi.
Istnieje również wyszukiwanie oparte na pojęciu, w którym badania obejmują wykorzystanie analizy statystycznej na stronach zawierających wyrazy lub wyrażenia, których szukasz. Ponadto, prośby w języku naturalnym pozwalają użytkownikowi wprowadzić pytanie w tej samej formie, w jakiej chciałby zapytać osobę (najbardziej typowym przykładem jest ask.com).
Przydatność wyszukiwarki zależy od trafności tworzonego zestawu wyników. Mogą istnieć miliony stron internetowych zawierających określone słowo lub frazę, ale niektóre z nich mogą być bardziej trafne, popularne lub autorytatywne niż inne. Większość wyszukiwarek używa metod rankingu, aby zapewnić najlepsze wyniki.
To, w jaki sposób wyszukiwarka decyduje, które strony są najlepiej dopasowane do zapytania i w jakiej kolejności wyświetlane są znalezione źródła, różni się znacznie w zależności od robota. Metody te zmieniają się w miarę upływu czasu, gdy zmienia się korzystanie z Internetu i rozwój nowych technologii.
Istnieją dwa główne typy wyszukiwarek. Pierwszy to system predefiniowanych i uporządkowanych hierarchicznie słów kluczowych, za pomocą których ludzie masowo go programowali. Drugi to system, który generuje "indeks odwrócony", analizując znalezione teksty.
Większość wyszukiwarek to usługi komercyjne wspierane przez przychody z reklam, a zatem niektóre z nich umożliwiają reklamodawcom uzyskanie oceny w wyświetlanych wynikach za określoną opłatę. Usługi, które nie akceptują rankingu, zarabiają pieniądze, uruchamiając reklamy kontekstowe obok wyświetlanych witryn. Dziś promocja w wyszukiwarkach jest jednym z najbardziej dochodowych zarobków w sieci.
Google jest najpopularniejszą wyszukiwarką na świecie, której udział w rynku wynosi 80,52% od marca 2017 r.
Pełna ocena najczęściej używanych usług (z udziałem w rynku przekraczającym 1%) wygląda następująco:
W Rosji i niektórych krajach Azji Wschodniej Google nie jest najpopularniejszą usługą. Wśród rosyjskich użytkowników wyszukiwarka Yandex jest popularna (61,9%) w porównaniu z Google (28,3%). W Chinach Baidu jest najpopularniejszą usługą. Portalu wyszukiwania w Korei Południowej - Naver jest używany w 70% przypadków wyszukiwania online w kraju. Również Yahoo! w Japonii i na Tajwanie jest najpopularniejszym narzędziem do wyszukiwania właściwych danych.
Inne znane rosyjskie wyszukiwarki to Mail and Rambler. Wraz z początkiem rozwoju Runetu były one szeroko rozpowszechnione, ale teraz straciły wiele ze swoich pozycji.
Chociaż wyszukiwarki są zaprogramowane tak, aby oceniały strony internetowe w oparciu o ich popularność i znaczenie, badania empiryczne wskazują na różne polityczne, ekonomiczne i społeczne kryteria wyboru dostarczanych informacji. Te uprzedzenia mogą być bezpośrednim skutkiem ekonomicznym (na przykład firmy, które reklamują wyszukiwarkę mogą stać się bardziej popularne w zwykłych wynikach wyszukiwania) i procesach politycznych (na przykład usuwanie wyników wyszukiwania zgodnie z lokalnymi przepisami). Dlatego Google nie będzie wyświetlać neo-nazistowskich witryn we Francji i Niemczech, gdzie negowanie Holocaustu jest nielegalne.
Globalny rozwój Internetu i mediów elektronicznych w świecie muzułmańskim w ostatnim dziesięcioleciu skłonił islamskich zwolenników na Bliskim Wschodzie i subkontynencie azjatyckim do próby stworzenia własnych wyszukiwarek i filtrowanych portali, które umożliwią użytkownikom bezpieczne wyszukiwanie.
Takie usługi zawierają filtry, które dalej klasyfikują strony internetowe jako halal lub haram w oparciu o aktualną ekspercką interpretację "prawa islamu".
Portal ImHalal pojawił się online we wrześniu 2011 r., A Halalgoogling - w lipcu 2013 r. Używają filtrów haraam w oparciu o algorytmy Google i Bing.
Inne zorientowane na religię wyszukiwarki to Jewgle (żydowska wersja Google), a także Christian SeekFind.org. Filtrują strony, które negują lub upokarzają swoją wiarę.