Разширена търсачка. Най-добрите интернет търсачки

В тази статия ще намерите преглед на руските търсачки - вътрешни разработки и глобални търсачки, адаптирани за RuNet. Нека направим малък рейтинг от списъка на търсачките в Русия.

История на търсачките в света и Русия

Всичко започна, разбира се, с уебсайтове и директории на уебсайтове, които систематизираха информация за тях. Но имаше все повече и повече сайтове и не беше ясно как бързо да се покажат резултатите от търсенето на няколко сайта и да се сравнят, за да се получи резултат с най-високо качество в отговор на въпроса. Този проблем назрява малко по малко от появата на Интернет.

Но предпоставката за появата на глобални системи за търсене на информация в Интернет е налице отдавна - тъй като броят на сайтовете расте геометрично и сайтовете се появяват на регионални езици, различни от английския. Освен това нараства не само общият брой на сайтовете, но и броят на страниците във всеки от тях. Следователно беше необходима автоматизирана система за индексиране и класиране.

Е, с увеличаването на броя на интернет потребителите по света до повече от 3 милиарда, търсенето и популярността на търсачките се увеличиха. Трябва по някакъв начин да се ориентирате в това море от информация в световната мрежа.

Така се появява първата търсачка Altavista, след това Yahoo, Google и др.

Списък на търсачките в световния интернет

В момента в международния интернет има много търсачки, лидерът сред които е американският Google.

Списък на световните търсачки по азбучен ред:

  1. Baidu;
  2. Bing;
  3. DuckDuckGo;
  4. гигабласт;
  5. Google Търсене;
  6. Soso.com;
  7. Начална страница (Ixquick);
  8. YaCy;
  9. Yahoo! Търсене;
  10. Търсене на Yandex.

На фона на всеобхватното господство на търсачката Google, адаптирана към много местни езици и вградена по подразбиране във всички смартфони с Android, други играчи на пазара се опитват да въведат нови функции за потребителите или да се възползват от други възможности за тяхното популяризиране.

Например DuckDuckGo се грижи за поверителността и сигурността на данните на своите потребители (не ги наблюдава и не продава тази информация на трети страни), а Bing от Microsoft се популяризира като вградена търсачка в EDGE браузъра на Windows 10 операционна система.

От появата на първите търсачки много от тях вече са престанали да съществуват. Други бяха изконсумирани. Като цяло Yahoo се превърна в диверсифицирана компания, чиито значителни приходи идват не от търсене, а от инвестиции в интернет услуги и стартиращи компании.

Сега вероятно е невъзможно да се навлезе на този пазар без значителни инвестиции в маркетинг, наука и технологии. В края на краищата зад минималистичния ред за въвеждане на заявка за търсене се крие ресурсоемък и капиталоемък механизъм, хиляди работещи служители и стотици хиляди човекочасове, които вече са инвестирани в търсачките в близкото минало.

И дори тогава потребителите са много инертни и вече имат формирани предпочитания за търсене, които трудно се променят. Пример за това са неуспешните опити на Microsoft да вземе значителен дял от търсенето на компютри. В много отношения тази ситуация се е развила поради непопулярността на браузърите на MS сред потребителите.

Така че обикновените потребители могат само да изберат най-добрата услуга за търсене за себе си, а също така да изчакат още по-голяма консолидация и монополизация на съществуващите търсачки или появата на нови стартиращи компании в тази област.

Основните търсачки в Рунет

включено руски пазарПовече от десетилетие ситуацията на господство на Yandex продължава, като постепенно губи своя дял под силния натиск на суровия Google. Всъщност тези двама играчи са основните доминиращи търсачки в RuNet. Няма да може да се изгради рейтинг, тъй като в момента разделението на пазара е почти 50/50.

Обърнете внимание!Промоцията под Yandex е различна от промоцията под Google. Как да популяризирате уебсайт в Yandex - .

Google дойде в Русия през 2004 г. и оттогава процент по процент отнема лидерството на руската търсачка Yandex, но все още не го е отнел. Тази ситуация не е уникална на световния пазар; има поне още 2 държави, в които търсачката на Google е срещнала сериозна съпротива: Чехия и Китай (КНР).

За да получите бърза представа за пазара на търсене в RuNet, следвайте връзката https://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

След като PS затвори ключови фрази от броячите на други хора, статистиката на Liveinternet запази стойността си, макар и само защото отчита преходите от търсения в Yandex и Google. И ето какво виждаме:

И за период от 2 години наистина се забелязва свиване на разликата - Google догонва и отвръща на удара на руската търсачка.

Но как е възможно това? Много просто. Вероятно си спомняте, че съвременните front-end разработчици се придържат към принципа „мобилното първо“? И това не е без причина - интернет наистина плавно преминава от десктоп към мобилен телефон.

Какво имаме на нашите смартфони и таблети? Точно така, Android. Какво търсене е инсталирано по подразбиране на Android? Точно така, Google Търсене.

Така стоят нещата. Ако стартирането на Android беше закупено от Samsung, а не от Google, всичко можеше да е различно.

Връщайки се към RuNet и търсачките, не можем да не отбележим постепенния спад в дела на търсенията от Mail.ru, който се движи около 5-6%. Използва се от посетители на уебсайтове на Mail.ru Group.

Има и така наречените търсачки от второ ниво: Rambler, Nigma. Въпреки че би било по-правилно изобщо да не ги вземаме предвид. Rambler (като компания) имаше много проблеми с управлението и търсенето на Rambler „умря“ с времето, неспособно да се справи с маркетинговата конкуренция и технологичната надпревара. Nygma, от своя страна, така и не излетя - вероятно защото руските сърфиращи в интернет вече бяха формирали потребителски навици и предпочитания.

По този начин, през 10-15 години от формирането на „търсещия“ Runet, Yandex загуби титлата на безусловен и безусловен лидер и сега се конкурира при равни условия с американския гигант: губи някъде, печели някъде.

Освен това тенденцията е явно губеща. Но да видим, през 2016 г. никой не знае какво е готов да направи Yandex, за да запази своя дял от търсенето. Може би това ще бъде високотехнологична конкуренция или може би също толкова безмилостен административен ресурс - Yandex вече тества водите, след като наскоро заведе дело срещу Google във FAS и спечели делото. Кой знае, може би Роскомнадзор ще блокира Google на територията на Руската федерация 😀 Разбира се, нищо смешно, но вече не съм сигурен в нищо.

Пазари за търсачки в глобалния интернет

Преминавайки от руския пазар към световния пазар, ще отбележа само, че там няма нищо интересно. Почти неограниченото господство на Google. Разбира се, има интересни ситуации на местните пазари и аз ще ви разкажа за тях.

Турция. Yandex навлезе на турския пазар преди 5 години и до 2016 г. се фиксира на около 5-7%%.

Китай. Baidu доминира, китайското правителство силно защитава местния пазар. И дори западняк не може да разбере йероглифи без бутилка, - подобна функцияместният пазар все още влияе върху качеството на търсенето.

ОНД. Yandex също е приблизително наравно с Google, като губи малко на някои места и печели малко на други. Низходящата тенденция е по-очевидна, отколкото на руския пазар.

САЩ. Американският пазар традиционно остава мястото, където други големи ТНК - Microsoft, AOL, Yahoo - са готови да „ударят Google в лицето“, използвайки всички възможни ресурси. Това не е неконкурентно малко нещо, което не може да устои. Не е изненадващо, че делът на Google не е монопол, а едва надхвърля 60-62% към 2016 г.

Bing на Microsoft се разраства стабилно, а самата компания разбира важността на екосистемата и се опитва да догони Android. Те закупиха Nokia и произвеждат смартфони с Windows на борда, пускат нова операционна система за настолни компютри и таблети и популяризират удобния браузър Edge. Хората работят. Yahoo също не се предава.

Това вероятно е всичко, което може да се каже за търсачките в Русия и ОНД, в световния интернет. Най-популярните от тях са добре познати и твърдо заемат местата си в световната класация на удобни услуги за търсене за интернет потребители.

Тази статия е актуална за 2016 г. и времето ще покаже кой ще стане новият цар на хълма в Русия и света и кой ще напусне пазара. Потребителите нямат друг избор, освен да гледат, да гласуват с рублите и краката си. Тоест с ръцете си.

За професионално търсенеИнтернет изисква специализиран софтуер, както и специализирани търсачки и услуги за търсене.

ПРОГРАМИ

http://dr-watson.wix.com/home – програмата е предназначена да изучава масиви от текстова информация, за да идентифицира обекти и връзки между тях. Резултатът от работата е доклад за изследвания обект.

http://www.fmsasg.com/ - една от най-добрите програми в света за визуализиране на връзки и взаимоотношения Sentinel Vizualizer. Компанията напълно русифицира своите продукти и се свърза гореща линияна руски език.

http://www.newprosoft.com/ – “Web Content Extractor” е най-мощният, лесен за използване софтуер за извличане на данни от уеб сайтове. Освен това има ефективен Visual Web spider.

SiteSputnik софтуерен пакет, който няма аналози в света, позволяващ да търсите и обработвате резултатите от него във видимия и невидимия интернет, като използвате всички търсачки, необходими на потребителя.

WebSite-Watcher – позволява ви да наблюдавате уеб страници, включително защитени с парола, форуми за наблюдение, RSS емисии, новинарски групи, локални файлове. Има мощна филтърна система. Мониторингът се извършва автоматично и се предоставя в удобна за потребителя форма. Програма с разширени функции струва 50 евро. Постоянно се актуализира.

http://www.scribd.com/ е най-популярната платформа в света и все по-често използвана в Русия за публикуване на различни видове документи, книги и др. за свободен достъп с много удобна търсачка за заглавия, теми и др.

http://www.atlasti.com/ - е най-мощният и ефективен инструмент за индивидуални потребители, малък и дори среден бизнес качествен анализинформация. Програмата е многофункционална и следователно полезна. Той съчетава възможността за създаване на единна информационна среда за работа с различни текстови, таблични, аудио и видео файлове като едно цяло, както и инструменти за качествен анализ и визуализация.

Ashampoo ClipFinder HD – все по-голям дял от информационния поток идва от видео. Съответно служителите на конкурентното разузнаване се нуждаят от инструменти, които им позволяват да работят с този формат. Един такъв продукт е безплатната помощна програма, която представяме. Позволява ви да търсите видеоклипове въз основа на определени критерии в сайтове за съхранение на видео файлове като YouTube. Програмата е лесна за използване, показва всички резултати от търсенето на една страница с подробна информация, заглавия, продължителност, време, когато видеото е качено в хранилището и др. Има руски интерфейс.

http://www.advego.ru/plagiatus/ – програмата е направена от SEO оптимизатори, но е доста подходяща като инструмент за интернет разузнаване. Плагиатството показва степента на уникалност на текста, източниците на текста и процента на съвпадение на текста. Програмата също така проверява уникалността на посочения URL. Програмата е безплатна.

http://neiron.ru/toolbar/ – включва добавка за комбиниране на търсене в Google и Yandex, а също така дава възможност за конкурентен анализ въз основа на оценка на ефективността на сайтове и контекстна реклама. Внедрено като плъгин за FF и GC.

http://web-data-extractor.net/ – универсално решениеза получаване на всякакви данни, налични в Интернет. Настройката на изрязване на данни от всяка страница става с няколко щраквания на мишката. Просто трябва да изберете областта с данни, която искате да запазите и Datacol автоматично ще избере формула за изрязване на този блок.

CaptureSaver - професионален инструментИнтернет проучване. Просто незаменима работна програма, което ви позволява да улавяте, съхранявате и експортирате всяка интернет информация, включително не само уеб страници, блогове, но и RSS новини, имейли, изображения и много други. Той има най-широката функционалност, интуитивен интерфейс и смешна цена.

http://www.orbiscope.net/en/software.html – система за уеб мониторинг на повече от достъпни цени.

http://www.kbcrawl.co.uk/ – софтуерза работа, включително в „Невидимия интернет“.

http://www.copernic.com/en/products/agent/index.html – програмата ви позволява да търсите с повече от 90 търсачки, като използвате повече от 10 параметъра. Позволява ви да комбинирате резултати, да елиминирате дубликати, да блокирате повредени връзки и да показвате най-подходящите резултати. Предлага се в безплатни, лични и професионални версии. Използва се от повече от 20 милиона потребители.

Maltego е фундаментално нов софтуер, който ви позволява да установите връзката на субекти, събития и обекти в реалния живот и в Интернет.

УСЛУГИ

ново https://hunter.io/ – ефективна услуга за откриване и проверка на имейл.

https://www.whatruns.com/ е лесен за използване, но ефективен скенер за откриване на това, което работи и не работи на уебсайт и какви са пропуските в сигурността му. Също така имплементиран като плъгин за Chrom.

https://www.crayon.co/ е американска бюджетна платформа за пазарно и конкурентно разузнаване в Интернет.

http://www.cs.cornell.edu/~bwong/octant/ – идентификатор на хост.

https://iplogger.ru/ – проста и удобна услуга за определяне на чужд IP адрес.

http://linkurio.us/ е мощен нов продукт за работниците по икономическа сигурност и разследващите корупция. Обработва и визуализира огромни количества неструктурирана информация от финансови източници.

http://www.intelsuite.com/en – англоезична онлайн платформа за конкурентно разузнаване и мониторинг.

http://yewno.com/about/ е първата операционна система за преобразуване на информация в знание и визуализиране на неструктурирана информация. В момента поддържа английски, френски, немски, испански и португалски.

https://start.avalancheonline.ru/landing/?next=%2F – прогнозни и аналитични услуги от Андрей Масалович.

https://www.outwit.com/products/hub/ – пълен набор от офлайн програми за професионална работав уеб 1.

https://github.com/search?q=user%3Acmlh+maltego – разширения за Maltego.

http://www.whoishostingthis.com/ – търсачка за хостинг, IP адреси и др.

http://appfollow.ru/ – анализ на приложения въз основа на рецензии, ASO оптимизация, позиции в топовете и резултати от търсене за App Store, Google Play и Windows Phone Store.

http://spiraldb.com/ е услуга, реализирана като плъгин за Chrom, която ви позволява да получите много ценна информация за всеки електронен ресурс.

https://millie.northernlight.com/dashboard.php?id=93 - безплатна услуга, която събира и структурира ключова информация за индустрии и компании. Възможно е да се използват информационни панели, базирани на анализ на текст.

http://byratino.info/ – събиране на фактически данни от публично достъпни източници в Интернет.

http://www.datafox.co/ – CI платформата събира и анализира информация за компании, представляващи интерес за клиентите. Има демо.

https://unwiredlabs.com/home - специализирано приложение с API за търсене по геолокация на всяко устройство, свързано с интернет.

http://visualping.io/ – услуга за наблюдение на сайтове и на първо място на наличните в тях снимки и изображения. Дори ако снимката се появи само за секунда, тя ще бъде в имейла на абоната. Има плъгин за Google Chrome.

http://spyonweb.com/ е инструмент за проучване, който позволява задълбочен анализ на всеки интернет ресурс.

http://bigvisor.ru/ – услугата ви позволява да проследявате рекламни кампании за определени сегменти от стоки и услуги или конкретни организации.

http://www.itsec.pro/2013/09/microsoft-word.html – инструкции за употреба от Артем Агеев Windows програмиза нуждите на конкурентното разузнаване.

http://granoproject.org/ е инструмент с отворен код за изследователи, които проследяват мрежи от връзки между индивиди и организации в политиката, икономиката, престъпността и т.н. Позволява ви да свързвате, анализирате и визуализирате информация, получена от различни източници, както и да показвате значими връзки.

http://imgops.com/ – услуга за извличане на метаданни от графични файлове и работа с тях.

http://sergeybelove.ru/tools/one-button-scan/ – малък онлайн скенер за проверка на дупки в сигурността на уебсайтове и други ресурси.

http://isce-library.net/epi.aspx – услуга за търсене на първични източници по фрагмент от текст на английски език

https://www.rivaliq.com/ е ефективен инструмент за провеждане на конкурентно разузнаване на западните, предимно европейски и американски пазари за стоки и услуги.

http://watchthatpage.com/ е услуга, която ви позволява автоматично да събирате нова информация от наблюдаваните интернет ресурси. Услугата е безплатна.

http://falcon.io/ е един вид Rapportive за мрежата. Не е заместител на Rapportive, но предоставя допълнителни инструменти. За разлика от това, Rapportive предоставя общ профил на човек, сякаш залепен от данни от социалните мрежи и споменавания в мрежата http://watchthatpage.com/ - услуга, която ви позволява автоматично да събирате нова информация от наблюдаваните ресурси интернет. Услугата е безплатна.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – добавка за Firefox. Следи актуализациите на уеб страниците. Полезно за уебсайтове, които нямат емисии с новини (Atom или RSS).

http://agregator.pro/ – агрегатор на новинарски и медийни портали. Използва се от търговци, анализатори и др. за анализиране на новинарски потоци по определени теми.

http://price.apishops.com/ – автоматизирана уеб услуга за следене на цени за избрани продуктови групи, конкретни онлайн магазини и други параметри.

http://www.la0.ru/ е удобна и подходяща услуга за анализиране на връзки и препратки към интернет ресурс.

www.recordedfuture.com е мощен инструмент за анализ и визуализация на данни, реализиран като онлайн услуга, изградена върху облачни изчисления.

http://advse.ru/ е услуга със слогана „Разберете всичко за вашите конкуренти“. Позволява ви да получавате уебсайтове на конкуренти в съответствие със заявките за търсене и да анализирате рекламните кампании на конкурентите в Google и Yandex.

http://spyonweb.com/ – услугата ви позволява да идентифицирате сайтове с едни и същи характеристики, включително такива, които използват едни и същи идентификатори на статистически услуги на Google Analytics, IP адреси и др.

http://www.connotate.com/solutions – линия от продукти за конкурентно разузнаване, управление на информационни потоци и преобразуване на информация в информационни активи. Той включва както сложни платформи, така и прости, евтини услуги, които позволяват ефективен мониторинг, заедно с компресиране на информация и получаване само на необходимите резултати.

http://www.clearci.com/ - конкурентна разузнавателна платформа за бизнеси с различни размери от стартиращи и малки компании до Fortune 500 компании, решени като saas.

http://startingpage.com/ е добавка на Google, която ви позволява да търсите с Google, без да записвате своя IP адрес. Напълно поддържа всички възможности за търсене в Google, включително на руски език.

http://newspapermap.com/ е уникална услуга, която е много полезна за офицер от конкурентното разузнаване. Свързва геолокацията с онлайн медийна търсачка. Тези. избирате региона, който ви интересува, или дори град, или език, вижте мястото на картата и списък с онлайн версии на вестници и списания, щракнете върху съответния бутон и прочетете. Поддържа руски език, много удобен интерфейс.

http://infostream.com.ua/ – много удобна система за наблюдение на новини „Infostream“, отличаваща се с първокласна селекция, напълно достъпна за всеки портфейл, от един от класиците на интернет търсенето Д.В.

http://www.instapaper.com/ е много прост и ефективен инструмент за запазване на необходимите уеб страници. Може да се използва на компютри, iPhone, iPad и др.

http://screen-scraper.com/ – ви позволява автоматично да извличате цялата информация от уеб страниците, да изтегляте по-голямата част от файловите формати и автоматично да въвеждате данни в различни форми. Запазва изтеглените файлове и страници в бази данни, извършва много други изключително полезни функции. Работи на всички основни платформи, има напълно функционални безплатни и много мощни професионални версии.

http://www.mozenda.com/ - има няколко тарифни плановеи уеб услуга за многофункционален уеб мониторинг и доставка на информация, необходима на потребителя от избрани сайтове, достъпна дори за малкия бизнес.

http://www.recipdonor.com/ - услугата ви позволява автоматично да наблюдавате всичко, което се случва на уебсайтовете на конкурентите.

http://www.spyfu.com/ – и това е, ако вашите конкуренти са чужденци.

www.webground.su е услуга, създадена от професионалисти в интернет търсенето за наблюдение на Runet, включително всички основни доставчици на информация, новини и т.н., способни на индивидуални настройкинаблюдение според нуждите на потребителя.

ТЪРСАЧКИ

https://www.idmarch.org/ е най-добрата търсачка за световния архив на pdf документи по отношение на качеството. В момента са индексирани повече от 18 милиона pdf документа, вариращи от книги до секретни доклади.

http://www.marketvisual.com/ е уникална търсачка, която ви позволява да търсите собственици и топ мениджмънт по пълно име, име на фирма, длъжност или комбинация от тях. Резултатите от търсенето съдържат не само обектите, които търсите, но и техните връзки. Предназначен предимно за англоговорящите страни.

http://worldc.am/ е търсачка за свободно достъпни снимки, свързани с геолокация.

https://app.echosec.net/ е публична търсачка, която се описва като най-модерния аналитичен инструмент за професионалисти в областта на правоприлагането и сигурността и разузнаването. Позволява ви да търсите снимки, публикувани в различни сайтове, социални платформи и социални мрежи по отношение на конкретни геолокационни координати. В момента има свързани седем източника на данни. До края на годината броят им ще надхвърли 450. Благодаря на Dementy за съвета.

http://www.quandl.com/ е търсачка за седем милиона финансови, икономически и социални бази данни.

http://bitzakaz.ru/ – търсачка за търгове и държавни поръчки с допълнителни платени функции

Website-Finder - дава възможност за намиране на сайтове, които Google не индексира добре. Единственото ограничение е, че за всеки ключова думатърси само в 30 уебсайта. Програмата е лесна за използване.

http://www.dtsearch.com/ е мощна търсачка, която ви позволява да обработвате терабайти текст. Работи на десктоп, уеб и интранет. Поддържа както статични, така и динамични данни. Позволява ви да търсите във всички програми на MS Office. Търсенето се извършва с помощта на фрази, думи, тагове, индекси и много други. Единствената достъпна системаобединено търсене. Има както платени, така и безплатни версии.

http://www.strategator.com/ – търси, филтрира и събира информация за компанията от десетки хиляди уеб източници. Търси в САЩ, Великобритания, големи страни от ЕИО. Той е много подходящ, удобен за потребителя и има безплатни и платени опции ($14 на месец).

http://www.shodanhq.com/ е необичайна търсачка. Веднага след появата си той получава прозвището „Google за хакери“. Той не търси страници, но определя IP адреси, типове рутери, компютри, сървъри и работни станции, разположени на определен адрес, проследява вериги от DNS сървъри и ви позволява да реализирате много други интересни функции за конкурентно разузнаване.

http://search.usa.gov/ – търсачка за сайтове и отворени бази данни на всички държавни агенцииСАЩ. Базите данни съдържат много практична, полезна информация, включително и за ползване у нас.

http://visual.ly/ – днес визуализацията се използва все повече за представяне на данни. Това е първата инфографична търсачка в мрежата. Заедно с търсачката, порталът разполага с мощни инструменти за визуализация на данни, които не изискват умения за програмиране.

http://go.mail.ru/realtime – търсене на дискусии на теми, събития, обекти, предмети в реално или персонализирано време. По-рано силно критикуваното търсене в Mail.ru работи много ефективно и предоставя интересни, подходящи резултати.

Zanran току-що стартира, но вече работи отлично, първата и единствена машина за търсене на данни, която извлича данни от PDF файлове, EXCEL таблици, данни от HTML страници.

http://www.ciradar.com/Competitive-Analysis.aspx е една от най-добрите в света системи за извличане на информация за конкурентно разузнаване в дълбоката мрежа. Извлича почти всички видове файлове във всички формати по интересуващата ви тема. Реализирано като уеб услуга. Цените са повече от приемливи.

http://public.ru/ – Ефективно търсене и професионален анализ на информация, медиен архив от 1990 г. Онлайн медийната библиотека предлага широка гама от информационни услуги: от достъп до електронни архиви на медийни публикации на руски език и готови тематични прегледи на пресата до индивидуален мониторинг и ексклузивни аналитични изследвания, базирани на материали от пресата.

Cluuz е млада търсачка с широки възможности за конкурентно разузнаване, особено в англоезичния интернет. Позволява ви не само да намирате, но и да визуализирате и установявате връзки между хора, компании, домейни, имейли, адреси и др.

www.wolframalpha.com – търсачка утре. В отговор на заявка за търсене, той предоставя статистическа и фактическа информация, налична за обекта на заявката, включително визуализирана информация.

www.ist-budget.ru – универсално търсене в бази данни за държавни поръчки, търгове, аукциони и др.


Доскоро намирането на необходимата информация в световната мрежа не беше толкова лесно. Но благодарение на бързото развитие и появата на нови търсачки, този процес стана много по-удобен и по-бърз. В днешния ни преглед 10-те най най-добрите услугиза търсене на различни видове данни, които могат да намерят всичко необходимо в дълбините на Интернет.

1. Интернет търсачка - Bing


Bing е известна интернет търсачка, създадена през юни 2009 г. Тази услуга се предлага на 40 езика. Той има приблизително 350 милиона уникални посетители месечно.

2. Интернет метатърсачка – AOL Search.com


AOL Search.comе интернет метатърсачка, която е основана в Съединените американски щати през 1985 г. Месечният брой посетители на тази услуга е приблизително 75 милиона души. Позицията главен изпълнителен директор се заема от Тим ​​Армстронг.

3. Интернет търсачка - DuckDuckGo


DuckDuckGoе интернет търсачка с отворен код, стартирана през 2008 г. от Габриел Вайнбърг. Седалището на компанията се намира във Вали Фордж, Пенсилвания. Броят на уникалните посетители, използващи DuckDuckGo, е около 13 милиона души на месец.

4. Интернет търсачка – Ask.com


Ask.comе система за търсене в Интернет, чиято основна функция е да търси отговори на въпроси. Услугата е основана през юни 1996 г. в Бъркли, Калифорния от Гарет Грунър и Дейвид Уортън. Месечният брой на уникалните посетители на тази услуга е приблизително 145 милиона души.

5. Интернет търсачка – Google


Googleе най-известната интернет търсачка, със седалище в Маунтин Вю, Калифорния, Съединени американски щати. Компанията е основана на 4 септември 1998 г. от Лари Пейдж и Сергей Михайлович Брин. Месечният му брой уникални посетители е около 1 100 000 000 души.

6. Система за метатърсене в Интернет - MyWebSearch.com


MyWebSearch.com е интернет метатърсачка, която се нарежда на 73-то място в списъка на най-популярните уебсайтове. Той има приблизително 60 милиона уникални посетители месечно.

7. Интернет метатърсачка - Infospace.com


Представената търсачка е основана през 1996 г. Седалището му се намира в Белвю, Вашингтон, САЩ. Месечен брой уникални посетители Infospace.comе приблизително 24 милиона души.

8. Интернет метатърсачка - WebCrawler.com


WebCrawler.comе интернет метатърсачка, поддържана от Yahoo и Google. Компанията е основана през април 1994 г. Той има приблизително 65 милиона уникални посетители месечно.

9. Интернет метатърсачка - Info.com


Info.comе метатърсачка със седалище в столицата на Обединеното кралство Лондон. Info.com има приблизително 13 милиона уникални посетители месечно.

10. Интернет търсачка – Yahoo


Интернет търсачката, наречена - Yahoo, която е основана през януари 1994 г. от Джери Янг и Дейвид Фийл. генерален директоркомпанията е Marissa Mayer. Месечният му брой уникални посетители е приблизително 300 милиона души. Централата на услугата се намира в Санта Клара, Калифорния, Съединени американски щати.

А любителите на мобилни устройства и компютърни технологии вероятно ще се заинтересуват да разгледат

Търсачки(PS) са задължителна част от Интернет от доста време. Днес те са огромни и сложни механизми, които са не само инструмент за намиране на необходимата информация, но и доста вълнуващи области за бизнеса.


Много потребители на търсачки никога не са мислили за принципите на тяхната работа, как да обработват потребителски заявки или как са изградени и функционират тези системи. Този материалще помогне на хората, които се занимават с оптимизация и разбират структурата и основните функции на търсачките.

Функции и концепция на ПС

Търсачкае хардуерен и софтуерен комплекс, който е предназначен да изпълнява функцията за търсене в Интернет и отговаря на потребителска заявка, която обикновено се посочва под формата на някаква текстова фраза (или по-точно заявка за търсене), издавайки препратка списък с източници на информация, базиран на уместност. Най-често срещаните и най-големи търсачки: Google, Bing, Yahoo, Baidu. В RuNet - Yandex, Mail.Ru, Rambler.

Нека разгледаме по-отблизо значението на заявката за търсене, като вземем за пример системата Yandex.

Заявката трябва да бъде формулирана от потребителя в пълно съответствие с предмета на неговото търсене, възможно най-просто и кратко. Например, искаме да намерим информация в тази търсачка: „как да изберете кола за себе си“. За да направите това, отворете главната страница и въведете заявката за търсене „как да изберем кола“. Тогава нашите функции се свеждат до следване на предоставените връзки към източници на информация в мрежата.




Но дори действайки по този начин, може да не получим информацията, от която се нуждаем. Ако получим такъв отрицателен резултат, просто трябва да преформатираме нашата заявка или наистина няма полезна информация в базата данни за търсене този видзаявка (това е напълно възможно при „тесни“ параметри на заявката, като например „как да избера кола в Анадир“).

Най-основната задача на всяка търсачка е да достави на хората точно този тип информация, от който се нуждаят. И е практически невъзможно да се научат потребителите да създават „правилния“ тип заявки към търсачките, тоест фрази, които ще съответстват на техните принципи на работа.

Ето защо специализираните разработчици на търсачки създават принципи и алгоритми за своята работа, които да позволят на потребителите да намерят информацията, която ги интересува. Това означава, че системата трябва да "мисли" по същия начин, както мисли човек, когато търси необходимата информация в Интернет.

Когато въвежда своето запитване в търсачката, той иска да намери това, което му трябва възможно най-лесно и бързо. След като получи резултата, потребителят прави своята оценка на работата на системата, като се ръководи от няколко критерия. Успя ли да намери информацията, от която се нуждаеше? Ако не, колко пъти е трябвало да преформатира текста на заявката, за да я намери? Колко актуална беше информацията, която получиха? Колко бързо търсачката обработи заявката му? Колко удобни за потребителя бяха предоставените резултати от търсенето? Първи ли беше желаният резултат или беше на 30-то място? Колко „боклуци“ (ненужна информация) бяха намерени заедно с полезна информация? Ще бъде ли намерена подходяща информация за него, когато използва PS, след седмица или след месец?




За да получат правилните отговори на такива въпроси, разработчиците на търсачки непрекъснато подобряват принципите на класиране и неговите алгоритми, добавят нови функции и функции към тях и по всякакъв начин се опитват да направят системата да работи по-бързо.

Основни характеристики на търсачките

Нека посочим основните характеристики на търсенето:

Пълнота.

Пълнотата е една от основни характеристикитърсене, то представлява съотношението на броя на информационните документи, намерени чрез заявка, към общия им брой в Интернет, свързан с тази заявка. Например, в интернет има 100 страници с фразата „как да изберем кола“ и за една и съща заявка са избрани само 60 от общия брой, тогава в този случай пълнотата на търсенето ще бъде 0,6. Ясно е, че колкото по-пълно е самото търсене, толкова по-голяма е вероятността потребителят да намери точно документа, от който се нуждае, разбира се, ако изобщо съществува.

точност.

Друга основна функция на търсачката е точността. Той определя степента, в която страниците, намерени в Интернет, отговарят на заявката на потребителя. Например, ако за ключовата фраза „как да изберем кола“ има сто документа, половината от тях съдържат тази фраза, а останалите просто имат следните думи (как да изберем правилно автомобилно радио и да го инсталираме в кола ), тогава точността на търсенето е 50/100 = 0,5.

Колкото по-точно е търсенето, толкова по-скоро потребителят ще намери необходимата му информация, толкова по-малко различни „боклуци“ ще бъдат намерени сред резултатите, толкова по-малко намерени документи няма да отговарят на смисъла на заявката.

Уместност.

Това е важен компонент на търсенето, който се характеризира с времето, което минава от момента, в който информацията е публикувана в Интернет, до въвеждането й в индексната база данни на търсачката.

Например, в деня след появата на информация за пускането на нов iPad, много потребители се насочиха към търсене с подходящи типове заявки. В повечето случаи информацията за тази новина вече е налична в търсенето, въпреки че е минало много малко време от появата й. Това се дължи на факта, че големите търсачки имат „бърза база данни“, която се актуализира няколко пъти на ден.

Скорост на търсене.

Такава функция като скоростта на търсене е тясно свързана с така наречената „устойчивост на натоварване“. Огромен брой хора имат достъп до търсене всяка секунда; такова натоварване изисква значително намаляване на времето за обработка на една заявка. Тук интересите както на търсачката, така и на потребителя напълно съвпадат: посетителят иска да получи резултати възможно най-бързо, а търсачката трябва да обработи заявката му възможно най-бързо, за да не забави обработката на следващите заявки.

Видимост.

Ясно представяне на резултатите е най-важният елементлекота на търсене. Въз основа на много заявки търсачката намира хиляди, а в някои случаи и милиони, различни документи. Поради неяснотата на съставянето на ключови фрази за търсене или неговата неточност, дори първите резултати от заявката не винаги съдържат само необходимата информация.

Това означава, че човек често трябва да извърши собствено търсене сред предоставените резултати. Различни компоненти на страниците с резултати от търсенето ви помагат да навигирате в резултатите от търсенето.

История на развитието на търсачките

Когато Интернет започна да се развива, броят на неговите редовни потребители беше малък и количеството информация за достъп беше сравнително малко. По принцип само специалисти в изследователски области имаха достъп до тази мрежа. По това време задачата за намиране на информация не беше толкова спешна, колкото сега.

Един от първите методи за организиране на широк достъп до информационни ресурси беше създаването на директории на сайтове и връзките към тях започнаха да се групират по теми. Първият проект беше ресурсът Yahoo.com, който отвори врати през пролетта на 1994 г. Впоследствие, когато броят на сайтовете в директорията на Yahoo се увеличи значително, беше добавена опция за търсене необходимата информацияпо каталог. Това все още не беше пълна система за търсене, тъй като обхватът на такова търсене беше ограничен само до сайтове, включени в тази директория, а не абсолютно всички ресурси в Интернет. Директориите с линкове са били широко използвани в миналото, но днес почти напълно са загубили своята популярност.

В крайна сметка дори днешните каталози, които са огромни по обем, съдържат информация само за малка част от сайтовете в Интернет. Най-известната и голяма директория в света има информация за пет милиона сайта, докато базата данни на Google съдържа информация за повече от 25 милиарда страници.




Първата истинска търсачка беше WebCrawler, която се появи през 1994 г.

На следващата година се появяват AltaVista и Lycos. Освен това първият беше лидер в търсенето на информация за много дълго време.




През 1997 г. Сергей Брин, заедно с Лари Пейдж, създават търсачката Google като изследователски проект в Станфордския университет. Днес това е Google, най-популярната и популярна търсачка в света.




През септември 1997 г. Yandex PS беше обявен (официално), който настоящ моменте най-популярната търсачка в Рунет.




Според септември 2015 г, дяловете на търсачките в света се разпределят както следва:
  • Google - 69.24%;
  • Bing - 12.26%;
  • Yahoo! - 9,19%;
  • Baidu - 6,48%;
  • AOL - 1,11%;
  • Аск - 0,23%;
  • Възбуда - 0.00%


Според декември 2016 г, акции на търсачките в Runet:

  • Яндекс - 48,40%
  • Google - 45,10%
  • Search.Mail.ru - 5,70%
  • Rambler - 0,40%
  • Bing - 0,30%
  • Yahoo - 0,10%

Как работи търсачката

В Русия основна систематърсенето е Yandex, след това Google и след това [email protected]. Всички големи системитърсенията имат своя собствена структура, която е много различна от другите. Но все още е възможно да се идентифицират основните елементи, общи за всички търсачки.

Модул за индексиране.

Този компонент се състои от три програми за роботи:

Паяк(на английски spider) е програма, предназначена за изтегляне на уеб страници. Паякът изтегля определена страница, като едновременно с това извлича всички връзки от нея. HTML кодът се изтегля от почти всяка страница. За целта роботите използват HTTP протоколи.




"Паяк" функционира по следния начин. Роботът изпраща заявка до сървъра „get/path/document“ и други HTTP команди за заявка. В отговор програмата на робота получава текстов поток, който съдържа информация от тип услуга и, разбира се, самия документ.
  • URL на изтеглената страница;
  • дата на изтегляне на страницата;
  • заглавка на http отговора на сървъра;
  • html код, „тяло“ на страницата.
Обхождане(„пътуващ“ паяк). Тази програмаавтоматично посещава всички връзки, които се намират на страницата, и ги подчертава. Неговата задача е да реши къде следва да отиде паякът въз основа на тези връзки или въз основа на даден списък с адреси.

Индексатор(robot indexer) е програма, която анализира страници, изтеглени от паяци.



Индексаторът напълно анализира страницата на нейните съставни елементи и ги анализира, използвайки свои собствени морфологични и лексикални типове алгоритми.

Анализът се извършва на различни части от страницата, като заглавия, текст, връзки, стил и структурни характеристики, html тагове и др.

По този начин модулът за индексиране позволява да се следват връзки към даден брой ресурси, да се изтеглят страници, да се извличат връзки към нови страници от получените документи и да се извършва подробен анализ на тях.

База данни

База данни(или индекс на търсачката) е комплекс за съхранение на данни, масив от информация, в който се съхраняват по определен начин модифицираните параметри на всеки документ, обработен от модула за индексиране и изтеглен.

Сървър за търсене

Това е най-важният елемент от цялата система, тъй като скоростта и, разбира се, качеството на търсенето пряко зависят от алгоритмите, които са в основата на неговата функционалност.

Сървърът за търсене работи по следния начин:

  • Заявката, която идва от потребителя, подлежи на морфологичен анализ. Генерира се информационната среда на всеки документ, наличен в базата данни (впоследствие ще се покаже като фрагмент, т.е. информационно поле от текст, съответстващ на дадена заявка).
  • Получените данни се подават като входни параметри към специализиран ранкинг модул. Те се обработват за всички документи и в резултат на това за всеки такъв документ се изчислява собствен рейтинг, който характеризира съответствието на такъв документ с искането на потребителя и други компоненти.
  • В зависимост от условията, посочени от потребителя, тази оценка може да бъде коригирана от допълнителни.
  • След това се генерира самият фрагмент, т.е. За всеки намерен документ заглавието, резюмето, което най-добре отговаря на заявката, и връзката към този документ се извличат от съответната таблица, а намерените словоформи и думи се маркират.
  • Резултатите от полученото търсене се предават на лицето, което го е извършило, под формата на страница, на която се показват резултатите от търсенето (SERP).
Всички тези елементи са тясно свързани помежду си и функционират, взаимодействайки, образувайки отделен, но доста сложен механизъм за функциониране на ПС, изискващ огромен разход на ресурси.

Те отдавна са се превърнали в неразделна част от руския интернет. Търсачките вече са огромни и сложни механизми, които представляват не само инструмент за търсене на информация, но и примамливи области за бизнес.

Повечето потребители на търсачки никога не са се замисляли (или са се замисляли, но не са намерили отговор) за принципа на работа на търсачките, схемата за обработка на потребителските заявки, от какво се състоят тези системи и как функционират...

Този майсторски клас е предназначен да отговори на въпроса как работят търсачките. Тук обаче няма да намерите фактори, които влияят върху класирането на документите. Освен това не трябва да разчитате на подробно обяснение на алгоритъма на Yandex. Той, според Иля Сегалович, директор по технологиите и развитието на търсачката Yandex, може да бъде разпознат само „под мъчения“ от самия Иля Сегалович...

2. Понятие и функции на търсачката

Системата за търсене е софтуерен и хардуерен комплекс, предназначен да търси в Интернет и да отговаря на потребителска заявка, посочена под формата на текстова фраза (заявка за търсене), чрез създаване на списък с връзки към източници на информация, по ред на уместност ( в съответствие с искането). Най-големите международни търсачки: "гугъл", Yahoo , MSN . В руския интернет това са Yandex, Rambler, Aport.

Нека разгледаме по-подробно концепцията за заявка за търсене, като използваме търсачката Yandex като пример. Заявката за търсене трябва да бъде формулирана от потребителя в съответствие с това, което той иска да намери, възможно най-кратко и просто. Да приемем, че искаме да намерим информация в Yandex как да изберем кола. За да направите това, отворете главната страница на Yandex и въведете текста на заявката за търсене „как да изберем кола“. След това нашата задача се свежда до отваряне на предоставените по наша заявка връзки към източници на информация в Интернет. Напълно възможно е обаче да не намерим нужната ни информация. Ако това се случи, тогава или трябва да преформулирате заявката си, или базата данни на търсачката наистина няма подходяща информация за нашата заявка (това може да се случи, когато задавате много „тесни“ заявки, като например „как да избера кола в Архангелск”)

Основната цел на всяка търсачка е да достави на хората точно тази информация, която търсят. И научете потребителите да правят „правилни“ заявки към системата, т.е. заявки, които отговарят на принципите на работа на търсачките, са невъзможни. Ето защо разработчиците създават алгоритми и принципи на работа за търсачките, които биха позволили на потребителите да намерят информацията, която търсят.

Това означава, че търсачката трябва да „мисли“ по същия начин, по който мисли потребителят, когато търси информация. Когато потребител направи заявка към търсачка, той иска да намери това, от което се нуждае възможно най-бързо и лесно. Получавайки резултата, той оценява производителността на системата, като се ръководи от няколко основни параметъра. Намери ли това, което търсеше? Ако не го намери, колко пъти е трябвало да преформулира заявката, за да намери това, което търси? Колко подходяща информация би могъл да намери? Колко бързо търсачката обработи заявката? Колко удобни за потребителя бяха представените резултати от търсенето? Първият ли беше резултатът, който търсехте, или стотният? Колко ненужни боклуци бяха намерени заедно с полезна информация? Ще бъде ли намерена необходимата информация при достъп до търсачка, да речем, след седмица или след месец?

За да отговорят на всички тези въпроси, разработчиците на търсачки непрекъснато подобряват алгоритмите и принципите на търсене, добавят нови функции и възможности и се опитват по всякакъв начин да ускорят работата на системата.

3. Основни характеристики на търсачката

Нека опишем основните характеристики на търсачките:

  • Пълнота

    Пълнотата е една от основните характеристики на системата за търсене, която е съотношението на броя на документите, намерени чрез заявка, към общия брой документи в Интернет, които удовлетворяват дадената заявка. Например, ако в интернет има 100 страници, съдържащи фразата „как да изберем кола“ и само 60 от тях са намерени за съответната заявка, тогава пълнотата на търсенето ще бъде 0,6. Очевидно е, че колкото по-пълно е търсенето, толкова по-малка е вероятността потребителят да не намери документа, от който се нуждае, при условие че той изобщо съществува в Интернет.

  • точност

    Точността е друга основна характеристика на търсачката, която се определя от степента, в която намерените документи отговарят на заявката на потребителя. Например, ако заявката „как да избера кола“ съдържа 100 документа, 50 от тях съдържат фразата „как да изберем кола“, а останалите просто съдържат тези думи („как да избера правилното радио и да го инсталирам в кола”), тогава точността на търсенето се счита за равна на 50/100 (=0,5). Колкото по-точно е търсенето, толкова по-бързо потребителят ще намери нужните документи, толкова по-малко различни видове „боклук“ ще бъдат намерени сред тях, толкова по-рядко намерените документи няма да отговарят на заявката.

  • Уместност

    Уместността е също толкова важен компонент на търсенето, който се характеризира с времето, което минава от момента на публикуване на документите в Интернет до въвеждането им в индексната база данни на търсачката. Например, в деня след появата на интересни новини, голям брой потребители се обърнаха към търсачките с подходящи заявки. Обективно не е минало и един ден от публикуването на новинарска информация по тази тема, но основните документи вече са индексирани и достъпни за търсене, благодарение на съществуването на т. нар. „бърза база данни“ на големите търсачки, която се актуализира няколко пъти на ден.

  • Скорост на търсене

    Скоростта на търсене е тясно свързана с неговата устойчивост на натоварване. Например, според Rambler Internet Holding LLC, днес в работно време търсачката Rambler получава около 60 заявки в секунда. Такова натоварване изисква намаляване на времето за обработка на отделна заявка. Тук интересите на потребителя и търсачката съвпадат: посетителят иска да получи резултати възможно най-бързо, а търсачката трябва да обработи заявката възможно най-бързо, за да не забави изчисляването на следващите заявки.

  • Видимост

4. Кратка историяразвитие на търсачката

В началния период на развитие на интернет броят на неговите потребители беше малък, а количеството налична информация беше сравнително малко. В по-голямата си част само научният персонал имаше достъп до интернет. По това време задачата за търсене на информация в Интернет не беше толкова спешна, колкото сега.

Един от първите начини за организиране на достъпа до мрежови информационни ресурси беше създаването на отворени директории на сайтове, връзките към ресурсите, в които бяха групирани по теми. Първият такъв проект беше уебсайтът Yahoo.com, който отвори врати през пролетта на 1994 г. След като броят на сайтовете в каталога се увеличи значително, беше добавена възможност за търсене на необходимата информация в каталога. В пълния смисъл това все още не беше търсачка, тъй като областта за търсене беше ограничена само до ресурсите, присъстващи в каталога, а не до всички интернет ресурси.

Директориите с връзки са били широко използвани в миналото, но почти напълно са загубили популярността си в наши дни. Тъй като дори съвременните каталози, огромни по обем, съдържат информация само за незначителна част от Интернет. Най-голямата директория на мрежата DMOZ (наричана още Open Directory Project) съдържа информация за 5 милиона ресурса, докато базата данни на търсачката Google се състои от повече от 8 милиарда документа.

През 1995 г. се появяват търсачките Lycos и AltaVista. Последно в продължение на много годинибеше лидер в областта на търсенето на информация в Интернет.

През 1997 г. Сергей Брин и Лари Пейдж създават търсачката Google като част от изследователски проектв Станфордския университет. В момента Google е най-популярната търсачка в света!

През септември 1997 г. беше официално обявена търсачката Yandex, която е най-популярната в рускоезичния интернет.

В момента има три основни търсачки (международни) - Google, Yahoo и , които имат собствени бази данни и алгоритми за търсене. Повечето други търсачки (които са голям брой) използват под една или друга форма резултатите от трите изброени. Например търсенето на AOL (search.aol.com) използва базата данни на Google, докато AltaVista, Lycos и AllTheWeb използват базата данни на Yahoo.

5. Състав и принципи на работа на търсещата система

В Русия основната търсачка е Yandex, следвана от Rambler.ru, Google.ru, Aport.ru, Mail.ru. Освен това в момента Mail.ru използва търсачката и базата данни Yandex.

Почти всички големи търсачки имат своя собствена структура, различна от другите. Въпреки това е възможно да се идентифицират основните компоненти, общи за всички търсачки. Разликите в структурата могат да бъдат само във формата на изпълнение на механизмите на взаимодействие на тези компоненти.

Модул за индексиране

Модулът за индексиране се състои от три помощни програми (роботи):

Spider е програма, предназначена за изтегляне на уеб страници. Паякът изтегля страницата и извлича всички вътрешни връзки от тази страница. Изтегля се html кодът на всяка страница. Роботите използват HTTP протоколи за изтегляне на страници. Паякът работи по следния начин. Роботът изпраща заявката „get/path/document“ и някои други HTTP команди за заявка към сървъра. В отговор роботът получава текстов поток, съдържащ служебна информация и самия документ.

  • URL адрес на страницата
  • датата на изтегляне на страницата
  • http заглавка на отговора на сървъра
  • тяло на страницата (html код)

Crawler („пътуващ“ паяк) е програма, която автоматично следва всички връзки, намерени на страницата. Избира всички налични връзки на страницата. Неговата задача е да определи къде следва да отиде паякът въз основа на връзки или въз основа на предварително определен списък от адреси. Crawler, следвайки намерените връзки, търси нови документи, които все още не са известни на търсачката.

Indexer (робот индексатор) е програма, която анализира уеб страници, изтеглени от паяци. Индексаторът анализира страницата на нейните съставни части и ги анализира, използвайки свои собствени лексикални и морфологични алгоритми. Анализират се различни елементи на страницата, като текст, заглавия, връзки, структурни и стилови характеристики, специални сервизни HTML тагове и др.

По този начин модулът за индексиране ви позволява да обхождате даден набор от ресурси с помощта на връзки, да изтегляте открити страници, да извличате връзки към нови страници от получените документи и да извършвате пълен анализ на тези документи.

База данни

Базата данни или индексът на търсачката е система за съхранение на данни, информационен масив, в който се съхраняват специално преобразувани параметри на всички документи, изтеглени и обработени от модула за индексиране.

Сървър за търсене

Сървърът за търсене е най-важният елемент от цялата система, тъй като качеството и скоростта на търсенето директно зависят от алгоритмите, които са в основата на неговото функциониране.

Сървърът за търсене работи по следния начин:

  • Получената от потребителя заявка се подлага на морфологичен анализ. Генерира се информационната среда на всеки документ, съдържащ се в базата данни (която впоследствие ще бъде показана във формуляра, т.е. текстова информация, съответстваща на заявката на страницата с резултати от търсенето).
  • Получените данни се подават като входни параметри към специален модул за класиране. Данните се обработват за всички документи, в резултат на което всеки документ има своя собствена оценка, която характеризира уместността на въведената от потребителя заявка и различните компоненти на този документ, съхранявани в индекса на търсачката.
  • В зависимост от избора на потребителя, тази оценка може да бъде коригирана допълнителни условия(например така нареченото „разширено търсене“).
  • След това се генерира фрагмент, тоест за всеки намерен документ, заглавието, кратко резюме, което най-добре съответства на заявката, и връзка към самия документ се извличат от таблицата с документи и намерените думи се маркират.
  • Получените резултати от търсенето се предават на потребителя под формата на SERP (Search Engine Result Page) – страница с резултати от търсенето.

Както можете да видите, всички тези компоненти са тясно свързани помежду си и работят във взаимодействие, образувайки ясен, доста сложен механизъм за работа на система за търсене, изискващ огромни количества ресурси.

6. Заключение

Сега нека обобщим всичко по-горе.

  • Основната цел на всяка търсачка е да достави на хората точно тази информация, която търсят.
  • Основни характеристики на търсачките:
    1. Пълнота
    2. точност
    3. Уместност
    4. Скорост на търсене
    5. Видимост
  • Първата пълноценна търсачка беше проектът WebCrawler, публикуван през 1994 г.
  • Системата за търсене включва следните компоненти:
    1. Модул за индексиране
    2. База данни
    3. Сървър за търсене

Надяваме се, че нашият майсторски клас ще ви позволи да се запознаете по-добре с концепцията за търсачка и да разберете по-добре основните функции, характеристики и принципи на работа на търсачките.



Споделете