Avancerad sökmotor. De bästa sökmotorerna på internet

I den här artikeln hittar du en översikt över ryska sökmotorer - inhemsk utveckling och globala sökmotorer anpassade för RuNet. Låt oss göra ett litet betyg från listan över sökmotorer i Ryssland.

Historia om sökmotorer i världen och Ryssland

Allt började förstås med webbplatser och webbplatskataloger som systematiserade information om dem. Men det blev fler och fler sajter, och det var inte klart hur man snabbt skulle visa sökresultat på flera sajter och jämföra dem för att få högsta kvalitet på resultatet som svar på frågan. Detta problem har växt upp lite i taget sedan Internets tillkomst.

Men förutsättningen för framväxten av globala system för att söka information på Internet har funnits länge - eftersom antalet webbplatser växer geometriskt och webbplatser visas på andra regionala språk än engelska. Dessutom ökade inte bara det totala antalet webbplatser, utan antalet sidor på var och en av dem ökade också. Därför behövdes ett automatiserat indexerings- och rankningssystem.

Tja, med ökningen av antalet Internetanvändare runt om i världen till mer än 3 miljarder, har efterfrågan och populariteten för sökmotorer ökat. Du måste på något sätt navigera i detta hav av information på World Wide Web.

Så här dök den första sökmotorn Altavista upp, sedan Yahoo, Google och andra.

Lista över sökmotorer på världens Internet

För närvarande finns det många sökmotorer på det internationella Internet, bland vilka den ledande är amerikanska Google.

Lista över världens sökmotorer i alfabetisk ordning:

  1. Baidu;
  2. Bing;
  3. DuckDuckGo;
  4. Gigablast;
  5. Google Sök;
  6. Soso.com;
  7. Startsida (Ixquick);
  8. YaCy;
  9. Yahoo! Söka;
  10. Yandex-sökning.

Mot bakgrund av den omfattande dominansen av Googles sökmotor, anpassad till många lokala språk och inbyggd i alla Android-smartphones som standard, försöker andra marknadsaktörer att introducera nya funktioner för användare eller dra nytta av andra möjligheter för deras marknadsföring.

DuckDuckGo bryr sig till exempel om integriteten och säkerheten för sina användares data (den övervakar inte dem eller säljer denna information till tredje part), och Bing från Microsoft marknadsförs som en inbyggd sökmotor i EDGE-webbläsaren i Windows 10 operativsystem.

Sedan uppkomsten av de första sökmotorerna har många av dem redan upphört att existera. Andra konsumerades. Yahoo har i allmänhet blivit ett diversifierat företag, vars betydande inkomst inte kom från sök, utan från investeringar i internettjänster och nystartade företag.

Nu är det förmodligen omöjligt att komma in på denna marknad utan betydande investeringar i marknadsföring, vetenskap och teknik. När allt kommer omkring, bakom den minimalistiska sökfrågeinmatningsraden döljer sig en resurs- och kapitalkrävande mekanism, tusentals arbetande anställda och hundratusentals mantimmar som redan har investerats i sökmotorer på senare tid.

Och även då är användare väldigt inerta och har redan skapat sökpreferenser som är svåra att ändra. Ett exempel på detta är Microsofts misslyckade försök att ta en betydande del av sökningen på datorer. På många sätt har denna situation utvecklats på grund av att MS-webbläsare är impopular bland användare.

Så vanliga användare kan bara välja den bästa söktjänsten för sig själva och även vänta på ännu större konsolidering och monopolisering av befintliga sökmotorer, eller uppkomsten av nya startups inom detta område.

Stora sökmotorer i RuNet

ryska marknaden I mer än ett decennium har situationen med Yandex-dominans bestått och gradvis förlorat sin andel under det hårda angreppet från Google. Egentligen är dessa två aktörer de främsta dominerande sökmotorerna i RuNet. Det kommer inte att vara möjligt att konstruera en rating, eftersom marknadsdelningen för närvarande är nästan 50/50.

Var uppmärksam! Kampanj under Yandex skiljer sig från marknadsföring under Google. Hur man marknadsför en webbplats i Yandex - .

Google kom till Ryssland 2004 och sedan dess har det, procentuellt sett, tagit bort ledarskapet från den ryska sökmotorn Yandex, men det har fortfarande inte tagit bort det. Denna situation är inte unik på världsmarknaden, det finns minst två länder till där Googles sökmotor har stött på allvarligt motstånd: Tjeckien och Kina (PRC).

För att få en snabb uppfattning om sökmarknaden i RuNet, följ länken https://www.liveinternet.ru/stat/ru/searches.html?period=month;total=yes

Efter att PS stängde nyckelfraser från andras räknare, behöll Liveinternet-statistiken sitt värde, om än bara för att de räknar övergångar från Yandex- och Google-sökningar. Och det här är vad vi ser:

Och under en period på 2 år är en minskning av klyftan verkligen synlig - Google kommer ikapp och slår tillbaka på den ryska sökmotorn.

Men hur är detta möjligt? Väldigt enkelt. Du kommer säkert ihåg att moderna front-end-utvecklare följer principen "mobil först"? Och det är inte utan anledning - Internet går verkligen smidigt från dator till mobil.

Vad har vi på våra smartphones och surfplattor? Det stämmer, Android. Vilken sökning är installerad som standard på Android? Det stämmer, Google Sök.

Det är så det är. Om Android-startupen hade köpts av Samsung och inte Google kunde allt ha varit annorlunda.

För att återgå till RuNet och sökmotorer kan man inte låta bli att notera den gradvisa nedgången i andelen sökningar från Mail.ru, som rör sig runt 5-6%. Den används av besökare på Mail.ru Groups webbplatser.

Det finns också så kallade second-tier sökmotorer: Rambler, Nigma. Även om det vore mer korrekt att inte ta hänsyn till dem alls. Rambler (som företag) hade många problem med ledningen och Rambler-sökningen "döde" med tiden, oförmögen att hantera marknadsföringskonkurrensen och den tekniska kapplöpningen. Nygma tog i sin tur aldrig fart - förmodligen för att ryska internetsurfare redan hade skapat användarvanor och preferenser.

Under de 10-15 åren av bildandet av "sök" Runet har Yandex alltså förlorat titeln som villkorslös och villkorslös ledare och konkurrerar nu på lika villkor med den amerikanska jätten: förlora någonstans, vinna någonstans.

Dessutom tappar trenden helt klart. Men låt oss se, 2016 vet ingen vad Yandex är redo att göra för att behålla sin sökandel. Kanske blir det högteknologisk konkurrens, eller kanske en lika hänsynslös administrativ resurs – Yandex testar redan vattnet, efter att nyligen ha lämnat in en stämningsansökan mot Google i FAS och vunnit fallet. Vem vet, kanske Roskomnadzor blockerar Google på Ryska federationens territorium 😀 Naturligtvis inget roligt, men jag är inte längre säker på någonting.

Sökmotormarknader på det globala Internet

När jag flyttar från den ryska marknaden till världsmarknaden, ska jag bara notera att det inte finns något intressant där. Googles nästan gränslösa dominans. Naturligtvis finns det intressanta situationer på lokala marknader, och jag ska berätta om dem.

Turkiet. Yandex gick in på den turkiska marknaden för 5 år sedan och 2016 fastställdes till cirka 5-7 %%.

Kina. Baidu dominerar, den kinesiska regeringen skyddar starkt den lokala marknaden. Och även en västerlänning kan inte räkna ut hieroglyfer utan en flaska, - liknande funktion den lokala marknaden påverkar fortfarande sökkvaliteten.

CIS. Yandex är också ungefär lika med Google, förlorar lite på vissa ställen och vinner lite på andra. Den nedåtgående trenden är tydligare än på den ryska marknaden.

USA. Den amerikanska marknaden förblir traditionellt platsen där andra stora TNC - Microsoft, AOL, Yahoo - är redo att "knäppa Google i ansiktet" med alla möjliga resurser. Detta är inte en okonkurrenskraftig liten sak som inte kan motstå. Det är inte förvånande att Googles andel inte är ett monopol, utan knappt överstiger 60-62% från och med 2016.

Microsofts Bing växer stadigt, och företaget förstår själva vikten av ekosystemet och håller på med Android. De köpte Nokia och producerar smartphones med Windows ombord, rullar ut ett nytt operativsystem för stationära datorer och surfplattor och marknadsför den bekväma Edge-webbläsaren. Folk arbetar. Yahoo ger inte upp heller.

Det är förmodligen allt som kan sägas om sökmotorer i Ryssland och OSS, på världens Internet. De mest populära av dem är välkända och håller stadigt sina platser i den globala rankningen av bekväma söktjänster för internetanvändare.

Den här artikeln är relevant för 2016 och tiden kommer att utvisa vem som kommer att bli den nya kungen av kullen i Ryssland och världen, och vem som kommer att lämna marknaden. Användare har inget annat val än att titta, rösta med sina rubel och sina fötter. Det vill säga med händerna.

För professionellt sökande Internet kräver specialiserad programvara, samt specialiserade sökmotorer och söktjänster.

PROGRAM

http://dr-watson.wix.com/home – programmet är utformat för att studera mängder av textinformation för att identifiera enheter och kopplingar mellan dem. Resultatet av arbetet är en rapport om föremålet som studeras.

http://www.fmsasg.com/ - ett av de bästa programmen i världen för att visualisera anslutningar och relationer Sentinel Vizualizer. Företaget har helt russat sina produkter och anslutit hotline på ryska.

http://www.newprosoft.com/ – "Web Content Extractor" är den mest kraftfulla, lättanvända programvaran för att extrahera data från webbplatser. Den har också en effektiv Visual Web-spindel.

SiteSputnik ett mjukvarupaket som inte har några analoger i världen, vilket gör att du kan söka och bearbeta dess resultat på det synliga och osynliga internet, med alla sökmotorer som behövs för användaren.

WebSite-Watcher – låter dig övervaka webbsidor, inklusive lösenordsskyddade, övervakningsforum, RSS-flöden, nyhetsgrupper, lokala filer. Har ett kraftfullt filtersystem. Övervakning sker automatiskt och levereras i en användarvänlig form. Ett program med avancerade funktioner kostar 50 euro. Ständigt uppdaterad.

http://www.scribd.com/ är den populäraste plattformen i världen och används allt mer i Ryssland för att lägga upp olika typer av dokument, böcker, etc. för fri tillgång med en mycket bekväm sökmotor för titlar, ämnen etc.

http://www.atlasti.com/ – är det mest kraftfulla och effektiva verktyget som finns tillgängligt för enskilda användare, små och till och med medelstora företag kvalitativ analys information. Programmet är multifunktionellt och därför användbart. Den kombinerar förmågan att skapa en enhetlig informationsmiljö för att arbeta med olika text-, tabell-, ljud- och videofiler som en helhet, samt verktyg för kvalitativ analys och visualisering.

Ashampoo ClipFinder HD – en ständigt ökande del av informationsflödet kommer från video. Följaktligen behöver konkurrerande underrättelsetjänstemän verktyg som gör att de kan arbeta med detta format. En sådan produkt är det kostnadsfria verktyget vi presenterar. Det låter dig söka efter videor baserat på angivna kriterier på videofillagringssajter som YouTube. Programmet är lätt att använda, visar alla sökresultat på en sida med detaljerad information, titlar, varaktighet, tid när videon laddades upp till lagringen, etc. Det finns ett ryskt gränssnitt.

http://www.advego.ru/plagiatus/ – programmet gjordes av SEO-optimerare, men är ganska lämpligt som ett internetintelligensverktyg. Plagiat visar graden av unikhet hos texten, textens källor och procentandelen av textmatchning. Programmet kontrollerar också unikheten hos den angivna URL:en. Programmet är gratis.

http://neiron.ru/toolbar/ – innehåller ett tillägg för att kombinera Google och Yandex-sökning, och möjliggör även konkurrensanalys baserad på bedömning av effektiviteten hos webbplatser och kontextuell annonsering. Implementerad som en plugin för FF och GC.

http://web-data-extractor.net/ – universell lösning för att få all information tillgänglig på Internet. Att ställa in dataklippning från valfri sida görs med några få musklick. Du behöver bara välja det dataområde som du vill spara och Datacol kommer automatiskt att välja en formel för att klippa ut detta block.

CaptureSaver - professionellt verktyg Internetforskning. Helt enkelt oersättlig arbetsprogram, som låter dig fånga, lagra och exportera all Internetinformation, inklusive inte bara webbsidor, bloggar, utan även RSS-nyheter, e-post, bilder och mycket mer. Den har den bredaste funktionaliteten, ett intuitivt gränssnitt och ett löjligt pris.

http://www.orbiscope.net/en/software.html – webbövervakningssystem till mer än överkomliga priser.

http://www.kbcrawl.co.uk/ – programvara för arbete, bland annat på "Invisible Internet".

http://www.copernic.com/en/products/agent/index.html – programmet låter dig söka med mer än 90 sökmotorer med mer än 10 parametrar. Låter dig kombinera resultat, eliminera dubbletter, blockera trasiga länkar och visa de mest relevanta resultaten. Kommer i gratis, personliga och professionella versioner. Används av mer än 20 miljoner användare.

Maltego är en i grunden ny programvara som låter dig fastställa förhållandet mellan ämnen, händelser och objekt i verkligheten och på Internet.

TJÄNSTER

nya https://hunter.io/ – en effektiv tjänst för att upptäcka och kontrollera e-post.

https://www.whatruns.com/ är en lättanvänd men effektiv skanner för att upptäcka vad som fungerar och inte fungerar på en webbplats och vad dess säkerhetshål är. Även implementerad som en plugin för Chrom.

https://www.crayon.co/ är en amerikansk budgetplattform för marknads- och konkurrensinformation på Internet.

http://www.cs.cornell.edu/~bwong/octant/ – värdidentifierare.

https://iplogger.ru/ – en enkel och bekväm tjänst för att fastställa någon annans IP.

http://linkurio.us/ är en kraftfull ny produkt för ekonomisk säkerhetsarbetare och korruptionsutredare. Bearbetar och visualiserar enorma mängder ostrukturerad information från finansiella källor.

http://www.intelsuite.com/en – engelskspråkig onlineplattform för konkurrenskraftig intelligens och övervakning.

http://yewno.com/about/ är det första operativsystemet för att översätta information till kunskap och visualisera ostrukturerad information. Stöder för närvarande engelska, franska, tyska, spanska och portugisiska.

https://start.avalancheonline.ru/landing/?next=%2F – prognos- och analystjänster av Andrey Masalovich.

https://www.outwit.com/products/hub/ – en komplett uppsättning offlineprogram för professionellt arbete i webben 1.

https://github.com/search?q=user%3Acmlh+maltego – tillägg för Maltego.

http://www.whoishostingthis.com/ – sökmotor för hosting, IP-adresser, etc.

http://appfollow.ru/ – analys av applikationer baserat på recensioner, ASO-optimering, placeringar i toppar och sökresultat för App Store, Google Play och Windows Phone Store.

http://spiraldb.com/ är en tjänst implementerad som en plugin för Chrom, som låter dig få mycket värdefull information om vilken elektronisk resurs som helst.

https://millie.northernlight.com/dashboard.php?id=93 - en gratistjänst som samlar in och strukturerar nyckelinformation om branscher och företag. Det är möjligt att använda informationspaneler baserade på textanalys.

http://byratino.info/ – insamling av faktauppgifter från allmänt tillgängliga källor på Internet.

http://www.datafox.co/ – CI-plattformen samlar in och analyserar information om företag av intresse för kunder. Det finns en demo.

https://unwiredlabs.com/home - en specialiserad applikation med ett API för sökning med geolokalisering av alla enheter som är anslutna till Internet.

http://visualping.io/ – en tjänst för att övervaka sajter och först och främst de fotografier och bilder som finns på dem. Även om bilden bara dyker upp en sekund, kommer den att finnas i abonnentens e-post. Har ett plugin för Google Chrome.

http://spyonweb.com/ är ett forskningsverktyg som möjliggör en djupgående analys av alla Internetresurser.

http://bigvisor.ru/ – tjänsten låter dig spåra reklamkampanjer för vissa segment av varor och tjänster, eller specifika organisationer.

http://www.itsec.pro/2013/09/microsoft-word.html – bruksanvisningar av Artem Ageev Windows-program för konkurrenskraftiga underrättelsebehov.

http://granoproject.org/ är ett verktyg med öppen källkod för forskare som spårar nätverk av kopplingar mellan individer och organisationer inom politik, ekonomi, kriminalitet, etc. Låter dig ansluta, analysera och visualisera information som erhållits från olika källor, samt visa betydande samband.

http://imgops.com/ – en tjänst för att extrahera metadata från grafiska filer och arbeta med dem.

http://sergeybelove.ru/tools/one-button-scan/ – en liten onlineskanner för att kontrollera säkerhetshål på webbplatser och andra resurser.

http://isce-library.net/epi.aspx – tjänst för att söka primära källor med hjälp av ett fragment av text på engelska

https://www.rivaliq.com/ är ett effektivt verktyg för att genomföra konkurrensunderrättelser på västerländska, främst europeiska och amerikanska marknader för varor och tjänster.

http://watchthatpage.com/ är en tjänst som låter dig automatiskt samla in ny information från övervakade internetresurser. Tjänsten är gratis.

http://falcon.io/ är ett slags Rapportive for the Web. Det är inte en ersättning för Rapportive, men ger ytterligare verktyg. Däremot tillhandahåller Rapportive en allmän profil av en person, som om den limmas ihop från data från sociala nätverk och omnämnanden på webben http://watchthatpage.com/ - en tjänst som låter dig automatiskt samla in ny information från övervakade resurser Internet. Tjänsten är gratis.

https://addons.mozilla.org/ru/firefox/addon/update-scanner/ – tillägg för Firefox. Övervakar uppdateringar av webbsidor. Användbar för webbplatser som inte har nyhetsflöden (Atom eller RSS).

http://agregator.pro/ – aggregator av nyhets- och medieportaler. Används av marknadsförare, analytiker, etc. att analysera nyhetsflöden om vissa ämnen.

http://price.apishops.com/ – automatiserad webbtjänst för övervakning av priser för utvalda produktgrupper, specifika nätbutiker och andra parametrar.

http://www.la0.ru/ är en bekväm och relevant tjänst för att analysera länkar och bakåtlänkar till en internetresurs.

www.recordedfuture.com är ett kraftfullt verktyg för dataanalys och visualisering, implementerat som en onlinetjänst byggd på cloud computing.

http://advse.ru/ är en tjänst med sloganen "Ta reda på allt om dina konkurrenter." Låter dig få konkurrenters webbplatser i enlighet med sökfrågor och analysera konkurrenters reklamkampanjer i Google och Yandex.

http://spyonweb.com/ – tjänsten låter dig identifiera webbplatser med samma egenskaper, inklusive de som använder samma Google Analytics statistiktjänstidentifierare, IP-adresser, etc.

http://www.connotate.com/solutions – en produktlinje för konkurrenskraftig intelligens, hantering av informationsflöden och omvandling av information till informationstillgångar. Den innehåller både komplexa plattformar och enkla, billiga tjänster som möjliggör effektiv övervakning tillsammans med informationskomprimering och erhåller endast de nödvändiga resultaten.

http://www.clearci.com/ - konkurrenskraftig intelligensplattform för företag av olika storlekar från nystartade företag och småföretag till Fortune 500-företag. Löst som saas.

http://startingpage.com/ är ett Google-tillägg som låter dig söka på Google utan att registrera din IP-adress. Stöder fullt ut alla Googles sökfunktioner, inklusive på ryska.

http://newspapermap.com/ är en unik tjänst som är mycket användbar för en konkurrenskraftig underrättelseofficer. Kopplar samman geolokalisering med en sökmotor online. Dessa. du väljer den region du är intresserad av, eller till och med en stad eller ett språk, se platsen på kartan och en lista över onlineversioner av tidningar och tidskrifter, klicka på lämplig knapp och läs. Stöder ryska språket, mycket användarvänligt gränssnitt.

http://infostream.com.ua/ – ett mycket bekvämt nyhetsövervakningssystem "Infostream", kännetecknat av ett förstklassigt urval, helt tillgängligt för alla plånböcker, från en av klassikerna inom internetsökning, D.V.

http://www.instapaper.com/ är ett mycket enkelt och effektivt verktyg för att spara nödvändiga webbsidor. Kan användas på datorer, iPhones, iPads, etc.

http://screen-scraper.com/ – låter dig automatiskt extrahera all information från webbsidor, ladda ner de allra flesta filformat och automatiskt mata in data i olika former. Sparar nedladdade filer och sidor i databaser, utför många andra extremt användbara funktioner. Fungerar på alla större plattformar, har fullt fungerande gratis och mycket kraftfulla professionella versioner.

http://www.mozenda.com/ - med flera tariffplaner och en webbtjänst för multifunktionell webbövervakning och leverans av information som behövs för användaren från utvalda webbplatser, tillgänglig även för småföretag.

http://www.recipdonor.com/ – tjänsten låter dig automatiskt övervaka allt som händer på konkurrenternas hemsidor.

http://www.spyfu.com/ – och detta är om dina konkurrenter är utländska.

www.webground.su är en tjänst som skapats av professionella internetsökare för att övervaka Runet, inklusive alla större leverantörer av information, nyheter etc., som kan individuella inställningarövervakning enligt användarens behov.

SÖKMOTORER

https://www.idmarch.org/ är den bästa sökmotorn för världsarkivet av pdf-dokument vad gäller kvalitet. För närvarande har mer än 18 miljoner pdf-dokument indexerats, allt från böcker till hemliga rapporter.

http://www.marketvisual.com/ är en unik sökmotor som låter dig söka efter ägare och högsta ledning med fullständigt namn, företagsnamn, position eller en kombination därav. Sökresultaten innehåller inte bara de objekt du letar efter, utan även deras kopplingar. Designad främst för engelsktalande länder.

http://worldc.am/ är en sökmotor för fritt tillgängliga fotografier kopplade till geolokalisering.

https://app.echosec.net/ är en offentlig sökmotor som beskriver sig själv som det mest avancerade analysverktyget för brottsbekämpande och säkerhets- och underrättelsepersonal. Låter dig söka efter foton som publicerats på olika webbplatser, sociala plattformar och sociala nätverk i relation till specifika geolokaliseringskoordinater. Det finns för närvarande sju datakällor anslutna. I slutet av året kommer deras antal att vara mer än 450. Tack till Dementy för tipset.

http://www.quandl.com/ är en sökmotor för sju miljoner finansiella, ekonomiska och sociala databaser.

http://bitzakaz.ru/ – sökmotor för anbud och statliga order med ytterligare betalda funktioner

Website-Finder – gör det möjligt att hitta sajter som Google inte indexerar bra. Den enda begränsningen är att för varje nyckelord den söker bara på 30 webbplatser. Programmet är lätt att använda.

http://www.dtsearch.com/ är en kraftfull sökmotor som låter dig bearbeta terabyte text. Fungerar på desktop, webb och intranät. Stöder både statisk och dynamisk data. Låter dig söka i alla MS Office-program. Sökningen görs med hjälp av fraser, ord, taggar, index och mycket mer. Den enda tillgängligt system federerad sökning. Den har både betal- och gratisversioner.

http://www.strategator.com/ – söker, filtrerar och samlar information om företaget från tiotusentals webbkällor. Sökningar i USA, Storbritannien, större EEC-länder. Det är mycket relevant, användarvänligt och har gratis och betalda alternativ ($14 per månad).

http://www.shodanhq.com/ är en ovanlig sökmotor. Omedelbart efter sitt framträdande fick han smeknamnet "Google för hackare". Den söker inte efter sidor, utan bestämmer IP-adresser, typer av routrar, datorer, servrar och arbetsstationer på en viss adress, spårar kedjor av DNS-servrar och låter dig implementera många andra intressanta funktioner för konkurrenskraftig intelligens.

http://search.usa.gov/ – sökmotor för webbplatser och öppna databaser för alla statliga myndigheter USA. Databaserna innehåller mycket praktisk, användbar information, bland annat för användning i vårt land.

http://visual.ly/ – idag används visualisering allt mer för att presentera data. Detta är den första infografiska sökmotorn på webben. Tillsammans med sökmotorn har portalen kraftfulla datavisualiseringsverktyg som inte kräver programmeringskunskaper.

http://go.mail.ru/realtime – sök efter diskussioner om ämnen, händelser, objekt, ämnen i realtid eller anpassningsbar tid. Den tidigare hårt kritiserade sökningen i Mail.ru fungerar mycket effektivt och ger intressanta, relevanta resultat.

Zanran har precis lanserats, men fungerar redan utmärkt, den första och enda datasökmotorn som extraherar data från PDF-filer, EXCEL-tabeller, data på HTML-sidor.

http://www.ciradar.com/Competitive-Analysis.aspx är ett av världens bästa system för informationsinhämtning för konkurrenskraftig intelligens på den djupa webben. Hämtar nästan alla typer av filer i alla format på ämnet av intresse. Implementerad som webbtjänst. Priserna är mer än rimliga.

http://public.ru/ – Effektiv sökning och professionell analys av information, mediearkiv sedan 1990. Onlinemediebiblioteket erbjuder ett brett utbud av informationstjänster: från tillgång till elektroniska arkiv med ryskspråkiga mediepublikationer och färdiga tematiska pressrecensioner till individuell övervakning och exklusiv analytisk forskning baserad på pressmaterial.

Cluuz är en ung sökmotor med stora möjligheter till konkurrenskraftig intelligens, särskilt på det engelskspråkiga internet. Låter dig inte bara hitta, utan också visualisera och upprätta kopplingar mellan personer, företag, domäner, e-post, adresser, etc.

www.wolframalpha.com – sökmotor i morgon. Som svar på en sökförfrågan tillhandahåller den statistisk och faktainformation tillgänglig om förfrågningsobjektet, inklusive visualiserad information.

www.ist-budget.ru – universell sökning i databaser för offentlig upphandling, anbud, auktioner, etc.


Tills nyligen var det inte så lätt att hitta den nödvändiga informationen på World Wide Web. Men tack vare den snabba utvecklingen och uppkomsten av nya sökmotorer har denna process blivit mycket bekvämare och snabbare. I vår dagens recension, de 10 mest bästa tjänsterna att söka efter olika typer av data som kan hitta allt du behöver i djupet av Internet.

1. Sökmotor på internet - Bing


Bing är en berömd internetsökmotor som skapades i juni 2009. Denna tjänst är tillgänglig på 40 språk. Den har cirka 350 miljoner unika besökare varje månad.

2. Internet-metasökmotor - AOL Search.com


AOL Search.comär en internetmetasökmotor som grundades i USA 1985. Det månatliga antalet besökare till denna tjänst är cirka 75 miljoner människor. VD-posten besätts av Tim Armstrong.

3. Sökmotor på Internet - DuckDuckGo


DuckDuckGoär en internetsökmotor med öppen källkod som lanserades 2008 av Gabriel Weinberg. Företagets huvudkontor ligger i Valley Forge, Pennsylvania. Antalet unika besökare som använder DuckDuckGo är cirka 13 miljoner människor per månad.

4. Internetsökmotor - Ask.com


Ask.comär ett internetsöksystem, vars huvudfunktion är att söka efter svar på frågor. Tjänsten grundades i juni 1996 i Berkeley, Kalifornien av Garrett Gruner och David Wharton. Det månatliga antalet unika besökare till denna tjänst är cirka 145 miljoner människor.

5. Sökmotor på internet - Google


Googleär den mest kända sökmotorn på Internet, med huvudkontor i Mountain View, Kalifornien, USA. Företaget grundades den 4 september 1998 av Larry Page och Sergei Mikhailovich Brin. Dess månatliga antal unika besökare är cirka 1 100 000 000 personer.

6. Internet-metasöksystem - MyWebSearch.com


MyWebSearch.com är en internetmetasökmotor som rankas på plats 73 på listan över populäraste webbplatser. Den har cirka 60 miljoner unika besökare varje månad.

7. Internet-metasökmotor - Infospace.com


Den presenterade sökmotorn grundades 1996. Dess huvudkontor ligger i Bellevue, Washington, USA. Månatligt antal unika besökare Infospace.comär cirka 24 miljoner människor.

8. Internet-metasökmotor - WebCrawler.com


WebCrawler.comär en internetmetasökmotor som drivs av Yahoo och Google. Företaget grundades i april 1994. Den har cirka 65 miljoner unika besökare varje månad.

9. Internet-metasökmotor - Info.com


Info.comär en metasökmotor med huvudkontor i Storbritanniens huvudstad London. Info.com har cirka 13 miljoner unika besökare varje månad.

10. Internetsökmotor – Yahoo


Internet sökmotor som heter - Yahoo, som grundades i januari 1994 av Jerry Yang och David Feal. Generaldirektör företaget är Marissa Mayer. Dess månatliga antal unika besökare är cirka 300 miljoner människor. Tjänstens huvudkontor ligger i Santa Clara, Kalifornien, USA.

Och älskare av mobila enheter och datorteknik kommer förmodligen att vara intresserade av att titta på

Sökmotorer(PS) har varit en obligatorisk del av Internet under ganska lång tid nu. Idag är de enorma och komplexa mekanismer som inte bara är ett verktyg för att hitta all nödvändig information, utan också ganska spännande områden för företag.


Många sökanvändare har aldrig tänkt på principerna för deras verksamhet, hur man behandlar användarförfrågningar eller hur dessa system är uppbyggda och fungerar. Detta material kommer att hjälpa människor som är inblandade i optimering och förstå sökmotorernas struktur och huvudfunktioner.

Funktioner och koncept för PS

Sökmotorär ett hårdvaru- och mjukvarukomplex som är utformat för att utföra sökfunktionen på Internet och svarar på en användarförfrågan, som vanligtvis anges i form av någon textfras (eller mer exakt, en sökfråga), som ger en referens lista till informationskällor, baserat på relevans. De vanligaste och största sökmotorerna: Google, Bing, Yahoo, Baidu. I RuNet - Yandex, Mail.Ru, Rambler.

Låt oss ta en närmare titt på innebörden av sökfrågan och ta Yandex-systemet som ett exempel.

Begäran måste formuleras av användaren i full överensstämmelse med föremålet för hans sökning, så enkelt och kortfattat som möjligt. Till exempel vill vi hitta information i den här sökmotorn: "hur du väljer en bil för dig själv." För att göra detta, öppna huvudsidan och skriv in sökfrågan "hur man väljer en bil." Då reduceras våra funktioner till att följa de angivna länkarna till informationskällor i nätverket.




Men även om vi agerar på det här sättet kanske vi inte får den information vi behöver. Om vi ​​fick ett sådant negativt resultat behöver vi bara formatera om vår fråga, annars finns det verkligen ingen användbar information i sökdatabasen denna art fråga (detta är fullt möjligt med tanke på "smala" frågeparametrar, som till exempel "hur man väljer en bil i Anadyr").

Den mest grundläggande uppgiften för varje sökmotor är att leverera till människor exakt den typ av information som de behöver. Och det är praktiskt taget omöjligt att lära användarna att skapa den "rätta" typen av frågor till sökmotorer, det vill säga fraser som motsvarar deras driftsprinciper.

Det är därför specialiserade sökmotorutvecklare skapar principer och algoritmer för sitt arbete som gör det möjligt för användare att hitta den information de är intresserade av. Det innebär att systemet måste ”tänka” på samma sätt som en person tänker när man söker efter nödvändig information på Internet.

När han skriver in sin fråga i en sökmotor vill han hitta det han behöver så enkelt och snabbt som möjligt. Efter att ha fått resultatet gör användaren sin bedömning av systemets prestanda, styrd av flera kriterier. Kunde han hitta den information han behövde? Om inte, hur många gånger behövde han formatera om frågetexten för att hitta den? Hur uppdaterad var informationen de fick? Hur snabbt behandlade sökmotorn hans förfrågan? Hur användarvänliga var sökresultaten? Var det önskade resultatet först, eller låg det på 30:e plats? Hur mycket "skräp" (onödig information) hittades tillsammans med användbar information? Kommer relevant information att hittas för honom när du använder PS:n om en vecka eller om en månad?




För att få rätt svar på sådana frågor, förbättrar sökutvecklare ständigt principerna för rankning och dess algoritmer, lägger till nya funktioner och funktioner till dem och försöker på alla sätt få systemet att fungera snabbare.

Huvudegenskaper hos sökmotorer

Låt oss ange huvudegenskaperna för sökningen:

Fullständighet.

Fullständighet är en av huvudsakliga egenskaper sökning representerar det förhållandet mellan antalet informationsdokument som hittats på begäran och deras totala antal på Internet relaterat till denna begäran. Till exempel finns det 100 sidor på Internet med frasen "hur man väljer en bil", och för samma fråga valdes endast 60 av det totala, då i det här fallet blir sökningens fullständighet 0,6. Det är tydligt att ju mer komplett sökningen i sig är, desto större är sannolikheten att användaren hittar exakt det dokument han behöver, naturligtvis, om det överhuvudtaget finns.

Noggrannhet.

En annan huvudfunktion hos en sökmotor är noggrannhet. Det avgör i vilken grad sidorna som hittas på Internet matchar användarens begäran. Till exempel, om det för nyckelfrasen "hur man väljer en bil" finns hundra dokument, innehåller hälften av dem denna fras, och resten har helt enkelt följande ord (hur man väljer en bilradio korrekt och installerar den i en bil ), då är söknoggrannheten lika med 50/100 = 0,5.

Ju mer exakt sökningen är, desto snabbare kommer användaren att hitta den information han behöver, desto mindre olika "skräp" kommer att hittas bland resultaten, desto färre dokument som hittas kommer inte att motsvara betydelsen av begäran.

Relevans.

Detta är en betydande del av sökningen, som kännetecknas av den tid som går från det att information publiceras på Internet tills den läggs in i sökmotorns indexdatabas.

Till exempel, dagen efter att information om lanseringen av en ny iPad dök upp, vände sig många användare för att söka med relevanta typer av frågor. I de flesta fall är information om den här nyheten redan tillgänglig i sökningen, även om det har gått väldigt lite tid sedan dess uppträdande. Det beror på att de stora sökmotorerna har en "snabb databas", som uppdateras flera gånger om dagen.

Sökhastighet.

En sådan funktion som sökhastighet är nära relaterad till det så kallade "belastningsmotståndet". Ett stort antal personer får tillgång till sökningar varje sekund som kräver en betydande minskning av tiden för att behandla en begäran. Här sammanfaller både sökmotorns och användarens intressen helt: besökaren vill få resultat så snabbt som möjligt, och sökmotorn måste behandla sin förfrågan så snabbt som möjligt, för att inte sakta ner behandlingen av efterföljande förfrågningar.

Synlighet.

En tydlig presentation av resultatet är det viktigaste elementet lätt att söka. Baserat på många frågor hittar sökmotorn tusentals, och i vissa fall miljontals, olika dokument. På grund av vagheten i sammanställningen av nyckelfraser för sökningen eller dess felaktighet, innehåller inte ens de allra första sökresultaten alltid bara den nödvändiga informationen.

Detta innebär att en person ofta måste göra sin egen sökning bland de resultat som tillhandahålls. Olika komponenter på sökresultatsidorna hjälper dig att navigera i sökresultaten.

Historien om utvecklingen av sökmotorer

När Internet först började utvecklas var antalet vanliga användare litet och mängden information att få tillgång till var relativt liten. I princip var det bara specialister inom forskningsområden som hade tillgång till detta nätverk. Då var uppgiften att hitta information inte lika akut som nu.

En av de allra första metoderna för att organisera bred tillgång till informationsresurser var skapandet av webbplatskataloger, och länkar till dem började grupperas efter ämne. Det första projektet var Yahoo.com-resursen, som öppnade våren 1994. Därefter, när antalet sajter i Yahoo-katalogen ökade markant, lades ett sökalternativ till nödvändig information enligt katalogen. Det var ännu inte ett fullständigt söksystem, eftersom omfattningen av en sådan sökning endast var begränsad till webbplatser som ingår i denna katalog, och inte absolut alla resurser på Internet. Länkkataloger användes ofta i det förflutna, men nuförtiden har de nästan helt tappat sin popularitet.

Trots allt innehåller även dagens kataloger, som är enorma i volym, information om endast en liten del av webbplatser på Internet. Den mest kända och största katalogen i världen har information om fem miljoner sajter, medan Googles databas innehåller information om mer än 25 miljarder sidor.




Den allra första riktiga sökmotorn var WebCrawler, som dök upp redan 1994.

Året därpå dök AltaVista och Lycos upp. Dessutom var den första ledaren inom informationssökning under mycket lång tid.




1997 skapade Sergey Brin tillsammans med Larry Page Googles sökmotor som ett forskningsprojekt vid Stanford University. Idag är det Google, den mest populära och populära sökmotorn i världen.




I september 1997 tillkännagavs Yandex PS (officiellt), vilket nuvarande ögonblickär den mest populära sökmotorn på RuNet.




Enligt september 2015, är andelarna av sökmotorer i världen fördelade enligt följande:
  • Google - 69,24 %;
  • Bing - 12,26%;
  • Yahoo! -9,19%;
  • Baidu - 6,48%;
  • AOL - 1,11%;
  • Fråga - 0,23%;
  • Spänning - 0,00 %


Enligt december 2016, andelar av sökmotorer i Runet:

  • Yandex - 48,40 %
  • Google - 45,10 %
  • Search.Mail.ru - 5,70 %
  • Rambler - 0,40 %
  • Bing - 0,30 %
  • Yahoo - 0,10 %

Hur en sökmotor fungerar

I Ryssland huvudsystemet Sök är Yandex, sedan Google och sedan [email protected]. Alla stora system sökningar har sin egen struktur, som skiljer sig mycket från andra. Men det är fortfarande möjligt att identifiera de grundläggande elementen som är gemensamma för alla sökmotorer.

Indexeringsmodul.

Denna komponent består av tre robotprogram:

Spindel(på engelska spider) är ett program som är designat för att ladda ner webbsidor. Spindeln laddar ner en specifik sida och extraherar samtidigt alla länkar från den. HTML-kod laddas ner från nästan varje sida. För detta använder robotar HTTP-protokoll.




"Spider" fungerar enligt följande. Roboten skickar en begäran till servern "get/path/document" och andra HTTP-begärankommandon. Som svar får robotprogrammet en textström som innehåller tjänsteinformation och, naturligtvis, själva dokumentet.
  • URL till den nedladdade sidan;
  • datum då sidan laddades ned;
  • server http-svarshuvud;
  • html-kod, "brödtext" på sidan.
Crawler("resande" spindel). Detta program besöker automatiskt alla länkar som finns på sidan och lyfter även fram dem. Dess uppgift är att bestämma var spindeln ska gå härnäst, baserat på dessa länkar eller baserat på en given lista med adresser.

Indexerare(robot indexer) är ett program som analyserar sidor som spindlar har laddat ner.



Indexeraren analyserar sidan helt och hållet i dess beståndsdelar och analyserar dem med sina egna morfologiska och lexikaliska typer av algoritmer.

Analysen utförs på olika delar av sidan, såsom rubriker, text, länkar, stil och strukturella funktioner, html-taggar, etc.

Således gör indexeringsmodulen det möjligt att följa länkar för ett givet antal resurser, ladda ner sidor, extrahera länkar till nya sidor från mottagna dokument och utföra en detaljerad analys av dem.

Databas

Databas(eller sökmotorindex) är ett datalagringskomplex, en uppsättning information där de modifierade parametrarna för varje dokument som behandlas av indexeringsmodulen och laddas ner lagras på ett visst sätt.

Sök server

Detta är den viktigaste delen av hela systemet, eftersom hastigheten och, naturligtvis, kvaliteten på sökningen beror direkt på algoritmerna som ligger till grund för dess funktionalitet.

Sökservern fungerar enligt följande:

  • Begäran som kommer från användaren är föremål för morfologisk analys. Informationsmiljön för varje dokument som är tillgängligt i databasen genereras (det kommer därefter att visas som ett utdrag, dvs. ett informationsfält med text som motsvarar en given begäran).
  • Den mottagna datan skickas som indataparametrar till en specialiserad rankningsmodul. De bearbetas för alla dokument, och som ett resultat beräknas för varje sådant dokument dess egna betyg, vilket kännetecknar relevansen av ett sådant dokument för användarens begäran och andra komponenter.
  • Beroende på de villkor som anges av användaren, kan denna klassificering mycket väl justeras med ytterligare.
  • Då genereras själva utdraget, d.v.s. För alla dokument som hittas extraheras titeln, sammandraget som bäst matchar frågan och en länk till detta dokument från motsvarande tabell, och de hittade ordformerna och orden markeras.
  • Resultaten av den resulterande sökningen överförs till den person som utförde den i form av en sida där sökresultat (SERP) visas.
Alla dessa element är nära besläktade med varandra och fungerar, interagerar, bildar en distinkt men ganska komplex mekanism för PS:s funktion, vilket kräver enorma resursutgifter.

De har länge blivit en integrerad del av det ryska Internet. Sökmotorer är nu enorma och komplexa mekanismer som inte bara representerar ett informationssökningsverktyg utan också frestande områden för företag.

De flesta sökmotoranvändare har aldrig tänkt (eller tänkt på det, men inte hittat ett svar) på principen för sökmotorernas funktion, schemat för att behandla användarförfrågningar, vad dessa system består av och hur de fungerar...

Denna mästarklass är utformad för att svara på frågan om hur sökmotorer fungerar. Däremot hittar du inte här faktorer som påverkar rangordningen av dokument. Dessutom bör du inte räkna med en detaljerad förklaring av Yandex-algoritmen. Han, enligt Ilya Segalovich, chef för teknik och utveckling av Yandex sökmotor, kan bara kännas igen "under tortyr" av Ilya Segalovich själv ...

2. Koncept och funktioner för en sökmotor

Ett söksystem är ett mjukvaru- och hårdvarukomplex utformat för att söka på Internet och svara på en användarförfrågan, specificerad i form av en textfras (sökfråga), genom att skapa en lista med länkar till informationskällor, i ordning efter relevans ( i enlighet med begäran). De största internationella sökmotorerna: "Google", Yahoo , MSN . På det ryska Internet är dessa Yandex, Rambler, Aport.

Låt oss ta en närmare titt på konceptet med en sökfråga med hjälp av Yandex sökmotor som exempel. Sökfrågan bör formuleras av användaren i enlighet med vad han vill hitta, så kort och enkelt som möjligt. Låt oss säga att vi vill hitta information i Yandex om hur man väljer en bil. För att göra detta, öppna Yandex huvudsida och skriv in texten i sökfrågan "hur man väljer en bil." Därefter kommer vår uppgift till att öppna länkarna som tillhandahålls på vår begäran till informationskällor på Internet. Det är dock mycket möjligt att vi inte hittar den information vi behöver. Om detta händer måste du antingen formulera om din förfrågan, eller så har sökmotordatabasen verkligen ingen relevant information om vår förfrågan (detta kan hända när du ställer mycket "snäva" frågor, som till exempel "hur man väljer en bil i Archangelsk”)

Det primära målet för alla sökmotorer är att ge människor exakt den information de letar efter. Och lär användarna att göra "korrekta" förfrågningar till systemet, d.v.s. frågor som följer sökmotorernas funktionsprinciper är omöjliga. Därför skapar utvecklare algoritmer och funktionsprinciper för sökmotorer som gör det möjligt för användare att hitta den information de letar efter.

Det betyder att sökmotorn måste "tänka" på samma sätt som användaren tänker när de söker information. När en användare gör en förfrågan till en sökmotor vill han hitta det han behöver så snabbt och enkelt som möjligt. När han tar emot resultatet utvärderar han systemets prestanda, styrt av flera grundläggande parametrar. Hittade han det han letade efter? Om han inte hittade det, hur många gånger behövde han omformulera frågan för att hitta det han letade efter? Hur mycket relevant information kunde han hitta? Hur snabbt behandlade sökmotorn begäran? Hur användarvänliga presenterades sökresultaten? Var resultatet du letade efter det första eller det hundrade? Hur mycket onödigt skräp hittades tillsammans med användbar information? Kommer den nödvändiga informationen att hittas när du använder en sökmotor, till exempel om en vecka eller om en månad?

För att tillfredsställa alla dessa frågor med svar, förbättrar sökmotorutvecklare ständigt sökalgoritmer och principer, lägger till nya funktioner och möjligheter och försöker på alla möjliga sätt att påskynda driften av systemet.

3. Huvudegenskaper hos sökmotorn

Låt oss beskriva de viktigaste egenskaperna hos sökmotorer:

  • Fullständighet

    Fullständighet är en av de viktigaste egenskaperna hos ett söksystem, vilket är förhållandet mellan antalet dokument som hittas på begäran och det totala antalet dokument på Internet som uppfyller den givna begäran. Till exempel, om det finns 100 sidor på Internet som innehåller frasen "hur man väljer en bil" och bara 60 av dem hittades för motsvarande fråga, blir sökningens fullständighet 0,6. Uppenbarligen, ju mer komplett sökningen är, desto mindre sannolikt är det att användaren inte hittar det dokument han behöver, förutsatt att det finns på Internet överhuvudtaget.

  • Noggrannhet

    Noggrannhet är en annan huvudegenskap för en sökmotor, som bestäms av i vilken grad de hittade dokumenten matchar användarens begäran. Till exempel, om frågan "hur man väljer en bil" innehåller 100 dokument, innehåller 50 av dem frasen "hur man väljer en bil", och resten innehåller helt enkelt dessa ord ("hur man väljer rätt radio och installerar den i en bil”), då anses söknoggrannheten vara lika med 50/100 (=0,5). Ju mer exakt sökningen är, desto snabbare kommer användaren att hitta de dokument han behöver, desto mindre olika typer av "skräp" kommer att hittas bland dem, desto mindre ofta motsvarar de hittade dokumenten inte begäran.

  • Relevans

    Relevans är en lika viktig komponent i sökningen, som kännetecknas av den tid som går från det att dokument publiceras på Internet tills de läggs in i sökmotorns indexdatabas. Till exempel, dagen efter att intressanta nyheter dök upp, vände sig ett stort antal användare till sökmotorer med relevanta frågor. Objektivt sett har mindre än en dag gått sedan publiceringen av nyhetsinformation om detta ämne, men huvuddokumenten har redan indexerats och tillgängliga för sökning, tack vare existensen av den så kallade "snabba databasen" med stora sökmotorer, som uppdateras flera gånger om dagen.

  • Sökhastighet

    Sökhastigheten är nära relaterad till dess belastningsmotstånd. Till exempel, enligt Rambler Internet Holding LLC, idag, under kontorstid, tar Ramblers sökmotor emot cirka 60 förfrågningar per sekund. Sådan arbetsbelastning kräver att handläggningstiden för en individuell förfrågan minskar. Här sammanfaller användarens och sökmotorns intressen: besökaren vill få resultat så snabbt som möjligt, och sökmotorn måste behandla förfrågan så snabbt som möjligt för att inte bromsa beräkningen av efterföljande frågor.

  • Synlighet

4. Kort historia utveckling av sökmotorer

Under den inledande perioden av internetutveckling var antalet användare litet, och mängden tillgänglig information var relativt liten. För det mesta var det bara forskarpersonal som hade tillgång till Internet. Vid den här tiden var uppgiften att söka information på Internet inte lika brådskande som nu.

Ett av de första sätten att organisera åtkomst till nätverksinformationsresurser var skapandet av öppna kataloger över webbplatser, länkar till resurser som var grupperade efter ämne. Det första sådana projektet var webbplatsen Yahoo.com, som öppnade våren 1994. Efter att antalet sajter i katalogen ökat avsevärt tillkom möjligheten att söka efter nödvändig information i katalogen. I full mening var det ännu inte en sökmotor, eftersom sökområdet endast var begränsat till resurserna i katalogen och inte till alla Internetresurser.

Länkkataloger användes ofta i det förflutna, men har nästan helt förlorat sin popularitet för närvarande. Eftersom även moderna kataloger, enorma i volym, endast innehåller information om en försumbar del av Internet. Den största katalogen i DMOZ-nätverket (även kallat Open Directory Project) innehåller information om 5 miljoner resurser, medan Googles sökmotordatabas består av mer än 8 miljarder dokument.

1995 dök sökmotorerna Lycos och AltaVista upp. Sista i många år var ledande inom området informationssökning på Internet.

1997 skapade Sergey Brin och Larry Page Googles sökmotor som en del av forskningsprojekt vid Stanford University. Google är för närvarande den mest populära sökmotorn i världen!

I september 1997 tillkännagavs officiellt Yandex-sökmotorn, som är den mest populära på det ryskspråkiga internet.

För närvarande finns det tre huvudsökmotorer (internationella) - Google, Yahoo och, som har sina egna databaser och sökalgoritmer. De flesta andra sökmotorer (som det finns ett stort antal av) använder i en eller annan form resultaten från de tre listade. Till exempel använder AOL search (search.aol.com) Google-databasen, medan AltaVista, Lycos och AllTheWeb använder Yahoo-databasen.

5. Sammansättning och funktionsprinciper för söksystemet

I Ryssland är huvudsökmotorn Yandex, följt av Rambler.ru, Google.ru, Aport.ru, Mail.ru. Dessutom använder Mail.ru just nu Yandex sökmotor och databas.

Nästan alla stora sökmotorer har sin egen struktur, annorlunda än andra. Det är dock möjligt att identifiera huvudkomponenterna som är gemensamma för alla sökmotorer. Skillnader i struktur kan bara vara i form av implementering av mekanismerna för interaktion mellan dessa komponenter.

Indexeringsmodul

Indexeringsmodulen består av tre hjälpprogram (robotar):

Spider är ett program utformat för att ladda ner webbsidor. Spindeln laddar ner sidan och hämtar alla interna länkar från den sidan. HTML-koden för varje sida laddas ner. Robotar använder HTTP-protokoll för att ladda ner sidor. Spindeln fungerar enligt följande. Roboten skickar begäran "get/path/document" och några andra HTTP-begärankommandon till servern. Som svar får roboten en textström som innehåller tjänsteinformation och själva dokumentet.

  • Sidans URL
  • datum då sidan laddades ned
  • Server svar http header
  • sidtext (html-kod)

Crawler ("resande" spindel) är ett program som automatiskt följer alla länkar som finns på sidan. Väljer alla länkar som finns på sidan. Dess uppgift är att bestämma var spindeln ska gå härnäst, baserat på länkar eller baserat på en förutbestämd lista med adresser. Sökroboten, efter länkarna som hittats, söker efter nya dokument som fortfarande är okända för sökmotorn.

Indexer (robotindexerare) är ett program som analyserar webbsidor som laddas ner av spindlar. Indexeraren analyserar sidan i dess beståndsdelar och analyserar dem med sina egna lexikaliska och morfologiska algoritmer. Olika sidelement analyseras, såsom text, rubriker, länkar, struktur- och stilfunktioner, specialtjänst HTML-taggar, etc.

Således låter indexeringsmodulen dig genomsöka en given uppsättning resurser med hjälp av länkar, ladda ner påträffade sidor, extrahera länkar till nya sidor från mottagna dokument och utföra en fullständig analys av dessa dokument.

Databas

En databas, eller sökmotorindex, är ett datalagringssystem, en informationsmatris där speciellt konverterade parametrar för alla dokument som laddas ner och bearbetas av indexeringsmodulen lagras.

Sök server

Sökservern är den viktigaste delen av hela systemet, eftersom sökningens kvalitet och hastighet är direkt beroende av de algoritmer som ligger till grund för dess funktion.

Sökservern fungerar enligt följande:

  • Begäran som tas emot från användaren är föremål för morfologisk analys. Informationsmiljön för varje dokument som finns i databasen genereras (som därefter kommer att visas i formuläret, det vill säga textinformation som motsvarar begäran på sökresultatsidan).
  • Den mottagna datan skickas som indataparametrar till en speciell rankningsmodul. Data bearbetas för alla dokument, som ett resultat av vilket varje dokument har sin egen klassificering som kännetecknar relevansen av den fråga som angetts av användaren och de olika komponenterna i detta dokument som lagras i sökmotorindex.
  • Beroende på användarens val kan detta betyg justeras ytterligare villkor(till exempel den så kallade "avancerade sökningen").
  • Därefter genereras ett utdrag, det vill säga för varje hittat dokument extraheras titeln, en kort sammanfattning som bäst matchar frågan och en länk till själva dokumentet från dokumenttabellen, och de hittade orden markeras.
  • De resulterande sökresultaten överförs till användaren i form av en SERP (Search Engine Result Page) – en sökresultatsida.

Som du kan se är alla dessa komponenter nära besläktade med varandra och fungerar i interaktion och bildar en tydlig, ganska komplex mekanism för driften av söksystemet, vilket kräver enorma mängder resurser.

6. Slutsats

Låt oss nu sammanfatta allt ovan.

  • Det primära målet för alla sökmotorer är att ge människor exakt den information de letar efter.
  • Huvudegenskaper hos sökmotorer:
    1. Fullständighet
    2. Noggrannhet
    3. Relevans
    4. Sökhastighet
    5. Synlighet
  • Den första fullfjädrade sökmotorn var WebCrawler-projektet, publicerat 1994.
  • Söksystemet innehåller följande komponenter:
    1. Indexeringsmodul
    2. Databas
    3. Sök server

Vi hoppas att vår mästarklass kommer att tillåta dig att bli mer bekant med konceptet med en sökmotor och bättre förstå sökmotorernas huvudfunktioner, egenskaper och funktionsprinciper.



Dela