Ce este un crawler? Funcțiile robotului de căutare "Yandex" și Google
În fiecare zi apare o mulțime de materiale noi pe Internet: se creează site-uri, se actualizează pagini web vechi, se descarcă fotografii și fișiere video. Fără roboți de căutare invizibili, ar fi imposibil să găsești oricare dintre aceste documente pe World Wide Web. Nu există alternative la astfel de programe robotizate la momentul dat. Ce este un robot de căutare, de ce este necesar și cum funcționează?
conținut
Ce este un crawler
Robotul de căutare al site-urilor (motoarele de căutare) este un program automat care poate vizita milioane de pagini web, navigând rapid pe Internet fără intervenția operatorului. Bots scanează constant spațiul World Wide Web, găsi pagini de Internet noi și vizitează în mod regulat deja indexate. Alte nume de roboți de căutare: păianjeni, crawlere, roboți.
De ce motoare de căutare motoare
Funcția principală pe care o efectuează robotul de căutare este indexarea paginilor web, precum și texte, imagini, fișiere audio și video pe acestea. Bots verifica link-uri, site-uri oglindă (copii) și actualizări. Roboții controlează, de asemenea, codul HTML pentru conformitatea cu standardele Organizației Mondiale, care dezvoltă și implementează standarde tehnologice pentru World Wide Web.
Ce este indexarea și de ce este nevoie?
Indexarea - aceasta, de fapt, este procesul de a vizita o anumită pagină web prin roboți de căutare. Programul scanează textele postate pe site, imagini, videoclipuri, link-uri de ieșire, după care pagina apare în rezultatele căutării. În unele cazuri, site-ul nu poate fi scanat automat, apoi poate fi adăugat manual la motorul de căutare de către webmaster. De regulă, acest lucru se întâmplă în absență legături externe pe o anumită pagină (adesea creată recent).
Cum funcționează crawlerele de căutare
Fiecare motor de căutare are bot propriu, în timp ce robotul de căutare Google poate să difere semnificativ în mecanismul de operare de la un program similar "Yandex" sau alte sisteme.
În general, principiul robotului este următorul: programul "vine" pe site prin legături externe și, pornind de la pagina principală, "citește" resursa web (inclusiv navigarea acelor date de serviciu pe care utilizatorul nu le vede). Botul poate să se deplaseze între paginile unui site și să treacă la altele.
Cum alege programul care site să indexeze? Cel mai adesea "călătoria" unui păianjen începe cu site-uri de știri sau resurse mari, directoare și agregatoare cu o masă de referință mare. Traulatorul scanează continuu paginile unul câte unul, viteza și succesiunea indexării sunt afectate de următorii factori:
- intern: Padding (legături interne între paginile aceleiași resurse), dimensiunea site-ului, corectitudinea codului, comoditatea pentru utilizatori și așa mai departe;
- extern: suma totală a masei de referință care duce la site.
Primul lucru pe care un robot de căutare îl caută pe orice site este un fișier robots.txt. Indexarea ulterioară a resurselor se bazează pe informațiile obținute din acest document. Fișierul conține instrucțiuni precise pentru "păianjeni", ceea ce vă permite să creșteți șansele de a accesa pagina de către motoarele de căutare și, prin urmare, pentru a obține o intrare rapidă a site-ului în emiterea "Yandex" sau Google.
Programe similare pentru motoarele de căutare
Adesea, termenul "robot de căutare" este confundat cu intelectuali, utilizatori sau agenți autonome, "furnici" sau "viermi". Diferențe semnificative sunt disponibile numai în comparație cu agenții, alte definiții denotă tipuri similare de roboți.
Astfel, agenții pot fi:
- inteligent: programe care se deplasează de la site la site, determinând independent modul în care pot continua, ele nu sunt distribuite pe scară largă pe Internet;
- autonom: astfel de agenți îi ajută pe utilizator să aleagă un produs, să caute sau să completeze formulare, acestea fiind așa-numitele filtre care nu sunt foarte relevante pentru programele de rețea;
- obicei: programele facilitează interacțiunea utilizatorului cu World Wide Web, cum ar fi browserele (de exemplu, Opera, IE, Google Chrome, Firefox), mesageri instant (Viber, Telegram) sau programe de e-mail (MS Outlook sau Qualcomm).
"Anturii" și "viermi" sunt mai asemănătoare cu "păianjeni" de căutare. Primii formează o rețea între ei și interacționează ca o colonie reală de furnici, "viermi" se auto-reproduc, altfel acționează în același mod ca și robotul de căutare standard.
Soiuri de roboți de căutare
Există multe varietăți de roboți de căutare. În funcție de scopul programului, pot fi:
- "Mirror" - se uită prin site-uri duplicate.
- Mobile - vizează versiuni mobile ale paginilor de internet.
- Raportează rapid informații noi, văzând cele mai recente actualizări.
- Linkuri - link-uri de index, numărul acestora.
- Indexatori de diferite tipuri de conținut - programe separate pentru înregistrări de text, audio și video, imagini.
- "Spyware" - căutați pagini care nu sunt încă afișate în motorul de căutare.
- "Woodpeckers" - vizitați periodic site-uri pentru a verifica relevanța și eficiența lor.
- Național - răsfoiți resurse web amplasate pe domeniile unei țări (de exemplu, .ru, .kz sau .ua).
- Global - toate site-urile naționale sunt indexate.
Roboți de motoare de căutare importante
Există, de asemenea, roboți separați de motoarele de căutare. În mod teoretic, funcționalitatea acestora poate varia semnificativ, însă, în practică, programele sunt aproape identice. Principalele diferențe dintre indexarea paginilor de internet de către roboți ale celor două motoare de căutare principale sunt următoarele:
- Strictețea verificării. Se crede că mecanismul robotului de căutare "Yandex" este oarecum mai strict cu privire la site-ul pentru conformitatea cu standardele World Wide Web.
- Conservarea integrității site-ului. Crawler-ul Google indexează întregul site (inclusiv conținutul media), Yandex poate, de asemenea, să vizualizeze paginile selectiv.
- Viteza de verificare a paginilor noi. Google adaugă o nouă resursă pentru SERP pentru câteva zile, în cazul lui Yandex, procesul poate dura două săptămâni sau mai mult.
- Frecvența reindexării. Robotul de căutare "Yandex" verifică actualizările de mai multe ori pe săptămână, iar Google - o dată la 14 zile.
Internetul, desigur, nu se limitează la două motoare de căutare. Alte motoare de căutare au propriile roboți, care urmează propriilor parametri de indexare. În plus, există mai mulți "păianjeni" care nu sunt dezvoltați de resurse de căutare mari, ci de echipe individuale sau de webmasteri.
Concepții greșite
Contrar opiniei populare, "păianjenii" nu procesează informațiile primite. Programul scanează și salvează numai pagini web, iar prelucrarea ulterioară este efectuată în întregime de alți roboți.
De asemenea, mulți utilizatori consideră că roboții de căutare au un impact negativ și sunt "dăunători" Internetului. Într-adevăr, versiuni individuale de "păianjeni" pot supraîncărca în mod semnificativ serverul. Există, de asemenea, un factor uman - comandantul web care a creat programul, poate face greșeli în setările robotului. Cu toate acestea, majoritatea programelor existente sunt bine concepute și gestionate profesional, iar problemele apărute sunt eliminate rapid.
Cum să gestionați indexarea
Roboții de căutare sunt programe automate, dar procesul de indexare poate fi parțial controlat de webmaster. Acest lucru este mult asistat de către optimizare internă resursă. În plus, puteți adăuga manual un site nou la motorul de căutare: resursele mari au forme speciale de înregistrare a paginilor web.
- Robots.txt Disallow: cum se creează, caracteristici și recomandări
- Cel mai popular sistem de căutare american din lume
- Cele mai frecvente motoare de căutare germane
- Evaluatorul este cine?
- Indexarea paginilor. Indexarea rapidă a site-ului de către motoarele de căutare "Google"…
- Căutați pe Internet pentru fotografii: cum funcționează și ce poate face această funcție
- Indexarea site-ului în motoarele de căutare
- Motoarele de căutare pe Internet Lista este în creștere
- Indexarea unui site în motoarele de căutare. Cum indexează site-ul în "Yandex" și…
- Serverul de căutare: ce este, lista, avantajele și dezavantajele
- Indexarea site-ului în Yandex: cum se face site-ul `gustos` pentru motorul de…
- Ce este relevanța
- Adăugarea unui site la motoarele de căutare nu este suficientă - cum să accelerați indexarea?
- Pe scurt ce înseamnă cuvântul "Yandex"
- Cum să treci la "Google" de la "Yandex" în browserul Opera
- Optimizarea site-urilor. Înregistrarea în motoarele de căutare
- Cum să adăugați un site la Google?
- Căutați informații pe Internet
- Google. Căutare avansată ca instrument de lucru
- Înregistrați un site în motoarele de căutare - este foarte important pentru promovarea acestuia
- Un pic despre cum să indexați un site web