Robots.txt Disallow: cum se creează, caracteristici și recomandări
Începând cu cursurile de promovare SEO, începătorii se întâlnesc cu o mulțime de termeni de înțeles și nu foarte. În toate acestea, nu este atât de ușor de înțeles, mai ales dacă unul dintre elementele este inițial prost explicat sau ratat. Luați în considerare valoarea din fișierul robots.txt Disallow, pentru care aveți nevoie de acest document, cum să îl creați și să lucrați cu acesta.
conținut
Cu cuvinte simple
Pentru a nu "hrăni" cititorul cu explicații complexe care apar de obicei pe site-uri specializate, este mai bine să explicăm totul "pe degete". Căutați robot vine pe site-ul dvs. și indexează paginile. După aceasta, vedeți rapoarte care indică probleme, erori etc.
Dar pe site-urile web există și astfel de informații, care nu sunt obligatorii pentru statistici. De exemplu, pagina "Despre companie" sau "Contacte". Toate acestea nu sunt necesare pentru indexarea și, în unele cazuri, nedorite, deoarece pot denatura datele statistice. Pentru a vă asigura că acest lucru nu se întâmplă, este mai bine să închideți aceste pagini de la robot. Aceasta este comanda din fișierul robots.txt Disallow.
standard
Acest document se află întotdeauna pe site-uri. Creația sa este gestionată de dezvoltatori și programatori. Uneori, proprietarii de resurse pot face acest lucru, mai ales dacă este mic. În acest caz, lucrul cu acesta nu durează prea mult timp.
Robots.txt este numit standardul de excludere pentru crawler. Acesta este reprezentat de un document în care sunt prevăzute principalele restricții. Documentul este plasat în rădăcina resursei. În acest caz, pentru a putea fi găsit pe calea "/robots.txt". Dacă resursa are mai multe subdomenii, atunci acest fișier este plasat în rădăcina fiecăruia dintre ele. Standardul este legat în mod continuu de celălalt - Sitemap-uri.
Harta site-ului
Pentru a înțelege imaginea completă a ceea ce este în joc, câteva cuvinte despre Sitemap-uri. Acesta este un fișier scris în XML. Stochează toate datele despre resurse pentru MS. Potrivit documentului, puteți afla despre paginile web indexate de roboți.
Fișierul oferă PS un acces rapid la orice pagină, arată ultimele modificări, frecvența și importanța acestora. Pentru aceste criterii, robotul cel mai corect scanează site-ul. Dar este important să înțelegem că prezența unui astfel de fișier nu dă încredere că toate paginile vor fi indexate. El este mai mult un indiciu al procesului.
utilizarea
Fișierul robots.txt corect este utilizat în mod voluntar. Standardul însuși a apărut în 1994. A fost acceptată de consorțiul W3C. Din acel moment a fost folosit în aproape toate motoarele de căutare. Este necesar pentru corecția "dozată" a scanării resurselor de către robotul de căutare. Fișierul conține un set de instrucțiuni care utilizează MS.
Datorită setului de instrumente, este ușor să instalați fișiere, pagini, directoare care nu pot fi indexate. Robots.txt indică, de asemenea, astfel de fișiere, care trebuie verificate imediat.
Pentru ce?
În ciuda faptului că dosarul poate fi utilizat în mod voluntar, aproape toate site-urile îl creează. Acest lucru este necesar pentru a eficientiza activitatea robotului. În caz contrar, va verifica toate paginile într-o succesiune aleatorie și pe lângă faptul că poate sări peste unele pagini, creează o sarcină semnificativă asupra resursei.
De asemenea, fișierul este folosit pentru a vă ascunde de ochii motorului de căutare:
- Pagini cu date personale ale vizitatorilor.
- Paginile pe care există formulare de trimitere a datelor, etc.
- site-ul oglindă.
- Pagini cu rezultate de căutare.
Dacă ați specificat Disallow într-un robots.txt pentru o anumită pagină, există o șansă ca acesta să apară încă în SERP. Această opțiune poate apărea dacă un link către o astfel de pagină este plasat pe una din resursele externe sau în interiorul site-ului dvs.
orientări
Vorbind despre interdicția pentru motorul de căutare, utilizați adesea conceptul de "directivă". Acest termen este cunoscut tuturor programatorilor. Acesta este adesea înlocuit de sinonim pentru "indicație" și este folosit împreună cu "comenzi". Uneori poate fi reprezentată de un set de constructe de limbaj de programare.
Directiva Disallow din robots.txt este una dintre cele mai comune, dar nu numai. În afară de ea, există și câțiva care sunt responsabili de anumite direcții. De exemplu, există un agent de utilizator care afișează roboții motoarelor de căutare. Permite comanda Disallow opus. Aceasta indică permisiunea de a scana anumite pagini. Apoi, să examinăm mai detaliat comenzile principale.
Carte de vizită
În mod firesc, agentul de utilizator robots.txt Disallow nu este singura directivă, ci una dintre cele mai comune. Acestea sunt cele care alcătuiesc majoritatea dosarelor pentru resurse mici. O carte de vizită pentru orice sistem este încă comanda agentului de utilizator. Această regulă este concepută pentru a indica robotilor căutând instrucțiunile care vor fi scrise mai târziu în document.
Acum există 300 de roboți de căutare. Dacă doriți ca fiecare dintre ele să urmeze o indicație specifică, nu ar trebui să le rescrieți pe toate cu puțin probabil. Va fi suficient să specificați "User-agent: *". În acest caz, "asterisc" va arăta sistemele conform cărora sunt calculate următoarele reguli pentru toate motoarele de căutare.
Dacă creați instrucțiuni pentru Google, trebuie să specificați numele robotului. În acest caz, utilizați Googlebot. În cazul în care documentul va indica doar numele, apoi restul de motoarele de căutare nu va percepe fișierul robots.txt: .. Disallow, permite, etc. Ei vor presupune că documentul este gol, iar pentru ei nu există instrucțiuni.
O listă completă de nume de bot poate fi găsită pe Internet. Este foarte lung, deci dacă aveți nevoie de instrucțiuni pentru anumite servicii Google sau Yandex, va trebui să specificați anumite nume.
interdicție
Despre echipa următoare, am spus de mai multe ori. Nu permiteți doar să precizeze ce informații nu ar trebui citite de robot. Dacă doriți să afișați toate motoarele de căutare tot conținutul dvs., atunci scrieți doar "Disallow:". Deci, roboții vor scana toate paginile resursei tale.
Interzicerea completă a indexării în robots.txt "Disallow: /". Dacă scrieți așa, atunci roboții nu vor scana deloc resursele. Acest lucru se face de obicei în stadii incipiente, în curs de pregătire pentru lansarea proiectului, experimente și așa mai departe. D. În cazul în care site-ul este gata să se arate, apoi modificați această setare pentru a permite utilizatorilor să-l cunosc.
În general, echipa este universală. Poate bloca anumite elemente. De exemplu, un dosar cu comanda "Disallow: / papka /" poate dezactiva o legătură, un fișier sau documente cu permisiunea specifică de scanare.
permis
Pentru a permite robotului să vizualizeze anumite pagini, fișiere sau directoare, utilizați directiva Permite. Uneori este nevoie de o echipă pentru ca robotul să viziteze fișiere dintr-o anumită secțiune. De exemplu, dacă acesta este un magazin online, puteți specifica un director. Restul paginilor nu vor fi scanate. Dar rețineți că mai întâi trebuie să împiedicați site-ul să vizualizeze întregul conținut și după ce specificați comanda Allow cu paginile deschise.
oglinzi
O altă directivă gazdă. Nu toți webmasterii o folosesc. Este necesar în cazul în care resursa dvs. are oglinzi. Apoi, această regulă este obligatorie, deoarece indică robotul "Yandex" pe care dintre oglinzile este cel principal și ceea ce trebuie scanat.
Sistemul nu se pierde singur și găsește cu ușurință resursele necesare conform instrucțiunilor descrise în robots.txt. În fișierul în sine, site-ul este înregistrat fără a specifica "http: //", dar numai dacă funcționează pe HTTP. Dacă utilizează protocolul HTTPS, atunci acest prefix este specificat. De exemplu, "Host: site.com" dacă HTTP sau "Host: https://site.com" în cazul HTTPS.
navigator
Am vorbit deja despre Sitemap, dar ca fișier separat. Privind regulile de scriere a robots.txt cu exemple, vedem utilizarea unei astfel de comenzi. Fișierul este indicat prin "Sitemap: https://site.com/sitemap.xml". Acest lucru se face pentru a vă asigura că robotul a verificat toate paginile listate pe harta site-ului. De fiecare dată când se întoarce, robotul va vedea noi actualizări, modificări care au fost făcute și trimiterea mai rapidă a datelor către motorul de căutare.
Comenzi suplimentare
Acestea au fost principalele directive care indică comenzi importante și necesare. Există indicații mai puțin utile și nu întotdeauna aplicabile. De exemplu, întârzierea accesării cu crawlere specifică perioada care va fi utilizată între încărcările paginii. Acest lucru este necesar pentru serverele slabe, pentru a nu le "pune" prin invazia roboților. Secundele sunt folosite pentru a specifica parametrul.
Clean-param ajută la evitarea duplicarea conținutului, care este localizat la diferite adrese dinamice. Ele apar dacă există o funcție de sortare. O astfel de comandă va arăta astfel: "Clean-param: ref / catalog / get_product.com".
universal
Dacă nu știți cum să creați robots.txt dreapta, nu este înfricoșător. În plus față de instrucțiuni, există opțiuni universale pentru acest fișier. Ele pot fi plasate pe aproape orice site. O excepție poate deveni o resursă majoră. Dar în acest caz, profesioniștii ar trebui să știe despre fișier și oamenii speciali ar trebui să fie implicați în el.
Un set universal de directive vă permite să deschideți conținutul site-ului pentru indexare. Există o înregistrare gazdă și este indicată o hartă a site-ului. Permite roboților să viziteze întotdeauna paginile care sunt necesare pentru scanare.
Cunoașterea este că datele pot varia în funcție de sistemul pe care este localizată resursa. Prin urmare, regulile ar trebui să fie selectate, privind tipul de site și CMS. Dacă nu sunteți sigur că fișierul pe care l-ați creat este corect, puteți să verificați instrumentul Google pentru webmasteri și "Yandex".
erori
Dacă înțelegeți ce înseamnă Disallow în robots.txt, acest lucru nu garantează că nu veți greși când creați documentul. Există o serie de probleme comune pe care le întâmpină experții neexperimentați.
Valorile directivei sunt adesea confundate. Acest lucru se poate datora neînțelegerilor și ignorării instrucțiunilor. Poate că utilizatorul a trecut cu vederea și a amestecat neatent. De exemplu, pot folosi valoarea "/" pentru agentul utilizator și numele robotului pentru Disallow.
Enumerarea este o altă greșeală obișnuită. Unii utilizatori consideră că enumerarea paginilor, fișierelor sau dosarelor interzise ar trebui specificată într-un rând la rând. De fapt, pentru fiecare legătură interzisă sau permisă, fișier și dosar, trebuie să scrieți din nou comanda și cu o nouă linie.
Erori pot fi cauzate de numele greșit al fișierului în sine. Amintiți-vă că se numește "robots.txt". Utilizați literele mici pentru nume, fără variante de tip "Robots.txt" sau "ROBOTS.txt".
Câmpul User-agent trebuie întotdeauna completat. Nu lăsați această directivă fără comandă. Din nou, revenind la gazdă, rețineți că dacă site-ul utilizează protocolul HTTP, nu este necesar să fie specificat în comandă. Numai dacă este o versiune extinsă a HTTPS-ului său. Nu puteți lăsa directiva Disallow fără o valoare. Dacă nu aveți nevoie de ea, nu o specificați.
constatări
Pe scurt, merită menționat faptul că robots.txt este un standard care necesită precizie. Dacă nu ați întâlnit-o niciodată, atunci în primele etape ale creației veți avea multe întrebări. Este mai bine să dați această lucrare webmasterilor, deoarece aceștia lucrează permanent cu documentul. În plus, pot exista unele modificări în percepția directivelor de către motoarele de căutare. Dacă aveți un site mic - un mic magazin online sau un blog - atunci va fi suficient să studiați această întrebare și să luați unul dintre exemplele universale.
- Cum se face un site în Notepad: ce trebuie să știți
- Cum să ștergeți un site sau fragmentele acestuia din indexul Google
- Cum să închideți linkurile din indexare?
- Cum se face o conexiune HTTPS? Care este diferența dintre site-urile pe HTTPS sau HTTP?
- Linkuri rapide în Yandex: cum se face? Ce va oferi link-uri rapide?
- Dacă ați spart pagina în "Colegii de clasă", ce ar trebui să fac? Modalități de rezolvare…
- Indexarea paginilor. Indexarea rapidă a site-ului de către motoarele de căutare "Google"…
- Ce este un jurnal: pe scurt despre principal
- Indexarea site-ului în motoarele de căutare
- Ce este un crawler? Funcțiile robotului de căutare "Yandex" și Google
- Indexarea unui site în motoarele de căutare. Cum indexează site-ul în "Yandex" și…
- Cum se creează o rețea socială?
- 12 Moduri de a găsi proprietarul unui domeniu sau site
- Indexarea site-ului în Yandex: cum se face site-ul `gustos` pentru motorul de…
- Cum să învățați motorul site-ului și de ce este necesar?
- Adăugarea unui site la motoarele de căutare nu este suficientă - cum să accelerați indexarea?
- Cum să vă conectați la pagina dvs. de site
- Optimizarea site-urilor. Înregistrarea în motoarele de căutare
- Înregistrați un site pe Google nu este ușor, dar foarte simplu
- Învățați să utilizați corect fișierul hosts. Caracteristici principale
- Un pic despre cum să indexați un site web