Cum să găsiți și să remediați problemele de acoperire a indexului
Cum să găsiți și să remediați problemele de acoperire a indexului
Publicat: 2020-10-29
Întâmpinați probleme de indexare Google?Această problemă poate duce la scăderea traficului și a ratelor de conversie.
Este necesar să verificați paginile indexate și neindexate ale site-ului dvs. pentru a rezolva rapid orice problemă .Aici vă explicăm pas cu pas cum să faceți acest lucru cu Google Search Console – Raport de acoperire a indexului .
Cu următoarea metodă, am reușit să remediam problemele de acoperire a indexului pe sute de site-uri web cu milioane sau miliarde de pagini excluse.Folosiți-l astfel încât niciuna dintre paginile dvs. relevante să nu piardă vizibilitatea în rezultatele căutării și să vă sporească traficul SEO!
Cuprins
Pasul 1: Verificați raportul de acoperire a indexului
Raportul privind acoperirea Search Console vă spune ce pagini au fost accesate cu crawlere și indexate de Google și de ce adresele URL sunt în acea stare anume.Îl puteți folosi pentru adetecta orice erori găsite în timpul procesului de accesare cu crawlere și de indexare .
Pentru a verifica raportul de acoperire a indexului, accesați Google Search Console și faceți clic pe Acoperire (chiar sub Index).După ce îl deschideți, veți vedea un rezumat cu patru stări diferite care clasifică adresele URL:
Eroare: aceste pagini nu pot fi indexate și nu vor apărea în rezultatele căutării din cauza unor erori.
Valabil cu avertismente: aceste pagini pot fi afișate sau nu în rezultatele căutării Google.
Valabil: Aceste pagini au fost indexate și pot fi afișate în rezultatele căutării.Nu trebuie să faci nimic.
Excluse: aceste pagini nu au fost indexate și nu vor apărea în rezultatele căutării.Google crede că nu doriți să le indexați sau considerați că conținutul nu merită indexat.
Trebuie să verificați toate paginile găsite în secțiunea Eroare și să le corectați cât mai curând posibil, deoarece este posibil să pierdeți oportunitatea de a genera trafic către site-ul dvs.
Dacă aveți timp, priviți paginile incluse în stareaValabil cu avertisment deoarece pot exista unele pagini vitale care în niciun caz nu ar trebui să nu apară în rezultatele căutării.
În cele din urmă, asigurați-vă că paginile excluse sunt cele pe care nu doriți să fie indexate.
Pasul 2: Cum se rezolvă problemele găsite în fiecare dintre Starea Acoperirii Indexului
După ce deschideți Raportul de acoperire a indexului, selectați starea dorită (Erori, Valabil cu avertismente sau Exclus) și vedeți detaliile furnizate în partea de jos a paginii.Veți găsi o listă detipuri de erori în funcție de gravitatea acesteia și de numărul de pagini afectate,așa că vă recomandăm să începeți să investigați problemele din partea de sus a tabelului.
Să vedem fiecare dintre erorile în diferite stări și cum le puteți remedia.
Stare de eroare
Erori de server (5xx):
Acestea sunt adrese URL care returnează un cod de stare 5xx la Google.
Acțiuni de luat:
Verificați ce fel de cod de stare 500 se întoarce .Aici aveți o listă completă cu definiția pentru fiecare cod de stare de eroare a serverului.
Reîncărcați adresa URL pentru a vedea dacă eroarea persistă.Erorile 5xx sunt temporare și nu necesită nicio acțiune.
Verificați dacă serverul dvs. nu este supraîncărcat sau configurat greșit.În acest caz, cereți ajutor dezvoltatorilor sau contactați furnizorul dvs. de găzduire.
Efectuați o analiză a fișierului jurnal pentru a verifica jurnalele de erori pentru serverul dvs.Această practică vă oferă informații suplimentare despre problemă.
Examinați modificările pe care le-ați făcut recent site-ului dvs. web pentru a vedea dacă vreuna dintre ele poate fi cauza principală.ex) pluginuri, cod backend nou etc.
Erori de redirecționare:
GoogleBot a întâmpinat o eroare în timpul procesului de redirecționare care nu permite accesarea cu crawlere a paginii.Oricare dintre următoarele motive cauzează adesea această problemă.
Un lanț de redirecționare prea lung
O buclă de redirecționare
O adresă URL de redirecționare care a depășit lungimea maximă a adresei URL
A fost o adresă URL greșită sau goală în lanțul de redirecționare
Acțiuni de luat:
Eliminați lanțurile și buclele de redirecționare.Fiecare adresă URL să efectueze o singură redirecționare.Cu alte cuvinte, o redirecționare de la prima adresă URL la ultima.
Adresa URL trimisă blocată de Robots.txt:
Acestea sunt adrese URL pe care le-ați trimis la Google, încărcând un Sitemap XML în Google Search Console, dar care au fost blocate de fișierul Robots.txt.
Acțiuni de luat:
Verificați dacă doriți ca motoarele de căutare să indexeze sau nu pagina în cauză.
Dacă nu doriți să fie indexat, încărcați un sitemap XML eliminând adresa URL.
Dimpotrivă, dacă doriți să fie indexat, modificați regulile din Robots.txt. Iată un ghid despre cum să editați robots.txt.
Adresa URL trimisă marcată „noindex”:
Aceste pagini au fost trimise la Google printr-un sitemap XML, dar au o directivă „noindex”, fie în meta-eticheta robots, fie în anteturile HTTP.
Acțiuni de luat:
Dacă doriți ca adresa URL să fie indexată, ar trebui să eliminați directiva noindex
Dacă există adrese URL pe care nu doriți să le indexeze Google, eliminați-le din Sitemap XML
URL-ul trimis pare să fie un Soft 404:
Adresa URL pe care ați trimis-o printr-un Sitemap XML în scopuri de indexare returnează un soft 404 .Această eroare apare atunci când serverul returnează un cod de stare 200 la o solicitare, dar Google consideră că ar trebui să afișeze un 404. Cu alte cuvinte, pagina arată ca o eroare 404 pentru Google.În unele cazuri, poate fi din cauză că pagina nu are conținut, pare greșită sau de calitate scăzută pentru Google.
Acțiuni de luat:
Investigați dacă aceste adrese URL ar trebui să returneze un cod de stare 404 (real).În acest caz, eliminați-le din harta site-ului XML.
Dacă descoperiți că nu ar trebui să returneze o eroare, asigurați-vă că furnizați conținut adecvat în aceste pagini.Evitați conținutul subțire sau duplicat.Verificați dacă există redirecționări, acestea sunt corecte.
Adresa URL trimisă returnează o solicitare neautorizată (401):
Adresa URL trimisă la Google printr-un Sitemap XML returnează o eroare 401 .Acest cod de stare vă spune că nu sunteți autorizat să accesați adresa URL.Este posibil să aveți nevoie de un nume de utilizator și o parolă sau, poate, există restricții de acces bazate pe adresa IP.
Acțiuni de luat:
Verificați dacă adresele URL ar trebui să returneze un 401. În acest caz, eliminați-le din harta site-ului XML.
Dacă nu doriți ca acestea să afișeze un cod 401, eliminați autentificarea HTTP dacă există.
Adresa URL trimisă nu a fost găsită (404):
Ați trimis adresa URL în scopuri de indexare la Google Search Console, dar Google nu o poate accesa cu crawlere din cauza unei probleme diferite de cele menționate mai sus.
Acțiuni de luat:
Vezi dacă vrei ca pagina să fie indexată sau nu.Dacă răspunsul este da, remediați, astfel încât să returneze un cod de stare 200.De asemenea, puteți atribui o redirecționare 301 la adresa URL, astfel încât să afișeze o pagină corespunzătoare.Amintiți-vă că, dacă optați pentru o redirecționare, trebuie să adăugați adresa URL atribuită la harta site-ului XML și să o eliminați pe cea care dă un 404.
Dacă nu doriți ca pagina să fie indexată, eliminați-o din harta site-ului XML.
Adresa URL trimisă are o problemă de accesare cu crawlere:
Ați trimis adresa URL în scopuri de indexare către GSC, dar nu poate fi accesată cu crawlere de Google din cauza unei probleme diferite de cele menționate mai sus.
Acțiuni de luat:
Utilizați Instrumentul de inspecție URL pentru a obține mai multe informații despre cauzele problemei.
Uneori, aceste erori sunt temporare, deci nu necesită nicio acțiune.
Valabil cu stare de avertizare
Aceste pagini sunt indexate, deși sunt blocate de robots.txt.Google încearcă întotdeauna să urmeze directivele date în fișierul robots.txt.Cu toate acestea, uneori se comportă diferit.Acest lucru se poate întâmpla, de exemplu, atunci când cineva trimite la adresa URL dată.
Găsiți adresele URL în această categorie deoarece Google se îndoiește dacă doriți să blocați aceste pagini în rezultatele căutării .
Acțiuni de luat:
Google nu recomandă utilizarea fișierului robots.txt pentru a evita indexarea paginilor.În schimb, dacă nu doriți să vedeți aceste pagini indexate, utilizați noindexul din meta-roboți sau un antet de răspuns HTTP.
O altă practică bună pentru a împiedica Google să acceseze pagina este implementarea unei autentificări HTTP.
Dacă nu doriți să blocați pagina, faceți corecțiile necesare în fișierul robots.txt.
Puteți identifica ce regulă blochează o pagină folosindtesterul robots.txt.
Natzir Turrado, Consilier FandangoSEO Tehnic SEO Freelance @ Natzir Turrado
La o migrare mare la SalesForce, le-am cerut dezvoltatorilor să facă filtrele pe care nu doream să le indexăm inaccesibile (ofuscate). Când site-ul web Salesforce a fost disponibil, totul a fost un succes. Dar când o nouă versiune a fost lansată luni mai târziu, obscurcarea a fost ruptă accidental. Acest lucru a declanșat toate alarmele, deoarece, în numai șapte zile, au existat ~17,5 milioane de solicitări Googlebot-Mobile și ~12,5 milioane Googlebot/2.1, precum și o rată de accesare cache de 2%. Mai jos puteți vedea în Search Console cum au crescut paginile indexate dar blocate de roboți.
Acesta este motivul pentru care recomand monitorizarea continuă a jurnalelor și revizuirea Raportului de acoperire GSC (deși veți detecta orice problemă mai devreme verificând jurnalele). Și rețineți că robots.txt nu împiedică indexarea paginilor. Dacă doriți ca Google să nu acceseze cu crawlere o adresă URL, cel mai bine este să faceți URL-ul inaccesibil!
Stare exclusă
Aceste pagini nu sunt indexate pe rezultatele căutării, iar Google consideră că este ceea ce trebuie.De exemplu, acest lucru s-ar putea datora faptului că sunt pagini duplicate ale paginilor indexate sau pentru că oferiți instrucțiuni pe site-ul dvs. motoarelor de căutare pentru a le indexa.
Raportul Acoperire vă arată 15 situații în care pagina dvs. poate fi exclusă .
Exclus de eticheta „noindex”:
Le spuneți motoarelor de căutare să nu indexeze pagina dând o directivă „noindex”.
Acțiuni de luat:
Verificați dacă de fapt nu doriți să indexați pagina.Dacă doriți ca pagina să fie indexată, eliminați eticheta „noindex”.
Puteți confirma prezența acestei directive deschizând pagina și căutând „noindex” în corpul răspunsului și antetul răspunsului.
Blocat de instrumentul de eliminare a paginii:
Ațitrimis o solicitare de eliminare a adresei URL pentru aceste pagini pe GSC.
Acțiuni de luat:
Google acceptă această solicitare doar timp de 90 de zile, așa că, dacă nu doriți să indexați pagina, utilizați directive „noindex”, implementați o autentificare HTTP sau eliminați pagina.
Blocat de robots.txt:
Blocați accesul la Googlebot la aceste pagini cu fișierul robots.txt.Cu toate acestea, ar putea fi indexat dacă Google ar putea găsi informații despre această pagină fără a o încărca.Poate că Google a indexat pagina înainte de a adăuga interdicția în robots.txt
Acțiuni de luat:
Dacă nu doriți ca pagina să fie indexată, utilizați o directivă „noindex” și eliminați blocul robots.txt.
Blocat din cauza unei solicitări neautorizate (401):
Blocați accesul la Google folosind o autorizare de solicitare (răspuns 401).
Acțiuni de luat:
Dacă doriți să permiteți GoogleBot să viziteze pagina, eliminați cerințele de autorizare.
anomalie de accesare cu crawlere:
Pagina nu a fost indexată din cauza unui cod de răspuns de eroare 4xx sau 5xx.
Acțiuni de luat:
Utilizați instrumentul de inspecție URL pentru a obține mai multe informații despre probleme.
Accesat cu crawlere – Momentan nu este indexat
Această pagină a fost accesată cu crawlere de GoogleBot, dar nu a fost indexată.Poate fi sau nu indexat în viitor.Nu este nevoie să trimiteți această adresă URL pentru accesare cu crawlere.
Acțiuni de luat:
Dacă doriți ca pagina să fie indexată în rezultatele căutării, asigurați-vă că furnizați informații valoroase.
Descoperit – Momentan neindexat:
Google a găsit această pagină, dar încă nu a reușit să o acceseze cu crawlere .Această situație se întâmplă de obicei deoarece atunci când GoogleBot a încercat să acceseze cu crawlere pagina, site-ul a fost supraîncărcat.Crawl-ul a fost programat pentru altă dată.
Nu este necesară nicio acțiune.
Pagina alternativă cu eticheta canonică adecvată:
Această pagină indică o pagină canonică, astfel încât Google înțelege că nu doriți să o indexați.
Acțiuni de luat:
Dacă doriți să indexați această pagină, va trebui să modificațiatributele rel=canonicalpentru a oferi Google instrucțiunile dorite.
Duplicați fără canonice selectate de utilizator:
Pagina are duplicate, dar niciuna dintre ele nu este marcată ca canonică.Google consideră că acesta nu este cel canonic.
Acțiuni de luat:
Folosiți etichete canonice pentru a clarifica pentru Google care pagini sunt cele canonice (trebuie indexate) și care sunt duplicatele.Puteți utiliza Instrumentul de inspecție URL pentru a vedea ce pagini au fost selectate drept canonice de Google.
Dublat, Google a ales un alt canon decât utilizator:
Ați marcat această pagină ca fiind canonică, dar Google, în schimb, a indexat o altă pagină care consideră că funcționează mai bine ca fiind canonică.
Acțiuni de luat:
Puteți urma alegerea Google.În acest caz, marcați pagina indexată ca canonică și aceasta ca un duplicat al adresei URL canonice.
Dacă nu, aflați de ce Google preferă o altă pagină decât cea pe care ați ales-o și faceți modificările necesare.Utilizați Instrumentul de inspecție URL pentru a descoperi „pagina canonică” selectată de Google.
Ferran Gavin, Manager SEO @ Softonic
Unul dintre cele mai curioase „eșecuri” pe care le-am întâlnit cu Raportul de acoperire a indexului a fost să constatăm că Google nu ne procesa corect canonicalele (și am făcut-o greșit de ani de zile!). Google indica pe Search Console că canonicul specificat nu era valid atunci când pagina era formatată perfect. În cele din urmă, s-a dovedit a fi un bug de la Google însuși, confirmat de Gary Ilyes.
Negăsit (404):
Pagina returnează un cod de stare de eroare 404 atunci când Google face o solicitare .GoogleBot nu a găsit pagina printr-o hartă a site-ului, ci probabil printr-un alt site web care trimite la adresa URL.De asemenea, este posibil ca această adresă URL să fi existat în trecut și să fi fost eliminată.
Acțiuni de luat:
Dacă răspunsul 404 este intenționat, îl puteți lăsa așa cum este.Nu vă va afecta performanța SEO.Cu toate acestea, dacă pagina s-a mutat, implementați o redirecționare 301.
Pagina a fost eliminată din cauza unei plângeri legale:
Această pagină a fost eliminată din index din cauza uneiplângeri legale.
Acțiuni de luat:
Investigați ce reguli legale ați putea să fi încălcat și luați măsurile necesare pentru a le corecta.
Pagina cu redirecționarea:
Această adresă URL este o redirecționare și, prin urmare, nu a fost indexată.
Acțiuni de luat:
Dacă adresa URL nu trebuia să redirecționeze, eliminați implementarea redirecționării.
Soft 404:
Pagina returnează ceea ce Google crede că este un răspuns soft 404.Pagina nu este indexată deoarece, deși oferă un cod de stare 200, Google consideră că ar trebui să returneze un 404 .
Acțiuni de luat:
Verificați dacă ar trebui să atribuiți un 404 paginii, așa cum sugerează Google.
Adăugați conținut valoros pe pagină pentru a anunța Google că nu este un Soft 404.
Duplicat, adresa URL trimisă nu este selectată ca canonică:
Ați trimis adresa URL la GSC în scopuri de indexare.Totuși, nu a fost indexat deoarece pagina are duplicate fără etichete canonice, iar Google consideră că există un candidat mai bun pentru canonical.
Acțiuni de luat:
Decideți dacă doriți să urmați alegerea Google pentru pagina canonică.În acest caz, atribuițiatributele rel=canonicalpentru a indica pagina selectată de Google.
Puteți utiliza Instrumentul de inspecție URL pentru a vedea ce pagină a fost aleasă de Google ca fiind canonică.
Dacă doriți ca această adresă URL să fie canonică, analizați de ce Google preferă cealaltă pagină.Oferiți mai mult conținut de mare valoare pe pagina pe care o alegeți.
Pasul 3. Raportați Acoperirea Indexului Cele mai frecvente probleme
Acum cunoașteți diferitele tipuri de erori pe care le puteți găsi în raportul Acoperirea indexului și ce acțiuni trebuie luate atunci când întâlniți fiecare dintre ele.Mai jos este o scurtă prezentare generală a problemelor care apar cel mai frecvent.
Mai mult excluse decât paginile valide
Uneori puteți avea mai multe pagini excluse decât cele valide.Această circumstanță este de obicei dată pe site-urile mari care au suferit o modificare semnificativă a adresei URL .Probabil este un site vechi cu o istorie lungă, sau codul web a fost modificat.
Dacă aveți o diferență semnificativă între numărul de pagini ale celor două stări (Exclus și Valid), aveți o problemă gravă.Începeți să examinați paginile excluse, așa cum explicăm mai sus.
Esteve Castells, Group SEO Manager @ Adevinta
Cea mai mare problemă pe care am văzut-o vreodată în Raportul de acoperire este unul dintre site-urile pe care le administrez, care a ajuns să aibă 5 miliarde de pagini excluse.Da, ai citit corect, 5 miliarde de pagini.Navigarea cu fațete a luat-o razna și pentru fiecare afișare de pagină, am creat 20 de adrese URL noi pe care Googlebot să le acceseze cu crawlere.
Aceasta a ajuns să fie cea mai scumpă greșeală din punct de vedere al târârii, vreodată.A trebuit să interzicem complet prin robots.txt adresele URL de navigare cu fațete, deoarece Googlebot distrugea serverul nostru cu peste 25 de milioane de accesări pe zi.
Picurile de eroare
Când numărul de erori crește exponențial, trebuie să verificați eroarea și să o remediați cât mai curând posibil.Google a detectat o problemă care dăunează grav performanței site-ului dvs. web .Dacă nu corectați problema astăzi, mâine veți avea probleme semnificative.
Erori de server
Asigurați-vă că aceste erori nu sunt 503 (Service Unavailable) .Acest cod de stare înseamnă că serverul nu poate gestiona cererea din cauza unei supraîncărcări temporare sau întreținere.La început, eroarea ar trebui să dispară de la sine, dar dacă continuă să apară, trebuie să priviți problema și să o rezolvați.
Dacă aveți alte tipuri de erori 5xx, vă recomandăm să consultați ghidul nostru pentru a vedea acțiunile pe care trebuie să le întreprindeți în fiecare caz.
404 erori
Se pare că Google a detectat o zonă a site-ului dvs. care generează 404 - pagini negăsite.Dacă volumul crește considerabil, consultați ghidul nostru pentru a găsi și a remedia legăturile întrerupte.
Pagini sau site-uri lipsă
Dacă nu puteți vedea o pagină sau un site în raport, aceasta poate fi din mai multe motive.
Google nu a descoperit încă.Când o pagină sau un site este nou, poate dura ceva timp până când Google îl găsește.Trimiteți o solicitare de accesare cu crawlere a site-ului sau a paginii pentru a accelera procesul de indexare.De asemenea, asigurați-vă că pagina nu este orfană și este legată de site-ul web.
Google nu poate accesa pagina dvs. din cauza unei solicitări de conectare .Eliminați cerințele de autorizare pentru a permite GoogleBot să acceseze cu crawlere pagina.
Pagina are o etichetă noindex sau a fost eliminată din index dintr-un motiv oarecare .Eliminați eticheta noindex și asigurați-vă că furnizați conținut valoros pe pagină.
„Trimis dar/Trimis și” erori și excluderi
Această problemă apare atunci când există incongruență.Dacă trimiteți o pagină printr-un sitemap, trebuie să vă asigurați că este validă pentru indexare și că este legată de site.
Site-ul dvs. ar trebui să fie format în principal din pagini valoroase care merită interconectate.
rezumat
Iată un rezumat în trei pași a articolului „Cum să găsiți și să remediați erorile de acoperire a indexului”.
Primul lucru pe care doriți să-l faceți când utilizați raportul de acoperire a indexului este să remediați paginile care apar în starea Eroare .Acesta trebuie să fie 0 pentru a evita penalitățile Google.
În al doilea rând, verificați paginile excluse și vedeți dacă acestea sunt pagini pe care nu doriți să le indexați.Dacă nu este cazul, urmați instrucțiunile noastre pentru a rezolva problemele.
Dacă aveți timp, vă recomandăm insistent să verificați paginile valide cu un avertisment .Asigurați-vă că instrucțiunile pe care le oferiți în robots.txt sunt corecte și că nu există incoerențe.
Sperăm că vă este de ajutor!Anunțați-ne dacă aveți întrebări cu privire la raportul de acoperire a indexului.De asemenea, ne-ar plăcea să auzim orice sfaturi de la dvs. în comentariile de mai jos.