Hogyan blokkolható egy webhely indexelése a robots.txt fájlban: utasítások és javaslatok

Tartalomjegyzék:

Hogyan blokkolható egy webhely indexelése a robots.txt fájlban: utasítások és javaslatok
Hogyan blokkolható egy webhely indexelése a robots.txt fájlban: utasítások és javaslatok
Anonim

A SEO-optimalizáló munkája nagyon nagyszabású. A kezdőknek azt tanácsoljuk, hogy írják le az optimalizálási algoritmust, hogy ne hagyjanak ki egyetlen lépést sem. Ellenkező esetben a promóciót aligha nevezik sikeresnek, mivel a webhely folyamatosan hibákat és hibákat tapasztal, amelyeket hosszú ideig ki kell javítani.

Az optimalizálási lépések egyike a robots.txt fájl használata. Minden erőforrásnak rendelkeznie kell ezzel a dokumentummal, mert e nélkül nehezebb lesz megbirkózni az optimalizálással. Számos funkciót lát el, amelyeket meg kell értenie.

Robot Asszisztens

A robots.txt fájl egy egyszerű szöveges dokumentum, amely megtekinthető a rendszer szabványos Jegyzettömbjén. Létrehozásakor a kódolást UTF-8-ra kell állítani, hogy helyesen olvasható legyen. A fájl http, https és FTP protokollokkal működik.

Ez a dokumentum a robotok keresésének segédje. Ha nem tudja, minden rendszer "pókot" használ, amely gyorsan feltérképezi a világhálót, hogy visszaadja a releváns webhelyeket a lekérdezésekhez.felhasználókat. Ezeknek a robotoknak hozzá kell férniük az erőforrásadatokhoz, ehhez a robots.txt működik.

Ahhoz, hogy a pókok megtalálják az utat, el kell küldenie a robots.txt dokumentumot a gyökérkönyvtárba. Annak ellenőrzéséhez, hogy a webhely rendelkezik-e ezzel a fájllal, írja be a „https://site.com.ua/robots.txt” címet a böngésző címsorába. A "site.com.ua" helyett meg kell adnia a szükséges erőforrást.

A robots.txt fájl használata
A robots.txt fájl használata

Dokumentumfunkciók

A robots.txt fájl többféle információval látja el a bejárókat. Részleges hozzáférést biztosíthat, így a „pók” az erőforrás egyes elemeit vizsgálja. A teljes hozzáférés lehetővé teszi az összes elérhető oldal ellenőrzését. A teljes kitiltás megakadályozza, hogy a robotok elkezdjenek ellenőrizni, és elhagyják az old alt.

Az erőforrás meglátogatása után a "pókok" megfelelő választ kapnak a kérésre. Több is lehet, minden a robots.txt-ben található információktól függ. Például, ha a keresés sikeres volt, a robot a 2xx kódot kapja.

Talán a webhelyet átirányították egyik oldalról a másikra. Ebben az esetben a robot a 3xx kódot kapja. Ha ez a kód többször előfordul, akkor a pók követni fogja, amíg újabb választ nem kap. Bár általában csak 5 kísérletet használ. Ellenkező esetben a népszerű 404-es hiba jelenik meg.

Ha a válasz 4xx, akkor a robot feltérképezheti az oldal teljes tartalmát. De az 5xx kód esetén az ellenőrzés teljesen leállhat, mivel ez gyakran ideiglenes szerverhibákat jelez.

Keresés robotok
Keresés robotok

Mireszüksége van a robots.txt fájlra?

Amint azt már sejtette, ez a fájl a robotok útmutatója a webhely gyökeréhez. Jelenleg a nem megfelelő tartalomhoz való hozzáférés részleges korlátozására szolgál:

  • oldalak a felhasználók személyes adataival;
  • tükrözési webhelyek;
  • keresési eredmények;
  • adatbenyújtási űrlapok stb.

Ha nincs robots.txt fájl a webhely gyökerében, a robot teljesen az összes tartalmat feltérképezi. Ennek megfelelően nem kívánt adatok jelenhetnek meg a keresési eredmények között, ami azt jelenti, hogy Ön és az oldal is szenvedni fog. Ha a robots.txt dokumentumban speciális utasítások vannak, akkor a "pók" követi őket, és kiadja az erőforrás tulajdonosa által kívánt információkat.

Fájl használata

Ha a robots.txt fájl használatával blokkolja a webhely indexelését, meg kell találnia, hogyan hozhatja létre ezt a fájlt. Ehhez kövesse a következő utasításokat:

  1. Hozzon létre egy dokumentumot a Jegyzettömbben vagy a Notepad++ alkalmazásban.
  2. Állítsa be a ".txt" fájlkiterjesztést.
  3. Írja be a szükséges adatokat és parancsokat.
  4. Mentsd el a dokumentumot, és töltsd fel a webhely gyökérkönyvtárába.

Amint látja, az egyik szakaszban parancsokat kell beállítani a robotok számára. Két típusuk van: engedélyező (Allow) és tiltó (Disallow). Ezenkívül egyes optimalizálók megadhatják a feltérképezési sebességet, a gazdagépet és az erőforrás old altérképére mutató hivatkozást.

Hogyan zárhat be egy webhelyet az indexelésből
Hogyan zárhat be egy webhelyet az indexelésből

A robots.txt fájl használatának megkezdéséhez és a webhely indexelésének teljes blokkolásához meg kell értenie a használt szimbólumokat is. Például egy dokumentumbanhasználja a „/” jelet, ami azt jelzi, hogy a teljes webhely ki van választva. Ha „”-t használunk, akkor egy karaktersorozat szükséges. Ily módon lehetővé válik egy adott mappa megadása, amely vagy beolvasható, vagy nem.

Botok funkciója

A keresőmotorok "pókjai" különbözőek, tehát ha egyszerre több keresőmotornál dolgozik, akkor ezt a pillanatot figyelembe kell vennie. A nevük eltérő, ami azt jelenti, hogy ha egy adott robottal szeretne kapcsolatba lépni, akkor meg kell adnia a nevét: „User Agent: Yandex” (idézőjelek nélkül).

Ha az összes keresőmotorhoz szeretne direktívát beállítani, akkor a következő parancsot kell használnia: "User Agent: " (idézőjelek nélkül). Annak érdekében, hogy megfelelően blokkolja a webhely indexelését a robots.txt fájl használatával, ismernie kell a népszerű keresőmotorok sajátosságait.

A tény az, hogy a legnépszerűbb keresőmotorok, a Yandex és a Google számos bottal rendelkeznek. Mindegyiknek megvan a maga feladata. Például a Yandex Bot és a Googlebot a fő "pókok", amelyek feltérképezik a webhelyet. Az összes bot ismeretében könnyebb lesz az erőforrás indexelésének finomhangolása.

A robots.txt fájl működése
A robots.txt fájl működése

Példák

Tehát a robots.txt segítségével egyszerű parancsokkal lezárhatja az old alt az indexeléstől, a lényeg, hogy megértse, mire van szüksége konkrétan. Ha például azt szeretné, hogy a Googlebot ne közelítse meg az erőforrást, ki kell adnia a megfelelő parancsot. Így fog kinézni: "User-agent: Googlebot Disallow: /" (idézőjelek nélkül).

Most meg kell értenünk, mi van ebben a parancsban, és hogyan működik. Tehát "felhasználói ügynök"Az egyik bot közvetlen hívására szolgál. Ezután jelezzük, hogy melyikre, esetünkben a Google-ra. A "Disallow" parancsnak új sorban kell kezdődnie, és meg kell tiltania a robotnak a webhelyre való belépését. A perjel ebben az esetben azt jelzi, hogy az erőforrás minden oldala ki van választva a parancs végrehajtásához.

Mire való a robots.txt?
Mire való a robots.txt?

A robots.txt fájlban az összes keresőmotor indexelése letiltható egy egyszerű paranccsal: "User-agent:Disallow: /" (idézőjelek nélkül). A csillag ebben az esetben az összes keresőrobotot jelöli. Általában egy ilyen parancsra van szükség a webhely indexelésének szüneteltetéséhez, és alapvető munka megkezdéséhez, ami egyébként befolyásolhatja az optimalizálást.

Ha az erőforrás nagy és sok old alt tartalmaz, gyakran olyan védett információkat tartalmaz, amelyeket vagy nem kívánatos közzétenni, vagy negatívan befolyásolhatja a promóciót. Ebben az esetben meg kell értenie, hogyan zárhatja be az old alt az indexelésből a robots.txt fájlban.

Elrejthet egy mappát vagy egy fájlt. Az első esetben újra kell kezdeni egy adott bottal vagy mindenkivel, ezért a „User-agent” parancsot használjuk, az alábbiakban pedig egy adott mappához a „Disallow” parancsot adjuk meg. Így fog kinézni: "Disallow: / folder /" (idézőjelek nélkül). Így elrejtheti a teljes mappát. Ha tartalmaz valamilyen fontos fájlt, amelyet meg szeretne jeleníteni, akkor a következő parancsot kell kiírnia: „Allow: /folder/file.php” (idézőjelek nélkül).

Fájl ellenőrzése

Ha a robots.txt fájlt használja a webhely bezárásáhozSikerült az indexelés, de nem tudja, hogy minden direktívája megfelelően működött-e, ellenőrizheti a munka helyességét.

Először is újra ellenőriznie kell a dokumentum elhelyezését. Ne feledje, hogy kizárólag a gyökérmappában kell lennie. Ha a gyökér mappában van, akkor nem fog működni. Ezután nyissa meg a böngészőt, és írja be a következő címet: „https://webhelye. com/robots.txt (idézőjelek nélkül). Ha hibaüzenetet kap a webböngészőben, akkor a fájl nem ott van, ahol lennie kellene.

Hogyan zárhatunk be egy mappát az indexelésből
Hogyan zárhatunk be egy mappát az indexelésből

Az irányelvek ellenőrizhetők speciális eszközökben, amelyeket szinte minden webmester használ. A Google és a Yandex termékekről beszélünk. Például a Google Search Console-ban van egy eszköztár, ahol meg kell nyitnia a „Feltérképezés” elemet, majd futtassa a „Robots.txt fájlellenőrző eszközt”. Be kell másolnia az összes adatot a dokumentumból az ablakba, és el kell kezdenie a szkennelést. Pontosan ugyanez az ellenőrzés elvégezhető a Yandex. Webmasterben.

Ajánlott: