Hogyan kell megfelelően beállítani a Robots.txt fájlt?

Tartalomjegyzék:

Hogyan kell megfelelően beállítani a Robots.txt fájlt?
Hogyan kell megfelelően beállítani a Robots.txt fájlt?
Anonim

A HTML-webhely megfelelő Robots txt-je cselekvési modelleket hoz létre a keresőrobotokhoz, és megmondja nekik, hogy mit ellenőrizhetnek. Ezt a fájlt gyakran robotkizárási protokollnak is nevezik. Az első dolog, amit a robotok keresnek, mielőtt feltérképeznének egy webhelyet, a robots.txt. Rámutathat vagy utasíthatja a webhelytérképet, hogy ne ellenőrizze bizonyos aldomaineket. Ha azt szeretné, hogy a keresőmotorok a leggyakrabban talált dolgokra keressenek, akkor a robots.txt nem szükséges. Ebben a folyamatban nagyon fontos, hogy a fájl megfelelően legyen formázva, és ne indexelje a felhasználói old alt a felhasználó személyes adataival.

Robot szkennelési elve

A robotszkennelés elve
A robotszkennelés elve

Amikor egy keresőmotor találkozik egy fájllal, és egy tiltott URL-t lát, nem térképezi fel, de indexelni tudja. Ennek az az oka, hogy ha a robotok nem tekinthetik meg a tartalmat, akkor is emlékeznek a tiltott URL-re mutató linkekre. A linkhez való hozzáférés letiltása miatt az URL megjelenik a keresőkben, de töredékek nélkül. Ha egya bejövő marketingstratégiához a megfelelő Robots txt for bitrix (Bitrix) szükséges, a felhasználó kérésére szkennerekkel biztosítják a helyszín ellenőrzését.

Másrészt, ha a fájl nincs megfelelően formázva, ez azt eredményezheti, hogy a webhely nem jelenik meg a keresési eredmények között, és nem található. A keresőmotorok nem tudják megkerülni ezt a fájlt. A programozó bármely webhely robots.txt fájlját megtekintheti, ha felkeresi a tartományát, és követi a robots.txt fájllal, például www.domain.com/robots.txt. Egy olyan eszköz használatával, mint az Unamo SEO optimalizálás szakasza, ahol bármilyen tartományt megadhat, és a szolgáltatás információkat jelenít meg a fájl létezéséről.

Szkennelési korlátozások:

  1. A felhasználó elavult vagy érzékeny tartalommal rendelkezik.
  2. A webhelyen található képek nem jelennek meg a képkeresési eredmények között.
  3. A webhely még nem áll készen a bemutatóra, hogy a robot indexelje.

Ne feledje, hogy a felhasználó által a keresőmotortól kapott információk bárki számára elérhetők, aki beírja az URL-t. Ne használja ezt a szövegfájlt érzékeny adatok elrejtésére. Ha a domain 404-es (nem található) vagy 410-es (megfelelt) hibával rendelkezik, a keresőmotor a robots.txt jelenléte ellenére ellenőrzi a webhelyet, ebben az esetben úgy ítéli meg, hogy a fájl hiányzik. Az egyéb hibák, mint például az 500-as (belső szerverhiba), a 403-as (tiltott), az időtúllépés vagy a „nem elérhető” tiszteletben tartják a robots.txt utasításait, azonban a kiiktatás késleltethető, amíg a fájl elérhetővé válik.

Keresési fájl létrehozása

Keresőfájl létrehozása
Keresőfájl létrehozása

SokA CMS-programok, például a WordPress, már rendelkeznek robots.txt fájllal. A Robots txt WordPress megfelelő konfigurálása előtt a felhasználónak meg kell ismerkednie annak képességeivel, hogy kitalálja, hogyan férhet hozzá. Ha a programozó maga hozza létre a fájlt, annak meg kell felelnie a következő feltételeknek:

  1. Kisbetűvel kell írni.
  2. Használjon UTF-8 kódolást.
  3. Mentés szövegszerkesztőben fájlként (.txt).

Ha a felhasználó nem tudja, hová helyezze el, felveszi a kapcsolatot a webszerver-szoftver gyártójával, hogy megtudja, hogyan férhet hozzá egy domain gyökeréhez, vagy lépjen a Google konzolra és töltse le. Ezzel a funkcióval a Google azt is ellenőrizheti, hogy a bot megfelelően működik-e, és a fájl segítségével letiltott webhelyek listáját is.

A megfelelő Robots txt fő formátuma a bitrixhez (Bitrix):

  1. Legend robots.txt.
  2. , megjegyzéseket ad hozzá, amelyek csak megjegyzésként használhatók.
  3. A szkennerek figyelmen kívül hagyják ezeket a megjegyzéseket a felhasználói elírásokkal együtt.
  4. User-agent – jelzi, hogy a fájlhoz tartozó utasítások melyik keresőmotorban találhatók.
  5. A csillag () hozzáadása azt jelzi a lapolvasóknak, hogy az utasítások mindenkinek szólnak.

Egy adott robot jelzése, például Googlebot, Baiduspider, Applebot. A Disallow közli a feltérképező robotokkal, hogy a webhely mely részeit nem szabad feltérképezni. Így néz ki: User-agent:. A csillag jelentése "minden bot". Megadhat azonban oldalakat konkrétanbotok. Ehhez ismernie kell annak a robotnak a nevét, amelyhez ajánlásokat állít be.

A megfelelő robots txt a Yandexhez így nézhet ki:

Helyes robotok txt a Yandex
Helyes robotok txt a Yandex

Ha a botnak nem kellene feltérképeznie az old alt, akkor megadhatja, a felhasználói ügynökök nevének megtalálásához pedig javasoljuk, hogy ismerkedjen meg a useragentstring.com online lehetőségeivel.

Oldaloptimalizálás

Oldal optimalizálás
Oldal optimalizálás

A következő két sort teljes robots.txt fájlnak tekintjük, és egyetlen robots fájl több sor felhasználói ügynököt és utasítást is tartalmazhat, amelyek letiltják vagy engedélyezik a feltérképezést. A megfelelő Robots txt fő formátuma:

  1. Felhasználói ügynök: [ügynök felhasználóneve].
  2. Disallow: .

A fájlban minden direktívablokk különállóként jelenik meg, sorral elválasztva. Az ügynök felhasználói könyvtára melletti fájlban minden szabály a szakaszokkal elválasztott sorok meghatározott készletére vonatkozik. Ha egy fájl több ügynök szabályt tartalmaz, a robot csak az utasítások legspecifikusabb csoportját veszi figyelembe.

Technikai szintaxis

Technikai szintaxis
Technikai szintaxis

Ez a robots.txt fájlok "nyelve"ként is felfogható. Öt kifejezés létezhet ebben a formátumban, a főbbek a következők:

  1. User-agent – webrobot feltérképezési utasításokkal, általában keresőmotor.
  2. A Disallow egy parancs, amellyel a felhasználói ügynök kihagyásra utasítjaegy adott URL (kihagyása). Mindegyikhez csak egy tiltott feltétel tartozik.
  3. Engedélyezés. A hozzáférést megszerző Googlebot esetében még a felhasználói oldal is le van tiltva.
  4. Feltérképezés késleltetése – megadja, hány másodpercre lesz szüksége a bejárónak a feltérképezés előtt. Ha a bot nem erősíti meg, a sebességet a Google konzolon állítja be.
  5. Webhelytérkép – Az URL-hez társított XML-térképek megkeresésére szolgál.

Mintaegyezések

Amikor az URL-ek tényleges blokkolásáról vagy az érvényes Robots txt engedélyezéséről van szó, a műveletek meglehetősen bonyolultak lehetnek, mivel lehetővé teszik a mintaegyeztetés használatát számos lehetséges URL-paraméter lefedésére. A Google és a Bing is két karaktert használ, amelyek azonosítják azokat az oldalakat vagy almappákat, amelyeket a keresőoptimalizáló ki akar zárni. A két karakter a csillag () és a dollárjel ($), ahol:egy helyettesítő karakter, amely bármilyen karaktersorozatot jelöl. $ - megegyezik az URL végével.

A Google a lehetséges sablonszintaxisok széles listáját kínálja, amelyek elmagyarázzák a felhasználónak, hogyan kell megfelelően beállítani a Robots txt fájlt. Néhány gyakori használati eset:

  1. Akadályozza meg, hogy ismétlődő tartalom jelenjen meg a keresési eredmények között.
  2. A webhely minden része legyen privát.
  3. A keresési eredmények belső oldalainak mentése nyílt utasítás alapján.
  4. Jelölje meg a helyet.
  5. Akadályozza meg, hogy a keresőmotorok indexeljenek bizonyosfájlok.
  6. Feltérképezési késleltetés megadása az újratöltés leállításához, ha egyszerre több tartalomterületet vizsgál.

Robotfájl jelenlétének ellenőrzése

Ha a webhelyen nincs olyan terület, amelyet fel kellene térképezni, akkor a robots.txt fájlra egyáltalán nincs szükség. Ha a felhasználó nem biztos abban, hogy ez a fájl létezik, meg kell adnia a gyökértartományt, és be kell írnia az URL végére, ilyesmi: moz.com/robots.txt. Számos keresőrobot figyelmen kívül hagyja ezeket a fájlokat. Ezek a bejárók azonban általában nem tartoznak a jó hírű keresőmotorokhoz. Ők azok a spammerek, levélgyűjtők és más típusú automatizált robotok, amelyek bőven megtalálhatók az interneten.

Nagyon fontos megjegyezni, hogy a robotkizárási szabvány alkalmazása nem hatékony biztonsági intézkedés. Valójában előfordulhat, hogy egyes robotok olyan oldalakkal indulnak, ahol a felhasználó beolvasási módba állítja őket. Több rész is bekerül a szabványos kivételfájlba. Mielőtt megmondaná a robotnak, hogy mely oldalakon ne működjön, meg kell adnia, hogy melyik robottal beszéljen. A legtöbb esetben a felhasználó egy egyszerű deklarációt használ, ami azt jelenti, hogy "minden bot".

SEO optimalizálás

SEO optimalizálás
SEO optimalizálás

Az optimalizálás előtt a felhasználónak meg kell győződnie arról, hogy nem blokkolja a webhely olyan tartalmait vagy részeit, amelyeket meg kell kerülni. A megfelelő Robots txt-vel letiltott oldalakra mutató hivatkozásokat a rendszer nem veszi figyelembe. Ez azt jelenti:

  1. Ha nem hivatkoznak a keresőmotorok számára elérhető más oldalakra, pl. oldalak,nem blokkolja a robots.txt vagy egy metarobot, és a kapcsolódó erőforrások nem kerülnek feltérképezésre, ezért nem indexelhetők.
  2. A blokkolt oldalról nem lehet hivatkozást átadni a hivatkozás céljára. Ha van ilyen oldal, akkor jobb, ha a robots.txt fájltól eltérő blokkolási mechanizmust használ.

Mivel más oldalak közvetlenül hivatkozhatnak személyes adatokat tartalmazó oldalra, és Ön szeretné letiltani ezt az old alt a keresési eredmények közül, használjon más módszert, például jelszavas védelmet vagy noindex metaadatokat. Egyes keresőmotorok több felhasználói ügynököt is tartalmaznak. Például a Google a Googlebotot használja az organikus keresésekhez, a Googlebot-Image-et pedig a képkeresésekhez.

Az ugyanabból a keresőmotorból származó felhasználói ügynökök többsége ugyanazokat a szabályokat követi, így nincs szükség direktívák megadására a több bejáróhoz, de ennek lehetősége finomhangolhatja a webhely tartalmának feltérképezését. A keresőmotor gyorsítótárazza a fájl tartalmát, és általában naponta legalább egyszer frissíti a tárolt tartalmat. Ha a felhasználó módosítja a fájlt, és a szokásosnál gyorsabban szeretné frissíteni, elküldheti a robots.txt URL-jét a Google-nak.

Keresők

Robotfájl meglétének ellenőrzése
Robotfájl meglétének ellenőrzése

A Robots txt helyes működésének megértéséhez ismernie kell a keresőmotorok képességeit. Röviden, képességük abban rejlik, hogy "szkennereket" küldenek, amelyek olyan programok, amelyekböngészés az interneten információkért. Ezután eltárolnak néhány információt, hogy később továbbadják a felhasználónak.

Sok ember számára a Google már az internet. Valójában igazuk van, hiszen talán ez a legfontosabb találmánya. És bár a keresőmotorok sokat változtak a kezdetek óta, az alapelvek továbbra is ugyanazok. A robotok, más néven "botok" vagy "pókok", több milliárd webhelyről találnak oldalakat. A keresőmotorok útbaigazítást adnak nekik, hogy merre induljanak, míg az egyes webhelyek kommunikálhatnak a robotokkal, és megmondhatják nekik, hogy melyik old alt érdemes megnézniük.

Általában a webhelytulajdonosok nem akarnak megjelenni a keresőmotorokban: adminisztrátori oldalakon, háttérportálokon, kategóriákban és címkéken, valamint egyéb információs oldalakon. A robots.txt fájl arra is használható, hogy megakadályozza a keresőmotorok oldalak ellenőrzését. Röviden: a robots.txt megmondja a webrobotoknak, hogy mit tegyenek.

Oldalak kitiltása

Ez a robotkizárási fájl fő része. Egy egyszerű deklarációval a felhasználó utasítja egy botot vagy botcsoportot, hogy ne térképezzen fel bizonyos oldalakat. A szintaxis egyszerű, például ha meg akarja tagadni a hozzáférést mindenhez a webhely "admin" könyvtárában, írja be: Disallow: /admin. Ez a sor megakadályozza, hogy a robotok feltérképezzenek a yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html és bármi mást az admin könyvtárban.

Egy oldal letiltásához egyszerűen adja meg a tiltó sorban: Disallow: /public/exception.html. Most a "kivétel" oldalnem költözik át, de a "nyilvános" mappában minden más igen.

Ha több old alt szeretne tartalmazni, egyszerűen sorolja fel őket:

Könyvtárak és oldalak
Könyvtárak és oldalak

A szimfónia megfelelő Robots txt-jének ez a négy sora vonatkozik a https://www.symphonyspace.org/.robots.txt szakaszának tetején felsorolt bármely felhasználói ügynökre.

Oldalak kitiltása
Oldalak kitiltása

Webhelytérkép:

Egyéb parancsok:live - ne engedje, hogy a webrobotok indexeljék a cpresources/ vagy a szolgáltatót/.

Felhasználói ügynök:Disallow: /cpresources/.

Deny: / vendor / Disallow: /.env.

Szabványok meghatározása

A felhasználó megadhat konkrét oldalakat a különböző botokhoz az előző két elem kombinálásával, így néz ki. Az alábbiakban bemutatunk egy példát az összes keresőmotorhoz megfelelő Robots txt-re.

Szabványok meghatározása
Szabványok meghatározása

Az "admin" és a "privát" szakaszok láthatatlanok lesznek a Google és a Bing számára, de a Google továbbra is látni fogja a "titkos" könyvtárat, míg a Bing nem. Megadhat általános szabályokat az összes bothoz a csillag felhasználói ügynök használatával, majd a következő szakaszokban konkrét utasításokat adhat a botoknak. A fenti ismeretek birtokában a felhasználó írhat egy példát a megfelelő Robots txt-re az összes keresőmotorhoz. Csak indítsa el kedvenc szövegszerkesztőjét, és mondja el a robotoknak, hogy nem látják szívesen a webhely bizonyos részein.

Tippek a szerver teljesítményének javításához

SublimeText vansokoldalú szövegszerkesztő és sok programozó aranystandardja. Programozási tippjei ráadásul a hatékony kódoláson alapulnak. a felhasználók értékelik a parancsikonok jelenlétét a programban. Ha a felhasználó szeretne látni egy példát egy robots.txt fájlra, akkor bármely webhelyre fel kell lépnie, és a végéhez hozzá kell adnia a „/robots.txt” karakterláncot. Itt található a GiantBicycles. robots.txt fájl egy része.

A program olyan oldalak létrehozását teszi lehetővé, amelyeket a felhasználók nem akarnak megjeleníteni a keresőkben. És van néhány exkluzív dolog is, amelyekről kevesen tudnak. Például míg a robots.txt fájl megmondja a botoknak, hogy hova ne menjenek, az old altérkép ennek az ellenkezőjét teszi, és segít nekik megtalálni, amit keresnek, és bár a keresőmotorok valószínűleg már tudják, hol található az old altérkép, nem kapja meg. az úton.

Két típusú fájl létezik: HTML-oldal vagy XML-fájl. A HTML oldal olyan oldal, amely a látogatóknak megjeleníti a webhely összes elérhető oldalát. A saját robots.txt fájljában így néz ki: Sitemap://www.makeuseof.com/sitemap_index.xml. Ha a webhelyet a keresőmotorok nem indexelték, bár webrobotok többször is feltérképezték, meg kell győződnie arról, hogy a fájl jelen van, és az engedélyei megfelelően vannak beállítva.

Alapértelmezés szerint ez minden SeoToaster telepítésnél megtörténik, de szükség esetén a következőképpen állíthatja vissza: robots.txt fájl - 644. PHP szervertől függően, ha ez nem működik a felhasználónak, akkor Javasoljuk, hogy próbálkozzon a következővel: Fájl robots.txt - 666.

A keresés késleltetésének beállítása

A bypass delay direktíva bizonyosa keresőmotorok, hogy milyen gyakran indexelhetnek egy old alt a webhelyen. Másodpercekben mérik, bár egyes keresőmotorok kissé eltérően értelmezik. Vannak, akik 5-ös feltérképezési késleltetést látnak, amikor azt mondják nekik, hogy várjanak öt másodpercet minden vizsgálat után, hogy elindítsák a következőt.

Mások ezt olyan utasításként értelmezik, hogy öt másodpercenként csak egy old alt kell beolvasni. A robot nem tud gyorsabban keresni a szerver sávszélességének megtakarítása érdekében. Ha a kiszolgálónak meg kell felelnie a forgalomnak, beállíthat egy bypass késleltetést. Általában a legtöbb esetben a felhasználóknak nem kell aggódniuk emiatt. Így van beállítva a nyolc másodperces feltérképezési késleltetés - Feltérképezési késleltetés: 8.

De nem minden keresőmotor engedelmeskedik ennek az irányelvnek, ezért az oldalak letiltásakor különböző feltérképezési késleltetéseket állíthat be bizonyos keresőmotorokhoz. Miután a fájlban található összes utasítást beállította, feltöltheti a webhelyre, először győződjön meg arról, hogy ez egy egyszerű szöveges fájl, amelynek neve robots.txt, és megtalálható a yoursite.com/robots.txt. címen.

A legjobb WordPress bot

A legjobb WordPress Bot
A legjobb WordPress Bot

Vannak olyan fájlok és könyvtárak a WordPress webhelyeken, amelyeket minden alkalommal zárolni kell. A felhasználóknak le kell tiltaniuk a cgi-bin és a szabványos WP-könyvtárakat. Egyes szerverek nem engedélyezik a hozzáférést a cgi-bin könyvtárhoz, de a felhasználóknak bele kell foglalniuk a disallow direktívába, mielőtt megfelelően konfigurálnák a Robots txt WordPress

Szabványos WordPress-könyvtárak,amiket le kell tiltani: wp-admin, wp-content, wp-includes. Ezek a könyvtárak nem tartalmaznak a keresőmotorok számára kezdetben hasznos adatokat, de van kivétel, vagyis van egy uploads nevű alkönyvtár a wp-content könyvtárban. Ezt az alkönyvtárat engedélyezni kell a robot.txt fájlban, mivel mindent tartalmaz, ami a WP médiafeltöltési funkcióval betöltődik. A WordPress címkéket vagy kategóriákat használ a tartalom felépítéséhez.

Ha kategóriákat használunk, akkor a megfelelő, a program gyártója által meghatározott Robots txt for Wordpress elkészítéséhez le kell tiltani a címkearchívumot a keresésből. Először az "Adminisztráció" panelre lépve ellenőrzik az adatbázist.> "Beállítások"> "Permalink".

Alapértelmezés szerint az alap a címke, ha a mező üres: Disallow: / tag /. Ha kategóriát használ, akkor a kategóriát le kell tiltania a robot.txt fájlban: Disallow: /category/. Alapértelmezés szerint az alap a címke, ha a mező üres: Disallow: / tag /. Ha kategóriát használ, akkor a kategóriát le kell tiltania a robot.txt fájlban: Disallow: / category /.

Az elsősorban tartalom megjelenítésére használt fájlok blokkolják őket a Wordpress megfelelő Robots txt fájlja:

Robots txt a wordpresshez
Robots txt a wordpresshez

Joomla alapbeállítás

Miután a felhasználó telepítette a Joomlát, meg kell tekintenie a megfelelő Joomla Robots txt beállítást a globális konfigurációban, amely a vezérlőpulton található. Néhány beállítás nagyon fontos a SEO szempontjából. Először keresse meg a webhely nevét, és győződjön meg rólaaz oldal rövid nevét használjuk. Ezután ugyanazon képernyő jobb oldalán találnak egy beállításcsoportot, amelyet SEO beállításoknak neveznek. A másodikat mindenképpen módosítani kell: használj újraírható URL-t.

Ez bonyolultan hangzik, de alapvetően segít a Joomlának tisztább URL-ek létrehozásában. A leginkább észrevehető, ha eltávolítja az index.php sort az URL-ekből. Ha később módosítja, az URL-ek megváltoznak, és ez nem fog tetszeni a Google-nak. Ennek a beállításnak a megváltoztatásakor azonban egyszerre több lépést is meg kell tenni a megfelelő robots txt létrehozásához a Joomla számára:

  1. Keresse meg a htaccess.txt fájlt a Joomla gyökérmappában.
  2. Jelölje meg.htaccessként (kiterjesztés nélkül).
  3. Tegye bele a webhely nevét az oldalak címébe.
  4. Keresse meg a metaadat-beállításokat a globális konfigurációs képernyő alján.

Robot a felhőben MODX

Robot a MODX felhőben
Robot a MODX felhőben

Korábban a MODX Cloud lehetővé tette a felhasználók számára, hogy az irányítópulton lévő kapcsolóval szabályozzák a robots.txt fájl kiszolgálását. Noha ez hasznos volt, véletlenül engedélyezhető volt az indexelés az állomásozó/fejlesztői webhelyeken az irányítópult egyik beállításának átkapcsolásával. Hasonlóképpen könnyű volt letiltani az indexelést a termelési helyen.

Ma a szolgáltatás feltételezi a robots.txt fájlok jelenlétét a fájlrendszerben a következő kivétellel: minden modxcloud.com végződésű tartomány Disallow: /direktívaként fog szolgálni minden felhasználói ügynök számára, függetlenül a jelenléttől. vagy a fájl hiánya. A valódi látogatói forgalmat fogadó termelési webhelyeknek saját domainjüket kell használniuk, ha a felhasználó indexelni akarja webhelyét.

Egyes szervezetek a megfelelő Robots txt-et használják a modx-hez több webhely futtatásához egyetlen telepítésből a Contexts használatával. Ez egy olyan eset, ahol ezt lehetne alkalmazni, egy nyilvános marketingwebhely a céloldal mikrowebhelyeivel, és esetleg egy nem nyilvános intranet.

Hagyományosan ezt nehéz volt megtenni többfelhasználós telepítéseknél, mivel ugyanazon a hálózati gyökéren osztoznak. A MODX Clouddal ez egyszerű. Egyszerűen töltsön fel egy extra fájlt a robots-intranet.example.com.txt nevű webhelyre a következő tartalommal, és blokkolja az indexelést a jól működő robotokkal, és az összes többi gazdagépnév visszaáll a szabványos fájlokra, hacsak nincs más névcsomópont.

A Robots.txt egy fontos fájl, amely segít a felhasználónak linkelni a webhelyre a Google-on, a nagyobb keresőmotorokon és más webhelyeken. A webszerver gyökerében található fájl arra utasítja a webrobotokat, hogy térképezzenek fel egy webhelyet, és állítsák be, hogy mely mappákat indexelje vagy ne, a Bot Exclusion Protocol nevű utasításkészlet segítségével. Példa a megfelelő Robots txt-re minden keresőmotorhoz Az obots.txt különösen könnyen elkészíthető a SeoToasterrel. A vezérlőpulton külön menü készült hozzá, így a botnak soha nem kell túlhajszolnia a hozzáféréshez.

Ajánlott: