A weboldal gyökérkönyvében tárolt robots.txt fájl webrobotokat fog megmagyarázni, mint például a keresőmotor pókok, milyen könyvtárakat és fájlokat tudnak feltérképezni. Egyszerűen használható robots.txt fájl, de vannak olyan dolgok, amiket ne feledje:
- A fekete kalapos webrobotok figyelmen kívül hagyják a robots.txt fájlját. A leggyakoribb típusok a rosszindulatú szoftverek és az e-mail címeket kereső robotok.
- Néhány új programozó olyan robotokat fog írni, amelyek figyelmen kívül hagyják a robots.txt fájlt. Ezt általában véletlenül végzik el.
- Bárki láthatja a robots.txt fájlt. Mindig a robots.txt néven hívják őket, és mindig a webhely gyökerén vannak tárolva.
- Végül, ha valaki olyan fájlra vagy könyvtárra mutat, amely a robots.txt fájlból kizár egy olyan oldaltól, amelyet a robots.txt fájl nem zár ki, akkor a keresőmotorok is megtalálhatják.
Ne használjon robots.txt fájlokat semmi fontos elrejtéséhez. Ehelyett fontos információkat kell elhelyeznie biztonságos jelszavak mögé, vagy teljesen el kell hagynia az internetről.
A mintafájlok használata
Másolja át a mintát a legközelebb esőhöz, és tegye be a robots.txt fájlba. Módosítsa a robot, a könyvtár és a fájlneveket, hogy megfeleljen az Ön által preferált konfigurációnak.
Két alapvető Robots.txt fájl
Felhasználói ügynök: *
Disallow: /
Ez a fájl azt mondja, hogy minden olyan robot (felhasználó-ügynök: *), amelyik hozzáfér, figyelmen kívül hagyja az oldal minden oldalát (Disallow: /).
Felhasználói ügynök: *
Letiltás:
Ez a fájl azt mondja, hogy minden olyan robot (User-agent: *), amely hozzáfér, hozzáférhet a webhely minden oldalához (Disallow:).
Ezt akkor is megteheti, ha a robots.txt fájlt üresen hagyja, vagy egyáltalán nem rendelkezik a webhelyével.
Védje a könyvtárak specifikus könyvtárait
Felhasználói ügynök: *
Disallow: / cgi-bin /
Letiltás: / temp /
Ez a fájl azt mondja, hogy minden olyan robot (User-agent: *), amely hozzáfér, figyelmen kívül hagyja a könyvtárakat / cgi-bin / és / temp / (Disallow: / cgi-bin / Disallow: / temp /).
Bizonyos oldalak védelme a robotoktól
Felhasználói ügynök: *
Disallow: /jenns-stuff.htm
Disallow: /private.php
Ez a fájl azt mondja, hogy bármelyik robot (User-agent: *), amelyik hozzáfér, figyelmen kívül hagyja a /jenns-stuff.htm és a /private.php fájlokat (Disallow: /jenns-stuff.htm Disallow: /private.php).
Megakadályozzon egy specifikus robotot a webhely eléréséért
Felhasználói ügynök: Lycos / xx
Disallow: /
Ez a fájl azt mondja, hogy a Lycos bot (Felhasználó-ügynök: Lycos / xx) nem férhet hozzá bárhol a webhelyen (Disallow: /).
Csak egy specifikus robot hozzáférés engedélyezése
Felhasználói ügynök: *
Disallow: /
Felhasználói ügynök: a Googlebot
Letiltás:
Ez a fájl először letiltja az összes olyan robotot, mint a fentiek, majd kifejezetten engedélyezi a Googlebot (User-agent: Googlebot) hozzáférését mindent (Disallow:).
Kombináljon több sorozatot, hogy pontosan megkapja a kívánt kizárásokat
Bár jobb egy nagyon befogadó felhasználói-ügynök vonal használata, mint a User-agent: *, akkor annyira egyedi lehet, amennyit csak akar. Ne felejtsük el, hogy a robotok a fájlokat sorrendben olvassák. Tehát ha az első sorok azt mondják, hogy minden robot blokkolja mindent, majd később a fájlban azt mondja, hogy minden robot számára hozzáférést biztosítanak mindent, a robotok mindenkinek hozzáférhetnek.
Ha nem biztos abban, hogy helyesen írta-e be a robots.txt fájlt, akkor a Google Webmestereszközök segítségével ellenőrizheti a robots.txt fájlt, vagy írhat egy újat.