Was ist neu?
Digital Marketing & Webmaster Forum

Digital Marketing, Internet-Technologien, Metaverse und mehr interessieren Dich? Registriere Dich gleich kostenlos, um Mitglied zu werden! Sobald Du angemeldet bist, kannst Du loslegen, Themen und Beiträge veröffentlichen und mit anderen Mitgliedern in Kontakt treten! Wir wünschen Dir einen anregenden Austausch!

Robots.txt Frage

Raptor

- Royal Clan Member -
Ich hätte da mal eine ganz beknackte Frage die ich mir nie gestellt habe und die vielleicht lächerlich erscheinen könnte. Thema robots.txt.

Ihr kennt die Disallow Zeilen um gewisse Crawler auszuperren (wenn die das für ernst nehmen). Muss man unter die Zeilen dann noch schreiben ob ich allen anderen Zugriff gewährt ist in Form von Allow ? Neeee oder?
 

weedy

- Premium Member -
Nein, das ist genauso wie bei den Verzeichnissen, die Du crawlen oder nichtcrawlen lassen kannst.
Du kannst selbst entscheiden ob Du mit Allow oder Disallow Tags arbeiten möchtest.
Wer faul ist, zieht natürlich die Disallow Methodik vor ;)

Unterm Strich ist das aber egal. Auf ein Disallow muss aber kein Allow gesetzt werden, um die Frage zu beantworten.
 

PornoDussel

- Premium Member -
Nein, das ist genauso wie bei den Verzeichnissen, die Du crawlen oder nichtcrawlen lassen kannst.
Du kannst selbst entscheiden ob Du mit Allow oder Disallow Tags arbeiten möchtest.
Wer faul ist, zieht natürlich die Disallow Methodik vor ;)

Unterm Strich ist das aber egal. Auf ein Disallow muss aber kein Allow gesetzt werden, um die Frage zu beantworten.


Vielleicht habe ich dich auch nur falsch verstanden, aber das was Du bezüglich das Allow sagst ist nicht so ganz richtig.

Nach dem Robots Exclusion Protocol ( hierdurch ist die Syntax der robots.txt geregelt) wird das durch Allow lediglich das Auslesen einer vorher durch Disallow gesperrten Datei erlaubt. Wobei man vielleicht noch darauf hinweisen sollte, dass die meisten Webcrawler mit Allow rein gar nichts anfangen können (da es nie wirklich definiert wurde). Daher wird in der Fachliteratur auch meist nur der Disallow erwähnt.

Beispiel:

User-agent: *
Disallow: /privat/


In diesem Beispiel sperre ich das Verzeichnis /privat/ komplett für alle Crawler. Nehmen wir mal an, in diesem Verzeichnis befindet sich die Datei index.html, die ich nicht aussperren will, dann schreibe ich:

User-agent: *
Disallow: /privat/
Allow: /privat /index.html

Unterm Strich ist es also nicht egal bzw. das Allow ist für was ganz anders da.


@Raptor

Wenn Du ein Verzeichnis ohne Wenn und Aber aussperren willst, nur Disallow. Willst Du in diesem Verzeichnis den Zugriff auf Files oder Unterverzeichnisse erlauben, dann musst Du diese mit Allow explizit freigeben. Aber daran danken, dass Allow nur ganz wenig Webcrawler überhaupt kennen!

Wenn Du ganz sichergehen willst, ein paar weiterführende Infos:

SELFHTML: Diverse technische Ergänzungen / robots.txt - Robots kontrollieren
Robots Exclusion Standard – Wikipedia

Wobei sich hier bei wikipedia ein kleiner Fehler eingeschlichen hat. Bei Allow müsste es eigentlich:

Disallow: /
Allow: /public/

heißen ( es wurde der Slash am Ende vergessen und somit würde sich das Allow bei einigen Webcrawlern auf alles beziehen, was mit public beginnt. (Das zu wissen ist ganz wichtig wenn man mit Disallow arbeitet! )
 

Reverend

- Premium Member -
richtig!
wenn du per disallow einen ordner z.B. einträgst, wird lediglich dieser nicht gecrawlt! ansonsten ist alles offen, wie ein scheunentor! :D
 

SeoPunk

- Royal Clan Member -
In der letzten Zeit lese ich immer vermehrter daß Google die robots.txt ignoriert. Disallow einfach übergangen. Hatte selbst noch nie Probleme in der Richtung aber wundere mich über die häufigen Klagen in den vergangenen Wochen.
 
Oben