Was ist neu?

Ignoriert Google Crawler .htaccess?

Bones

- Premium Member -
Ich glaube es ja nicht. Vor 5 Minuten dachte ich mir, checkste doch mal Google nach deinen Seiten ab und was finde ich im Index? Ein Unterverzeichnis mit hoch sensiblen Dateien die durch eine .htaccess geschützt sind. Direkt im Google Index :eek: Ignoriert der Google Crawler jetzt .htaccess? Was ist da los? wie bekomme ich das schnell wieder raus?
 

nathan

- Premium Member -
Ich glaube es ja nicht. Vor 5 Minuten dachte ich mir, checkste doch mal Google nach deinen Seiten ab und was finde ich im Index? Ein Unterverzeichnis mit hoch sensiblen Dateien die durch eine .htaccess geschützt sind. Direkt im Google Index :eek: Ignoriert der Google Crawler jetzt .htaccess? Was ist da los? wie bekomme ich das schnell wieder raus?
Klingt eher wie ein Fehler im .htaccess.. Diese werden von dem Webserver gehandelt und Google sieht die garnicht.

Der Webserver versperrt den Zugriff... klingt so als ob .htaccess aus war als der Crawler vorbei kam....
 

t-rex

- Premium Member -
Hi,

Wenn der Server richtig konfiguriert ist, kann niemand - auch Google - Einfluss auf die .htaccess nehmen. Die .htaccess ist lediglich eine Erweiterung der Konfiguration Deines Webservers. Hat die .htaccess die richtigen Anweisungen und befindet sich an der richtigen Stelle, dann nichts und niemand dran vorbei.

Ergo, stimmt was mit Deiner .htaccess nicht. Du solltest also überprüfen, ob sie noch da ist, wo Du sie hinkopiert hast und wo sie sein sollte. Dann solltest du überprüfen, ob evtl. ein Skript oder, sofern noch andere Zugriff auf den Server haben, jemand anderes die .htaccess verändert hat. Genauso kann es ja auch möglich sein, dass du selbst eine unbedachte Änderung daran vorgenommen hast.

Rausbekommen kannst Du sie, indem Du erst einmal eine robots.txt erstellst, in der Du das Crawlen für die geheimen Dateien verbietest. Danach meldest Du die Domain bei den Google Webmaster Tools an. Unter dem Link Website-Konfiguration -> Crawler Zugriff findest Du einen Link Url entfernen. Folge den Anweisungen. Nach etwa 24 Stunden sollten die Seiten aus dem Index wieder verschwunden sein.

Zusätzliche Tipps:
Also erst einmal die .htaccess öfters überprüfen ;-)
Immer eine robots.txt erstellen.
Für ganz geheime Dateien ein Verzeichnis mit krummen Namen (wie ein Passwort) wählen.
Nirgends die komplette Url zu den Dateien oder dem Verzeichnis hinterlegen.

Sonnige Grüsse
HaPe
 

Neue Themen

Oben