Hallo,
nachdem sich Unmengen an threads damit befassen, wie man bestmöglich gefunden wird, brauche ich das Gegenteil.
Suchmaschinen sollen nichts davon listen.
Ich habe nun schon der Startseite einen kryptischen Namen gegeben.
Weiterhin eine wegführende index.htm erstellt.
Den Eintrag gesetzt meta name="robots" content="noindex,nofollow">
Und außerdem eine robots.txt gesetzt ("disallow).
Bitte nicht über den Sinn diskutieren. Es hat definitiv seinen Sinn.
Und wenn doch ein paar Leute die Seite finden, ists auch nicht schlimm.
Die Site hat sich jetzt schon 4 Wochen erfolgreich versteckt - keine Suchmaschine listet sie.
Es geht nun einzig darum: Kann man noch mehr machen um nicht gefunden zu werden?
(htaccess -Lösung ist nicht gewollt, php auch nicht).
Homepage selbermachen 7.852 Themen, 35.619 Beiträge
- Erstelle im Wurzelverzeichnis eine robots.txt mit folgendem Inhalt:
User-agent: *
Disallow: /
- verschiebe den Inhalt der Seite in ein nicht verlinktes Unterverzeichnis
- vermeide, dass die Seite irgendwo von extern her verlinkt wird
- blockiere User-Agents und IP-Ranges von Spiders per .htaccess/rewrite-Rule. Bedenke, dass dies einen gewaltigen Wartungsaufwand bedeutet und du auch reguläre Benutzer damit aussperren kannst.
Beachte, dass der Spider einer Suchmaschine alles sehen kann, was auch ein regulärer Besucher zu Gesicht bekommt. Alle "sanften" Methoden wie meta-Tags oder robots.txt helfen daher nur bei Spidern, welche sich auch tatsächlich an diese Vorgaben halten. Alle böswilligen Spider lassen sich davon nicht beirren und müssen auf die harte Tour (d.h. Zugangsschutz mit Benutzername/Passwort) geblockt werden.
Letztendlich gilt wie immer die Regel: Was nicht öffentlich sein soll, gehört nicht öffentlich ins Netz gestellt.
Hallo,
vielen Dank für Deine Antwort. Ich weiß, daß meine Lösung keineswegs perfekt ist - aber manchmal ist eine unperfekte Lösung besser, weil die Ressourcen für eine perfekte nicht ausreichen.
Die robots.txt besteht schon, wie oben geschrieben.
Das mit der Verschiebung in ein Unterverzeichnis werde ich noch machen.
Kannst Du mir sagen, was in die .htaccess zur Abschreckung der robots reinzuschreiben ist? (htpassword soll nicht sein).
Da die .htaccess-Konfiguration extrem arbeitsaufwändig und permanenten Änderungen unterzogen ist, kann ich dir hier keine vorgefertigte Lösung anbieten. Du musst dir mithilfe von Google etwas passendes zusammenstricken. Ein guter Anfang sind die Suchbegriffe htaccess block user agent und htaccess block bot ip
Danke, ich werde experimentieren.
Bringt es was, wenn im Hauptverzeichnis nur die Startdatei z.B. mit Namen abcdefg.htm ist (plus robots.txt plus .htaccess). Die verlinkten Dokumente (fast alles pdf) würde ich reinpacken in das Unterverzeichnis
inh
D.h. die abcdefg.htm würde verlinken auf
/inh/geschaeftsbericht.pdf
/inh/sonderurlaub.pdf
usw.
Wenn es eh nur darum geht, ein paar PDF-Dokumente zu verbreiten, kannst du auch einfach das Directory-Listing in der .htaccess deaktivieren:
Options -Indexes
Dann kannst du die direkten Links auf die Dokumente weitergeben. Damit ist die Sache relativ sicher, ausser natürlich irgendwer veröffentlicht diese Links in einem Spider-einsehbaren Teil des Internets.
Die Link-Liste ist dann nützlich, wenn du eine Referrer-Blockade (siehe diese Antwort) einbauen willst.
Ich habe jetzt schon etliches gegoogled und probiert.
Ich möchte in htaccess alle Suchmaschinen blockieren.
Der Code sollte in etwa lauten:
deny from all
Da es ja hunderte Bots gibt, scheint es unmöglich, alle einzeln aufzuführen.
Was müßte man schreiben, um google auszuschließen?
Vielleicht
deny from .google.com
Ich wäre auch sehr froh, zu wissen, ob es was bringt, alle verlinkte Unterdateien in ein Unterverzeichnis zu schaffen.
Google ist dein kleinstes Problem, die respektieren die robots.txt. Dein Problem sind die unzähligen kleinen Bots, die von überall her auftauchen. Eine schöne Ressource dazu findest du hier: http://www.iplists.com/
Jedoch ist diese Liste natürlich auch nicht vollständig und grad die schlimmsten Bots sind dort natürlich nicht drin. Denk immer dran: Dein Problem sind die schwer fassbaren!
Falls du den Googlebot wirklich noch zusätzlich per htaccess-deny-Regel aussperren willst, wäre das:
deny from googlebot.com
siehe dazu:
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=80553
http://httpd.apache.org/docs/2.2/howto/access.html
Viele Spambots senden übrigens keinen Referrer, du kannst allenfalls per Rewrite-Rule eine entsprechende Sperre einbauen.
http://perishablepress.com/block-spam-by-denying-access-to-no-referrer-requests/
Denk aber dran, dass dann für deine regulären Besucher folgende Bedingungen erfüllt sein müssen:
- du brauchst eine Linkliste, welche auf deine PDF-Dokumente verlinkt
- die Linkliste muss natürlich auch ohne Referrer erreichbar sein
- deine User dürfen nicht die Referrer-Übertragung in ihrem Browser deaktivieren
Herzlichen Dank für Deine Hilfe.
Meine htaccess lautet nun
deny from googlebot.com
deny from slurp
Options -Indexes
RewriteEngine On
RewriteCond %{REQUEST_METHOD} POST
RewriteCond %{HTTP_USER_AGENT} ^$
Mit diesen Einstellungen läuft sie reibungslos. Bei slurp bin ich noch unsicher, ob das so stimmt. Die gegooglete Einstellung
User-agent: Slurp
Disallow: /
blockiert die Website.
Blockiert wird auch bei
User-agent: *
Disallow: /
Mir ist nun noch die Idee gekommen, die Startseite umzubenennen auf
12345.kvc weil sie dann wohl nicht indiziert wird.
Zum Dank für Deine gute Hilfe lass ich Dich, wenn Du Lust hast, auch mal auf meine Site schauen :-)