Homepage selbermachen 7.852 Themen, 35.619 Beiträge

Homepage möglichst unfindbar machen

Nürnberger / 8 Antworten / Baumansicht Nickles

Hallo,
nachdem sich Unmengen an threads damit befassen, wie man bestmöglich gefunden wird, brauche ich das Gegenteil.
Suchmaschinen sollen nichts davon listen.
Ich habe nun schon der Startseite einen kryptischen Namen gegeben.
Weiterhin eine wegführende index.htm erstellt.
Den Eintrag gesetzt meta name="robots" content="noindex,nofollow">
Und außerdem eine robots.txt gesetzt ("disallow).
Bitte nicht über den Sinn diskutieren. Es hat definitiv seinen Sinn.
Und wenn doch ein paar Leute die Seite finden, ists auch nicht schlimm.
Die Site hat sich jetzt schon 4 Wochen erfolgreich versteckt - keine Suchmaschine listet sie.
Es geht nun einzig darum: Kann man noch mehr machen um nicht gefunden zu werden?
(htaccess -Lösung ist nicht gewollt, php auch nicht).

bei Antwort benachrichtigen
the_mic Nürnberger „Homepage möglichst unfindbar machen“
Optionen

- Erstelle im Wurzelverzeichnis eine robots.txt mit folgendem Inhalt:
User-agent: *
Disallow: /

- verschiebe den Inhalt der Seite in ein nicht verlinktes Unterverzeichnis
- vermeide, dass die Seite irgendwo von extern her verlinkt wird
- blockiere User-Agents und IP-Ranges von Spiders per .htaccess/rewrite-Rule. Bedenke, dass dies einen gewaltigen Wartungsaufwand bedeutet und du auch reguläre Benutzer damit aussperren kannst.

Beachte, dass der Spider einer Suchmaschine alles sehen kann, was auch ein regulärer Besucher zu Gesicht bekommt. Alle "sanften" Methoden wie meta-Tags oder robots.txt helfen daher nur bei Spidern, welche sich auch tatsächlich an diese Vorgaben halten. Alle böswilligen Spider lassen sich davon nicht beirren und müssen auf die harte Tour (d.h. Zugangsschutz mit Benutzername/Passwort) geblockt werden.

Letztendlich gilt wie immer die Regel: Was nicht öffentlich sein soll, gehört nicht öffentlich ins Netz gestellt.

cat /dev/brain > /dev/null
bei Antwort benachrichtigen
Nürnberger the_mic „- Erstelle im Wurzelverzeichnis eine robots.txt mit folgendem Inhalt: -...“
Optionen

Hallo,
vielen Dank für Deine Antwort. Ich weiß, daß meine Lösung keineswegs perfekt ist - aber manchmal ist eine unperfekte Lösung besser, weil die Ressourcen für eine perfekte nicht ausreichen.
Die robots.txt besteht schon, wie oben geschrieben.
Das mit der Verschiebung in ein Unterverzeichnis werde ich noch machen.
Kannst Du mir sagen, was in die .htaccess zur Abschreckung der robots reinzuschreiben ist? (htpassword soll nicht sein).

bei Antwort benachrichtigen
the_mic Nürnberger „Hallo, vielen Dank für Deine Antwort. Ich weiß, daß meine Lösung keineswegs...“
Optionen

Da die .htaccess-Konfiguration extrem arbeitsaufwändig und permanenten Änderungen unterzogen ist, kann ich dir hier keine vorgefertigte Lösung anbieten. Du musst dir mithilfe von Google etwas passendes zusammenstricken. Ein guter Anfang sind die Suchbegriffe htaccess block user agent und htaccess block bot ip

cat /dev/brain > /dev/null
bei Antwort benachrichtigen
Nürnberger the_mic „Da die .htaccess-Konfiguration extrem arbeitsaufwändig und permanenten...“
Optionen

Danke, ich werde experimentieren.
Bringt es was, wenn im Hauptverzeichnis nur die Startdatei z.B. mit Namen abcdefg.htm ist (plus robots.txt plus .htaccess). Die verlinkten Dokumente (fast alles pdf) würde ich reinpacken in das Unterverzeichnis
inh
D.h. die abcdefg.htm würde verlinken auf
/inh/geschaeftsbericht.pdf
/inh/sonderurlaub.pdf

usw.


bei Antwort benachrichtigen
the_mic Nürnberger „Danke, ich werde experimentieren. Bringt es was, wenn im Hauptverzeichnis nur...“
Optionen

Wenn es eh nur darum geht, ein paar PDF-Dokumente zu verbreiten, kannst du auch einfach das Directory-Listing in der .htaccess deaktivieren:
Options -Indexes
Dann kannst du die direkten Links auf die Dokumente weitergeben. Damit ist die Sache relativ sicher, ausser natürlich irgendwer veröffentlicht diese Links in einem Spider-einsehbaren Teil des Internets.

Die Link-Liste ist dann nützlich, wenn du eine Referrer-Blockade (siehe diese Antwort) einbauen willst.

cat /dev/brain > /dev/null
bei Antwort benachrichtigen
Nürnberger Nachtrag zu: „Homepage möglichst unfindbar machen“
Optionen

Ich habe jetzt schon etliches gegoogled und probiert.

Ich möchte in htaccess alle Suchmaschinen blockieren.
Der Code sollte in etwa lauten:
deny from all
Da es ja hunderte Bots gibt, scheint es unmöglich, alle einzeln aufzuführen.

Was müßte man schreiben, um google auszuschließen?
Vielleicht
deny from .google.com

Ich wäre auch sehr froh, zu wissen, ob es was bringt, alle verlinkte Unterdateien in ein Unterverzeichnis zu schaffen.

bei Antwort benachrichtigen
the_mic Nürnberger „Ich habe jetzt schon etliches gegoogled und probiert. Ich möchte in htaccess...“
Optionen

Google ist dein kleinstes Problem, die respektieren die robots.txt. Dein Problem sind die unzähligen kleinen Bots, die von überall her auftauchen. Eine schöne Ressource dazu findest du hier: http://www.iplists.com/
Jedoch ist diese Liste natürlich auch nicht vollständig und grad die schlimmsten Bots sind dort natürlich nicht drin. Denk immer dran: Dein Problem sind die schwer fassbaren!

Falls du den Googlebot wirklich noch zusätzlich per htaccess-deny-Regel aussperren willst, wäre das:
deny from googlebot.com
siehe dazu:
http://support.google.com/webmasters/bin/answer.py?hl=en&answer=80553
http://httpd.apache.org/docs/2.2/howto/access.html

Viele Spambots senden übrigens keinen Referrer, du kannst allenfalls per Rewrite-Rule eine entsprechende Sperre einbauen.
http://perishablepress.com/block-spam-by-denying-access-to-no-referrer-requests/
Denk aber dran, dass dann für deine regulären Besucher folgende Bedingungen erfüllt sein müssen:
- du brauchst eine Linkliste, welche auf deine PDF-Dokumente verlinkt
- die Linkliste muss natürlich auch ohne Referrer erreichbar sein
- deine User dürfen nicht die Referrer-Übertragung in ihrem Browser deaktivieren

cat /dev/brain > /dev/null
bei Antwort benachrichtigen
Nürnberger the_mic „Google ist dein kleinstes Problem, die respektieren die robots.txt. Dein Problem...“
Optionen

Herzlichen Dank für Deine Hilfe.
Meine htaccess lautet nun
deny from googlebot.com
deny from slurp
Options -Indexes
RewriteEngine On
RewriteCond %{REQUEST_METHOD} POST
RewriteCond %{HTTP_USER_AGENT} ^$

Mit diesen Einstellungen läuft sie reibungslos. Bei slurp bin ich noch unsicher, ob das so stimmt. Die gegooglete Einstellung
User-agent: Slurp
Disallow: /
blockiert die Website.

Blockiert wird auch bei
User-agent: *
Disallow: /

Mir ist nun noch die Idee gekommen, die Startseite umzubenennen auf
12345.kvc weil sie dann wohl nicht indiziert wird.

Zum Dank für Deine gute Hilfe lass ich Dich, wenn Du Lust hast, auch mal auf meine Site schauen :-)

bei Antwort benachrichtigen