Internet-Software, Browser, FTP, SSH 4.687 Themen, 38.714 Beiträge

Internetseiten teilautomatisch auswerten?

mainframer / 10 Antworten / Flachansicht Nickles

Hallo,
ich suche als Internet-Laie einen Tipp für folgende Problemstellung:

1) Der öffentlich-rechtliche Betreiber einer großen Internetplattform bietet auch eine (recht primitive) Suchmaske (max. 5 Parameter, die ich täglich in 3 gleich bleibenden Versionern eingesetze) zur Volltext-Recherche in seinen Datenbeständen.

2) Es resultieren daraus täglich dreimal 0 - n Treffer (max. 200), die auf 0 - n Bildschirmseiten (max. 20) aufgelistet werden.

3) Diese Treffer gilt es nach bestimmten, stets gleich bleibenden Kriterien auszuwerten. D.h. mit Trefferadresse/Link lesen und nachgucken, ob darin diese Kriterien stehen. Endresultat dieser täglich 1-2 Stunden erfordernden "manuellen" Arbeit ist eine Tabelle.

Fragen:
a) Gibt es ein Standardprogramm, dem man solche Auswertungen zumindest teilweise übertragen kann?
b) Welche Sprache (JavaScript etc) wäre geeignet für eine Individuallösung dieser Aufgabe, deren Realisierung ich ggf. einem Programmierer übertragen würde.

Ein direkter Zugriff auf die Datenbestände mit intelligenter Programmierung/Auswertung wäre nicht möglich. Es muß die Internetplattform genutzt werden.


bei Antwort benachrichtigen
Borlander xafford „Ich wollte eigentlich nicht in eine Grundsatzdiskussion einsteigen, sondern nur...“
Optionen
- Das Parsen an sich ist auch noch relativ trivial mittels eines DOM-Parsers und man erhält einen Dokumentenbaum auf dem man anschließend arbeiten kann.
Da habe ich in der Vergangenheit leider schon andere Erfahrungen machen müssen. Die frei verfügbaren DOM-Parser die ich getestet hatte sind da häufig ausgestiegen. Viele HTML-Dokumente sind leider sehr unsauber :-(

Gruß
bor
bei Antwort benachrichtigen
Danke! mainframer