Wie funktioniert eigentlich ein Crawler und was ist das überhaupt?

Lycos-Hund

Die erste bildhafte Darstellung eines Crawlers, an die ich mich erinnere, war der Suchhund von Lycos.

Wenn mich Kunden fragen, was eigentlich ein Crawler ist, dann würde ich gern auf einen bunten Kasten in der Büroecke zeigen können, der laut zischt und pfeifft und dabei hin und her wackelt: „Das ist unser Crawler, der durchsucht jetzt für Sie das Internet“, würde ich dann erläutern und alles wäre klar. Leider kann man einen Crawler weder vorzeigen, noch anfassen. Es ist nur eine Software, ein Progrämmchen, das mehr oder weniger selbständig Seiten im Worldwideweb liest und indiziert. Wie funktioniert nur die Suche mit einem Crawler? In 5 Schritten…

1. Schritt: Medienpanel bestimmen
Man legt das Terrain, die Webseiten, fest, auf dem unser Crawler tätig werden soll, also zum Beispiel alle deutschen Nachrichtenseiten, Blogs oder das gesamte Web.  Meist wählt der Kunde aus standardisierten Panels, die um spezielle Sonderwünsche oder um neu aufgespürte Webseiten erweitert werden. Nicht jeder Dienstleister ist bereit, sein Medienpanel offenzulegen, weil er fürchtet, es könne von Mitbewerbern kopiert werden. Wer einen Alarm bei Google News eingerichtet hat, hat das Problem, dass er nicht weiß, welche Webseiten Google als Nachrichtenmedium ansieht und welche nicht, das Panel ist hier eine Black Box.

2. Schritt: Den Suchroboter programmieren und losschicken
Man programmiert den Crawler, sagt ihm, wie und was er suchen soll und was nicht. Das heißt konkret: man bestimmt ein Suchprofil mit bestimmten Wörtern, die allein oder in Kombination mit andern Wörten enthalten sein müssne, mit Ausschlüssen, die auf keinen Fall gefunden werden sollen oder mit komlexeren Operatoren wie „Jenes Wort nur, wenn nicht weniger als 5 Wörter entfernt ein anderes Wort auftaucht“. Welche Operatoren ein Crawler versteht bzw. berücksichtigen kann, ist ganz unterschiedlich und hängt davon ab, wie er programmiert wurde. Und das Ergebnis hängt natürlch von den Bedienfähigkeiten desjenigen ab, der die Suchformel aufsetzt. Während bei den meisten Dienstleistern das Formulieren des Suchstrings eine der wichtigsten Beratungsleistungen ist, muss der Kunde bei anderen selbst die optimale Formel finden, mit der er sicherstellt, alle relevanten Treffer zu finden und möglichst wenige Meldungen, die ihn nicht interessieren. Denn in Zeiten der Informationsflut kann ein Zuviel an nur scheinbar relevanten Meldungen eine große Belastung sein. Denn wer hat schon die Zeit, viele Nachrichten zu lesen, nur um dann eine wirklich wichtige zu finden!? Übrigens: Bei Google News muss der Nutzer selbst den Suchstring formulieren. Kein Wunder, dass viele enttäuscht sind, wenn dann Meldungen nicht gefunden werden bzw. wenn sie mit nicht relevanten Meldungen überschüttet werden.

3. Schritt: Weitere Suchprofile definieren
Viele Nutzer machen den Fehler, nur nach dem eigenen Unternehmen oder der eigenen Organisation zu suchen, anstatt auch die Mitbewerber und das Themenfeld zu überwachen. Nachdem der Crawler also den ersten Job erledigt hat, sollte er erneut losgeschickt werden, um nach Meldungen zu weiteren Suchprofilen und ggf. in weiteren Medienpaneln (z. B. Facebook) zu suchen.

4. Schritt: Dublettenabgleich
Im nächsten Schritt sortiert man die Fundstücke des Crawlers und gleicht sie mit allen bereits archivierten Meldungen ab: Welcher Treffer ist alt, weil er  in der Vergangenheit schon einmal gefunden und dem Nutzer übermittelt wurde, welche Meldungen ähneln sich und was wurde dem Nutzer bereits übermittelt. All das ist mit Google News Alert nicht möglich, denn hier fehlt das Archiv, in dem alle jemals gefundenen Treffer gesammelt und abgeglichen werden.

5. Schritt: Übermittlung
Dem  Nutzer werden alle Ergebnisse zugestellt: Entweder in einer Sammel-E-Mail, in dem untereinander alle Treffer für die verschiedenen Profile und Medienpanel aufgeführt sind, als einzelne  Treffer, sofort nach dem Auffinden (Instant Alert),  in Form der  Zustellung in ein Portal, in welchem der Nutzer alle Treffer jederzeit aufrufen kann, oder als RSS-Feed.

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s