Autorenprofiling: „writeprint“ verrät anonyme Schreiber

Paschutan_Philipp

Dr. Philipp Gross und Pashutan Modaresi beschäftigen sich als Software-Entwickler bei pressrelations unter anderem mit Autorenidentitäten.

Plagiatserkennung, Autorenidentifikation und Autorenprofiling sind drei Methoden, mit denen der „writeprint“ eines Autors – eine Art schriftlicher Fingerabdruck – analysiert werden kann. Die Verfahren stehen im Fokus des international renommierten PAN Wettbewerbs (Plagiarism Analysis, Authorship Identification, and Near-Duplicate Detection). Die Preisträger des Wettbewerbs wurden dieses Jahr im Rahmen der „Conference and Labs of the Evaluation Forum (CLEF)“ in Sheffield ausgezeichnet. Unter ihnen Dr. Philipp Gross und Pashutan Modaresi von pressrelations.

Autorenverifikation
Verfahren zur Autorenverifikation prüfen mittels vorhandener Beispieltexte, ob ein Dokument von derselben Person verfasst wurde. Der Algorithmus der pressrelations-Entwickler schaffte es, über 200 solcher Zuordnungen in 7 Sekunden zu leisten und gewann damit Platz 1 bei der Autorenverifikation englischsprachiger Romane. Voraussetzung für derart leistungsfähige Algorithmen ist ein aufwendiger Lernprozess: Der Computer wird mit Textmaterial gefüttert und ermittelt daraus mathematische Sprachmerkmale, so genannte „lexical features“. Zu diesen zählen beispielsweise Merkmale wie Satzlänge, Häufigkeiten bestimmter Wörter und Tempora, spezifische grammatikalische Konstruktionen, Wortschatz oder Interpunktion. Um eine besonders schnelle Zuordnung zu erzielen, soll mit so wenigen Merkmalen wie möglich die höchstmögliche Zuordnungswahrscheinlichkeit erreicht werden. „Bei der Autorenverifikation bestand die Herausforderung darin, die besten stilistischen Features zu finden, die schlicht aber möglichst eindeutig sind“, sagt Dr. Philipp Gross rückblickend. Der Algorithmus von ihm und seinem Kollegen Pashutan Modaresi basiert auf nur drei zentralen Parametern: der durchschnittlichen Satzlänge, der Verwendung von Satzzeichen und der autorenspezifischen Eigenheit, Leerzeichen vor oder nach einem Komma zu setzen. Aus diesen „lexical features“ wird für einen Autor ein spezifischer Schreibstil, ein „writeprint“ ermittelt, der sich dann mit dem anderer Dokumente vergleichen lässt. Aus den von den pressrelations verwendeten Parametern ergibt sich zudem eine weitere Besonderheit des Instruments: Es ist sprachunabhängig. Im Wettbewerb konnte es somit auf mehrsprachige Textkorpora angewandt werden. Neben englischsprachigen Texten wurden auch niederländische, griechische und spanische analysiert.

WRITEPRINT
Der „writeprint“ oder „schriftliche Fingerabdruck“ bezeichnet den persönlichen Schreibstil einer Person […]

Plagiatserkennung
Der zweite Teil des PAN-Wettbewerbs widmet sich der Frage, ob ein Dokument als Original eingestuft werden kann und welche Merkmale auf ein Plagiat hinweisen. Bei der Plagiatserkennung werden übereinstimmende Textpartien zwischen Dokumenten ermittelt. Dabei erkennt ein gutes Tool nicht nur unverändert übernommene Textstellen, sondern auch solche Abschnitte, in denen Wörter oder ganze Abschnitte neu angeordnet wurden. „Das Schwierigste bei der Plagiatsanalyse war für uns, die Stärken des Vorjahressiegers zu übertreffen“, so Dr. Philipp Gross. pressrelations schickte einen Algorithmus ins Rennen, der alle Plagiate im Wettbewerb innerhalb von drei Minuten identifizierte. Plagiatserkennungssoftware lässt sich nicht nur zur Ermittlung gefälschter Doktorarbeiten nutzen, sondern wird auch in der Medienbeobachtung und Medienanalyse eingesetzt, um zum Beispiel Übernahmen und Verbreitungsgrad originärer Quellen wie Pressemitteilungen zu ermitteln.

Autorenprofiling
Den dritten Schwerpunkt des Wettbewerbs bildet die Methodik des Autorenprofilings: Aus einem vorliegenden Text werden aufgrund des Sprachstils Merkmale wie Geschlecht, Alter, Bildungsgrad oder Herkunft des Verfassers ermittelt. Autorenprofiling unterstellt somit das Vorhandensein weiblicher vs. männlicher oder jugendlicher vs. erwachsener Schreibstile und versucht diese an lexical feautures festzumachen. Dieses Verfahren wird vor allem in der forensischen Linguistik bei der Erstellung von Täterprofilen genutzt. Dies wird vereinzelt noch in Handarbeit ausgeführt, gerade in der Medienanalyse finden jedoch automatisierte Verfahren eine breite Anwendung. Merkmale des Autors, wie dessen Status, Geschlecht, Rolle oder Kompetenzzuschreibung prägen die Wahrnehmung der ausgesendeten Botschaften. Lassen sich diese Merkmale automatisiert ermitteln, können die daraus resultierenden Folgen für die Glaubwürdigkeit, die Wirkung oder das Framing der Botschaften in die Analyse einbezogen werden.

Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s