Similarity Texter

Weitere Informationen

DIE HOCHMÜTIGE DOHLE UND DER PFAU

Einst lebte eine Dohle, voll von eitlem Stolz, die stahl sich Federn, die dem Pfau entfallen warn und putzte sich damit. Das eigne Dohlenvolk ver- achtend trat sie in der schönen Pfauen Reihn. Der Unver- schämten reißt man hier die Federn aus, jagt sie mit Schnäbeln. Und die Dohle, bös verbleit will wieder nun betrübt zu ihrem Volk zurück. Die aber stoßen sie von sich, mit herbem Schimpf. Und eine derer, die zuvor verachtet, sprach zu ihr “Hätt’ unsre Lebensart dir vormals conveniert, hätt’st du, was die Natur dir schenkte, akzeptiert, dann wär dir weder jene Schande widerfahrn noch müsstest du zum Unglück jetzt verstoßen sein.”

Diese Version von Aesops Fabel ist aus Wilfried Strohs Sammlung von Übersetzungen von Jan Novák: “Aesopia”, die auf Geschichten von Phaedrus basieren.

Collusion Detection 2008

Kollusions-Erkennungs-Systeme

Im Test 2008 wurde erstmalig ein Korpus von Testfällen für Kollusions-Erkennung erstellt. Kollusion passiert, wenn Studierende zwar nicht aus dem Internet, jedoch untereinander abschreiben. Der Begriff stammt aus dem rechtlichen Bereich, man könnte umgangsprachlich von „Abschreibe-Kartellen“ sprechen.

Wir haben für zwei unserer Grundtestfälle, einem Plagiat und einem Originalwerk, jeweils 4 abgekupferte Versionen erstellt. Bei der Fassung a wurden jeweils der erste und letzte Satz verändert, bei der Fassung b wurde der erste Absatz stark verändert, bei der Fassung c wurden über den ganzen Text einzelne Wörter durch Synonyme ersetzt und bei der Fassung d wurde einfach eine andere Schriftart in Word verwendet, der Text blieb jedoch identisch.

Ein weiterer Testfall war von einem Plagiat erstellt worden, bei dem alle e-Buchstaben eines Absatzes durch ein anderes e (ein anderer ASCII-Code) ersetzt wurden.

Gute Systeme

Die folgenden Systeme waren alle gut bei der Erkennung von Kollusionen. Weil wir keine Bewertungsskala hierfür hatten, wird die alphabetische Reihenfolge gewählt. Alle drei Systeme sind für diese Aufgabe nützlich.

  • JPlag
    Dieses an der Universität Karlsruhe entwickeltes System wird nach einer Registrierung kostenlos angeboten. Es ist eigentlich für Code-Vergleich bei den Sprachen Java, C#, C, C++ und Scheme entwickelt worden, kann aber inzwischen auch Textdateien vergleichen. Es wird als WebStartIt-Anwendung gestartet und man gibt nur ein Verzeichnis mit den Dateien an. Wir haben ein Verzeichnis mit 42 Testfällen im txt-Format erstellt und das System hat in unter einer Minute geantwortet. Die Berichte sind ausgezeichnet zu lesen und es gibt eine nette Darstellung der gegenseitigen Kollusionen.
  • Turnitin
    Turnitin war das einzige System aus dem Plagiatstest, das dazu in der Lage war, die Kollusionen zu erkennen, wenn die Aufsätze in der Datenbank gespeichert worden waren. Man kann inzwischen wählen, ob die Aufsätze in einer Hochschul-eigenen Datenbank oder generell gespeichert werden. Wir haben alle Testfälle nur in der Hochschuldatenbank speichern lassen. Bei der Kollusion a wurde nur die Übereinstimmung mit dem Original gemeldet, bei b wurden a und das Original gemeldet, bei c wurden a, b und das Original gemeldet, und bei d dann alle. Als wir den Test nochmals durchgeführt haben, wurden für alle Testfälle die korrekten Kollusionen gemeldet.
  • WCopyFind
    Das System in der Version 10 wurde an der University of Virginia, Charlottesville, entwickelt. Das System wird lokal installiert und hat eine große Anzahl von Einstellungsparametern. Wir haben den Default und eine Zip-Datei gewählt, zunächst nur mit txt-Dateien, dann mit .doc Dateien. Das System war unterhalb einer Minute fertig und hat bei beiden Formaten alle Kollusionen erkannt. Es gibt eine einfache Übersicht mit Links zu den betreffenden Dateien und Angaben über die Prozentzahlen der Übereinstimmungen.

Befriedigende Systeme

  • Yaplaf
    Dieses experimentelle System von der TU Wien haben wir relativ umständlich installieren müssen. Es musste eine XML-Datei angefertigt werden mit Angaben zu den einzelne Dateien, dann wurde es über die Kommandozeile gestartet. Umlaute waren kein Problem, aber die französischen und nordischen Zeichen haben das System irritiert. Problematisch war, dass die so mühselig erstellte XML-Datei beim Test zerstört worden ist. Die Log-Dateien waren recht unleserlich und hatte viele leere Seiten drin. Die Ausgabe erschien in einer Excel-Datel. Nur eine der Kollusionen wurde erkannt, obwohl wir nur die Kollusionstestfälle angegeben haben. Daher wurde dieses System abgewertet.