Similarity Texter

Additional Information

Collusion Detection 2008

Kollusions-Erkennungs-Systeme

Im Test 2008 wurde erstmalig ein Korpus von Testfällen für Kollusions-Erkennung erstellt. Kollusion passiert, wenn Studierende zwar nicht aus dem Internet, jedoch untereinander abschreiben. Der Begriff stammt aus dem rechtlichen Bereich, man könnte umgangsprachlich von „Abschreibe-Kartellen“ sprechen.

Wir haben für zwei unserer Grundtestfälle, einem Plagiat und einem Originalwerk, jeweils 4 abgekupferte Versionen erstellt. Bei der Fassung a wurden jeweils der erste und letzte Satz verändert, bei der Fassung b wurde der erste Absatz stark verändert, bei der Fassung c wurden über den ganzen Text einzelne Wörter durch Synonyme ersetzt und bei der Fassung d wurde einfach eine andere Schriftart in Word verwendet, der Text blieb jedoch identisch.

Ein weiterer Testfall war von einem Plagiat erstellt worden, bei dem alle e-Buchstaben eines Absatzes durch ein anderes e (ein anderer ASCII-Code) ersetzt wurden.

Gute Systeme

Die folgenden Systeme waren alle gut bei der Erkennung von Kollusionen. Weil wir keine Bewertungsskala hierfür hatten, wird die alphabetische Reihenfolge gewählt. Alle drei Systeme sind für diese Aufgabe nützlich.

  • JPlag
    Dieses an der Universität Karlsruhe entwickeltes System wird nach einer Registrierung kostenlos angeboten. Es ist eigentlich für Code-Vergleich bei den Sprachen Java, C#, C, C++ und Scheme entwickelt worden, kann aber inzwischen auch Textdateien vergleichen. Es wird als WebStartIt-Anwendung gestartet und man gibt nur ein Verzeichnis mit den Dateien an. Wir haben ein Verzeichnis mit 42 Testfällen im txt-Format erstellt und das System hat in unter einer Minute geantwortet. Die Berichte sind ausgezeichnet zu lesen und es gibt eine nette Darstellung der gegenseitigen Kollusionen.
  • Turnitin
    Turnitin war das einzige System aus dem Plagiatstest, das dazu in der Lage war, die Kollusionen zu erkennen, wenn die Aufsätze in der Datenbank gespeichert worden waren. Man kann inzwischen wählen, ob die Aufsätze in einer Hochschul-eigenen Datenbank oder generell gespeichert werden. Wir haben alle Testfälle nur in der Hochschuldatenbank speichern lassen. Bei der Kollusion a wurde nur die Übereinstimmung mit dem Original gemeldet, bei b wurden a und das Original gemeldet, bei c wurden a, b und das Original gemeldet, und bei d dann alle. Als wir den Test nochmals durchgeführt haben, wurden für alle Testfälle die korrekten Kollusionen gemeldet.
  • WCopyFind
    Das System in der Version 10 wurde an der University of Virginia, Charlottesville, entwickelt. Das System wird lokal installiert und hat eine große Anzahl von Einstellungsparametern. Wir haben den Default und eine Zip-Datei gewählt, zunächst nur mit txt-Dateien, dann mit .doc Dateien. Das System war unterhalb einer Minute fertig und hat bei beiden Formaten alle Kollusionen erkannt. Es gibt eine einfache Übersicht mit Links zu den betreffenden Dateien und Angaben über die Prozentzahlen der Übereinstimmungen.

Befriedigende Systeme

  • Yaplaf
    Dieses experimentelle System von der TU Wien haben wir relativ umständlich installieren müssen. Es musste eine XML-Datei angefertigt werden mit Angaben zu den einzelne Dateien, dann wurde es über die Kommandozeile gestartet. Umlaute waren kein Problem, aber die französischen und nordischen Zeichen haben das System irritiert. Problematisch war, dass die so mühselig erstellte XML-Datei beim Test zerstört worden ist. Die Log-Dateien waren recht unleserlich und hatte viele leere Seiten drin. Die Ausgabe erschien in einer Excel-Datel. Nur eine der Kollusionen wurde erkannt, obwohl wir nur die Kollusionstestfälle angegeben haben. Daher wurde dieses System abgewertet.