Similarity Texter

Additional Information

DIE HOCHMÜTIGE DOHLE UND DER PFAU

Einst lebte eine Dohle, voll von eitlem Stolz, die stahl sich Federn, die dem Pfau entfallen warn und putzte sich damit. Das eigne Dohlenvolk ver- achtend trat sie in der schönen Pfauen Reihn. Der Unver- schämten reißt man hier die Federn aus, jagt sie mit Schnäbeln. Und die Dohle, bös verbleit will wieder nun betrübt zu ihrem Volk zurück. Die aber stoßen sie von sich, mit herbem Schimpf. Und eine derer, die zuvor verachtet, sprach zu ihr “Hätt’ unsre Lebensart dir vormals conveniert, hätt’st du, was die Natur dir schenkte, akzeptiert, dann wär dir weder jene Schande widerfahrn noch müsstest du zum Unglück jetzt verstoßen sein.”

Diese Version von Aesops Fabel ist aus Wilfried Strohs Sammlung von Übersetzungen von Jan Novák: “Aesopia”, die auf Geschichten von Phaedrus basieren.

Collusion Detection 2008

Kollusions-Erkennungs-Systeme

Im Test 2008 wurde erstmalig ein Korpus von Testfllen fr Kollusions-Erkennung erstellt. Kollusion passiert, wenn Studierende zwar nicht aus dem Internet, jedoch untereinander abschreiben. Der Begriff stammt aus dem rechtlichen Bereich, man knnte umgangsprachlich von „Abschreibe-Kartellen“ sprechen.

Wir haben fr zwei unserer Grundtestflle, einem Plagiat und einem Originalwerk, jeweils 4 abgekupferte Versionen erstellt. Bei der Fassung a wurden jeweils der erste und letzte Satz verndert, bei der Fassung b wurde der erste Absatz stark verndert, bei der Fassung c wurden ber den ganzen Text einzelne Wrter durch Synonyme ersetzt und bei der Fassung d wurde einfach eine andere Schriftart in Word verwendet, der Text blieb jedoch identisch.

Ein weiterer Testfall war von einem Plagiat erstellt worden, bei dem alle e-Buchstaben eines Absatzes durch ein anderes e (ein anderer ASCII-Code) ersetzt wurden.

Gute Systeme

Die folgenden Systeme waren alle gut bei der Erkennung von Kollusionen. Weil wir keine Bewertungsskala hierfr hatten, wird die alphabetische Reihenfolge gewhlt. Alle drei Systeme sind fr diese Aufgabe ntzlich.

  • JPlag
    Dieses an der Universitt Karlsruhe entwickeltes System wird nach einer Registrierung kostenlos angeboten. Es ist eigentlich fr Code-Vergleich bei den Sprachen Java, C#, C, C++ und Scheme entwickelt worden, kann aber inzwischen auch Textdateien vergleichen. Es wird als WebStartIt-Anwendung gestartet und man gibt nur ein Verzeichnis mit den Dateien an. Wir haben ein Verzeichnis mit 42 Testfllen im txt-Format erstellt und das System hat in unter einer Minute geantwortet. Die Berichte sind ausgezeichnet zu lesen und es gibt eine nette Darstellung der gegenseitigen Kollusionen.
  • Turnitin
    Turnitin war das einzige System aus dem Plagiatstest, das dazu in der Lage war, die Kollusionen zu erkennen, wenn die Aufstze in der Datenbank gespeichert worden waren. Man kann inzwischen whlen, ob die Aufstze in einer Hochschul-eigenen Datenbank oder generell gespeichert werden. Wir haben alle Testflle nur in der Hochschuldatenbank speichern lassen. Bei der Kollusion a wurde nur die bereinstimmung mit dem Original gemeldet, bei b wurden a und das Original gemeldet, bei c wurden a, b und das Original gemeldet, und bei d dann alle. Als wir den Test nochmals durchgefhrt haben, wurden fr alle Testflle die korrekten Kollusionen gemeldet.
  • WCopyFind
    Das System in der Version 10 wurde an der University of Virginia, Charlottesville, entwickelt. Das System wird lokal installiert und hat eine groe Anzahl von Einstellungsparametern. Wir haben den Default und eine Zip-Datei gewhlt, zunchst nur mit txt-Dateien, dann mit .doc Dateien. Das System war unterhalb einer Minute fertig und hat bei beiden Formaten alle Kollusionen erkannt. Es gibt eine einfache bersicht mit Links zu den betreffenden Dateien und Angaben ber die Prozentzahlen der bereinstimmungen.

Befriedigende Systeme

  • Yaplaf
    Dieses experimentelle System von der TU Wien haben wir relativ umstndlich installieren mssen. Es musste eine XML-Datei angefertigt werden mit Angaben zu den einzelne Dateien, dann wurde es ber die Kommandozeile gestartet. Umlaute waren kein Problem, aber die franzsischen und nordischen Zeichen haben das System irritiert. Problematisch war, dass die so mhselig erstellte XML-Datei beim Test zerstrt worden ist. Die Log-Dateien waren recht unleserlich und hatte viele leere Seiten drin. Die Ausgabe erschien in einer Excel-Datel. Nur eine der Kollusionen wurde erkannt, obwohl wir nur die Kollusionstestflle angegeben haben. Daher wurde dieses System abgewertet.