Similarity Texter

Additional Information

Testmethodik 2008

Testmethodik

Um Plagiatserkennungssoftware zu testen, haben wir eine Sammlung von 31 Testfällen konstruiert. Diese sind kurze Aufsätze, von denen wir wissen wie plagiiert wurde, wieviel plagiiert ist und welches die Quellen sind. Wir haben verschiedene Plagiatstechniken eingesetzt und haben dabei versucht, die ganze Bandbreite anzuwenden. Es wurden auch Plagiate von Büchern und CDs beigemischt sowie Übersetzungsplagiate angefertigt, aber auch Originale hergestellt. Weiter unten auf dieser Seite ist eine genaue Auflistung der Plagiate. Da wir die Testfälle als Übungen für die Lerneinheit „Fremde Federn Finden“ einsetzen, war es notwendig, die Erlaubnis von allen Urhebern einzuholen, damit die Ergebnisse publiziert werden können.

Für den Test 2008 haben wir zusätzlich Testmaterial für die Feststellung von Kollusion hergestellt. Von den Testfälle 29 und 30 wurden jeweils 4 weitere Aufsätze angefertigt, die leicht verschieden zum Grundwerk sind. Ein Grundwerk war ein Plagiat, das andere ein Originalwerk.

Wir haben dann Namen von potentiellen Testkandidaten ermittelt und um Zugänge für einen Test beim Hersteller nachgefragt. Viele haben sofort geantwortet, andere haben zwar versprochen, sich darum zu kümmern, aber nicht mal auf Nachfrage gelang es uns, dort einen Testaccount zu bekommen. Die kostenlosen Dienste haben wir ohne Anmeldung verwendet. Insgesamt gab es 24 Kandidaten im Test, von denen 3 reine Kollusionserkennungssysteme waren, einer speziell auf die Medline-Datenbank zugeschnitten war und 5 Tests, die abgebrochen werden mussten. Die Gründe für die Testabbrüche sind im jeweiligen Testbericht vermerkt. Zwei Systeme – PlagAware und Turnitin – wurden in zwei Versionen getestet. Es waren also 16 Systeme, die einer vollständigen Prüfung des Plagiatserkennungsgrad unterzogen worden sind.

Wir haben die Testfälle als .doc, .html, .pdf und als .txt vorhanden gehabt, damit jedes System genau das Material so bekommen konnte, wie es es brauchte. Bevorzugt wurden im 2008-Test pdf. Nur wenn pdf nicht machbar war, wurde auf andere Formate ausgewichen. Alle HTML-Dateien wurden auch online angeboten (mit ein ROBOTS.TXT, der die Indizierung verbat), ggf. mit den Logos der Teilnehmer eingebettet, die dieses verlangt haben.

Alle Testfälle wurden dem System gleichzeitig zum Testen angeboten. Wenn es möglich war, wurde ein ZIP-Datei verwendet, wenn das nicht möglich war, wurde jede Datei einzeln hochgeladen. Ein Fall hat im Dateinamen einen Umlaut, um zu sehen, ob die Systeme damit zu Recht kommen können. Eine Kopie der Datei ohne Umlaut im Namen wurde verwendet, wenn es nicht mit dem Umlaut-Namen klappte. Testfall 19 hatte eine umfangreiche Literaturliste, eine Fassung wurde auch ohne Literaturliste angefertigt. Allen Systemen wurden auch die Kollusions-Dateien angeboten, lediglich TurnItIn war dazu in der Lage, auch Kollusion zu erkennen und wurde daher getrennt unter Kollusion auch aufgeführt.

Wir haben versucht die Zeit zu messen, die benötigt wurde um die Suche durchzuführen (inkl. der Zeit, um die Dateien hochzuladen) und unser subjektives Empfinden bei der Verwendung der Sites notiert. Als die Ergebnisse vorlagen, wurden die einzelnen Berichte analysiert. Wir haben versucht, die Position einer Nicht-Informatik-Lehrkraft mit ein etwas altmodischen System (Windows XP, alte Browser) einzunehmen, um zu entscheiden, ob wir die Ergebnisse als korrekt (Erkennung ob Plagiat oder Nicht-Plagiat) werten konnten. Die Kriterien für die Bewertung sind auf einer getrennter Seite beschrieben.

Wir haben im Test 2008 ausserdem den Einsatz und die Usability bewertet. Es wurden 5 Bereiche identifiziert, die bewertet wurden:

  • Webseite der Firma und die Kostentransparenz
  • Layout der Seite und Beschriftungen
  • Navigation
  • Erklärungen in den Berichten
  • Einpassung im Workflow einer Lehrkraft

Für jeden Bereich würden 0 bis 3 Punkte vergeben. Die maximal 15 erreichbaren Punkte wurden mit der Schulnote 1,0 gleich gesetzt, entsprechend jedem Punktabzug wurden die Noten schlechter.

Nach Abschluß der Analyse wurden einige Systeme nochmal betrachtet, weil es Änderungen bei der Bewertung geben musste. Wir haben im Laufe des Tests festgestellt, dass es einerseits (unzulässige) Kopien einiger unsere Testfälle gab (Testfälle 0 und 4, Schaltjahr und Döner), andererseits waren einige unserer Plagiatsquellen verschwunden  für die Testfälle 4, 16 und 25, Döner, Jelinek und Surströmming. Der Wikipedia-Eintrag zu Döner war stark überarbeitet worden, die englischsprachige Quelle für Teile von Jelinek war ebenfalls nicht mehr online. Die Quelle von Surströmming ist während des Test plötzlich verschwunden. Bei Turnitin waren auch noch alle Testfälle aus 2007 gespeichert, als von einer US amerikanischen Hochschule hochgeladen. Diese stammten aus der kuriosen Geschichte mit iPlagiarismCheck beim letzten Test. Um die Bewertung dennoch durchzuführen wurden alle Dokumente von den Ergebnissen ausgeschlossen, wie in den Testberichten beschrieben.

Einige Systeme hatten eine „aktualisierte“ Version angekündigt. Wir haben PlagAware nochmal getestet und haben beide Varianten bewertet. TurnItIn hat ein „globales“ System aufgestellt, das mit europäischen Sprachen umgehen sollte. Dieses haben wir komplett nochmal getestet. Wir sind auch auf ein neues System, Plagiarism-Detector, während des Tests aufmerksam geworden, das wir zum Schluß auch getestet haben, auch wenn das einen Monat nach den ersten Tests stattfand.

Es folgte eine Gesamtdurchsicht der Bewertungen. Da wir uns inzwischen mit der Gleichbewertung unsicher geworden waren, haben wir für einige der früh getesteten Sysetme eine komplett neue Bewertung vorgenommen und diese dann miteinander verglichen. Wir haben jeweils das bessere Ergebnis verwendet. Zum Schluß wurde eine Rangliste der Systeme vorgenommen und dann der Erwartungswert bestimmt. D.h., wir haben die „unmöglichen“ Fälle herausgenommen: die Übersetzungen und die Buch-Plagiaten. Somit hat sich der Maximalwert von 93 Punkte für 31 Fälle auf nur 80 Punkte abgesenkt. Wir haben dann die Maximalwerte summiert, die über alle Testfälle erreicht worden sind. Da hier 77 Punkte erreichbar wären, fanden wir ein Erwartungswert von 80 valide.

Danach wurde die Noteneinteilung entsprechend den ECTS-Stufen vorgenommen:

  • Sehr gut: 72-80
  • Gut: 60-71
  • Befriedigend: 48-59
  • Ausreichend: 40-47
  • Ungenügend: 0-39