Similarity Texter

Additional Information

Testmethodik 2007

Um Plagiatserkennungssoftware zu testen, haben wir eine Sammlung von Testfällen konstruiert. Diese sind kurze Aufsätze, von denen wir wissen wie plagiiert wurde, wieviel plagiiert ist, und welches die Quellen sind. Wir haben verschiedene Plagiatstechniken eingesetzt und haben dabei versucht, die ganze Bandbreite anzuwenden. Es wurden auch Plagiate von Büchern und CDs beigemischt sowie Übersetzungsplagiate angefertigt, aber auch Originale hergestellt. Weiter unten auf dieser Seite ist eine genaue Auflistung der Plagiate. Da wir die Testfälle als Übungen für die Lerneinheit „Fremde Federn Finden“ einsetzen, war es notwendig, die Erlaubnis von allen Urhebern einzuholen, damit die Ergebnisse publiziert werden können.

Wir haben dann Namen von potentiellen Testkandidaten ermittelt und um Zugänge für einen Test beim Hersteller nachgefragt. Viele haben sofort geantwortet, andere haben zwar versprochen, sich darum zu kümmern, aber nicht mal auf Nachfrage gelang es uns, dort einen Testaccount zu bekommen. Die kostenlosen Dienste haben wir ohne Anmeldung verwendet. Insgesamt gab es 25 Kandidaten, von denen zwei Code-Vergleichs-Systeme und eines ein Collusion-Erkennungssystem war. Von den 22 identifizierten Plagiatserkennungssystemen waren zwei identisch und nur unter anderen Namen vermarktet (turnitin und iThenticate). Es blieben 21 Systeme, von denen wir aus verschiedenen Gründen 7 nicht testen konnten – die Gründe sind im Testbericht vermerkt.

Wir haben die Testfälle als .doc, .html, .pdf und als .txt vorhanden gehabt, damit jedes System genau das Material so bekommen konnte, wie es es brauchte. Alle 20 Testfälle wurden dem System gleichzeitig zum Testen angeboten. Ein Fall hat im Dateinamen einen Umlaut, um zu sehen, ob die Systeme damit zu Recht kommen können. Eine Kopie der Datei ohne Umlaut im Namen wurde verwendet, wenn es nicht mit dem Umlaut-Namen klappte.

Wir haben die Zeit gemessen, die benötigt wurde um die Suche durchzuführen (inkl. der Zeit, um die Dateien hochzuladen) und unser subjektives Empfinden bei der Verwendung der Sites notiert. Als die Ergebnisse vorlagen, wurden die einzelnen Berichten analysiert. Wir haben versucht, die Position einer Nicht-Informatik-Lehrkrafts einzunehmen, um zu entscheiden, ob wir die Ergebnisse als korrekt (Erkennung ob Plagiat oder Nicht-Plagiat) werten konnten. Die Kriterien für die Bewertung sind auf einer getrennter Seite beschrieben.

Nach Abschluß der Analyse gab es einen zweiten Durchgang, da viele Systeme „aktualisierte“ Versionen für Ende August angekündigt hatten. Wir haben diese erneut getestet und als Gesamtnote den Durchschnitt aus beiden Durchgängen gebildet. Auch fanden sich neue Systeme, die ebenfalls mitgetestet wurden.

Es folgte eine Gesamtdurchsicht der Bewertungen, für einen Testfall (Nr. 6) wurde die Bewertung umgestellt und alle Ergebnisse entsprechend korrigiert. Dann wurde geschaut, dass alle Systeme an einigermaßen gleichen Maßstäben gemessen wurden, bevor die Rangliste mit der Einteilung in Güteklassen aufgestellt wurde.

Testfälle

Die folgende Testfällen wurden bei dem Test der Plagiatssoftware 2007 verwendet. Die Testfällen 0-9 wurden bereits für den Test 2004 erstellt und befinden sich daher gelegentlich in Datenbanken von Plagiatserkennungssoftware – ohne Erlaubnis, versteht sich, denn es wurde explizit damals gebeten, die Testfälle wieder zu tilgen. Durch eine Missachtung der Suchmaschinendirektiven wurden ausserdem teilweise diese Texte in Suchmaschinen-Datenbanken vorrätig gehalten, sie sind inzwischen durch persönliche Intervention wieder bereinigt.

  1. Schaltjahr
    Dieser Aufsatz ist ein Originalaufsatz, der für den ersten Test 2004 erstellt wurde, daher ist er gelegentlich im Google-Archiv zu finden. Mindestens ein Plagiat dieses Artikels existiert.
  2. Djembe
    Dieser Aufsatz ist ein plumpes Übersetzungsplagiat, der mit Hilfe von Babelfish erstellt worden ist. Er wurde für den Test 2004 entwickelt und wurde bisher von keiner Plagiatserkennungssoftware entlarvt, wohl aber von vielen Lehrkräften in Weiterbildungs-Seminaren.
  3. Atwood
    Dieser Aufsatz wurde aus einer Besprechung auf der Amazon.de-Site durch Copy&Paste-Methodik übernommen. Einzelne kosmetische Aufhübschungen wurden vorgenommen. Es existieren mehrere Plagiate der Amazon-Site online.
  4. IETF
    Dieser Aufsatz wurde aus einem Bericht des Wissenschaftszentrums Berlin entnommen, der mehrfach dort vorhanden ist und einmal als Ausstellungskatalog in Österreich plagiiert worden ist, der immer noch online zu finden ist.
  5. Döner
    Dieser Aufsatz ist eine Halbsatzflickerei aus drei Quellen, eine wissenschaftliche, eine populär-wissenschaftliche und aus Wikipedia.
  6. Telnet
    Dieser Aufsatz basiert auf einem tatsächlich von einem Studenten eingereichten Aufsatz bei einer Kollegin im Fach Informatik. Er basiert auf eine in PDF im Netz vorhandene Kopie eines Buches. Geändert wurden lediglich die sichtbaren Datumsangaben, die kodierten Zeitstempel wurden jedoch übersehen.
  7. Friðrik Þór Friðriksson
    Dieser Aufsatz über den isländischen Regisseur Friðrik Þór Friðriksson ist ein Original-Aufsatz, wurde aber von der Autorin in der Wikipedia eingestellt mit entsprechendem Vermerk.
  8. Ahorn
    Dieser Aufsatz ist eine Halbsatzflickerei einer populär-wissenschaftlicher Site und aus Wikipedia.
  9. Lettau
    Dieser Aufsatz ist ein Originalaufsatz, der sowohl in der englischen als auch in der deutschen Wikipedia mit entsprechendem Vermerk eingestellt wurde. Es gibt hiervon etliche Plagiate im Netz.
  10. Frosch
    Dieser Aufsatz wurde von den Aufsatzverkäufer schoolunity erworben. Teilweise liegt er im Netz, teilweise ist ein sehr ähnlicher Aufsatz in einem Schulbuch der Cornelsen Verlag zu finden.
  11. Fraktur
    Dieser Aufsatz über Frakturschrift entstammt einem PDF, in dem die Ligaturen kodiert sind, damit sie in Fraktur richtig dargestellt werden können, und einigen Absätzen aus einem Buch. Die Absätze sind im Copy&Paste-Verfahren verwendet, aber teilweise auch im Shake&Paste Methodik eingesetzt worden.
  12. Mankell
    Dieser Aufsatz über einen Krimi des schwedischen Autors Henning Mankell ist einer nur leicht veränderter Buchbesprechung im Netz entnommen.
  13. Mikrobrauereien
    Dieser Aufsatz ist ein Übersetzungsplagiat aus der englischsprachigen Wikipedia. Es gibt hierfür (noch) keinen Eintrag auf Deutsch.
  14. Allspice
    Dieser Aufsatz über Piment ist ein Übersetzungsplagiat aus der englischen Übersetzung eines auf Schwedisch erschienenen Buches. Die Absätze wurde im Shake&Paste-Verfahren übernommen.
  15. Schmeling
    Dieser Aufsatz ist Original, die Fußnoten sind teilweise erdichtet.
  16. Bedürfnisanstalt
    Dieser Aufsatz stammt aus einer DVD-Kopie einer 1910 erschienen Enzyklopädie, die inzwischen im public domain ist. Auch wenn keine Copyright-Verletzung damit vorliegt, ist es immer noch ein Plagiat. Alle Jahreszahlen wurden einfach mit 100 Jahren ergänzt, damit es moderner erscheint. Die Bilder sind Kupferstiche aus dem Originalwerk.
  17. Jelenik
    Dieser Aufsatz über die Nobelpreisträgerin Elfriede Jelenik ist ein Shake&Paste Plagiat aus drei Quellen, eins übersetzt freihändig aus dem Englischen, einer Buchbesprechung und einem Zeitungsartikel.
  18. Square Dance
    Dieser Aufsatz ist fast original – bis auf der Copy&Paste Absatz über Kleidung, der im Artikel eingebettet ist.
  19. Vikinger
    Dieser Aufsatz ist ein übles Bearbeitungsplagiat einer Onlinefassung eines Zeitschriftenartikels. Es wurde sehr viel Mühe aufgewendet, den genauen Wortlaut zu verändern. Viele Leute meinen, damit sei es kein „Plagiat“ mehr.
  20. Blogs
    Dieser Aufsatz ist ein Strukturplagiat einer im Internet befindlichen PDF-Quelle für ein Buch. Sätze und Absätze wurden in aufsteigender Reihenfolge inklusiver Fußnoten übernommen, die Übergänge sind dann einfach erdichtet.