Similarity Texter

Additional Information

DIE HOCHMÜTIGE DOHLE UND DER PFAU

Einst lebte eine Dohle, voll von eitlem Stolz, die stahl sich Federn, die dem Pfau entfallen warn und putzte sich damit. Das eigne Dohlenvolk ver- achtend trat sie in der schönen Pfauen Reihn. Der Unver- schämten reißt man hier die Federn aus, jagt sie mit Schnäbeln. Und die Dohle, bös verbleit will wieder nun betrübt zu ihrem Volk zurück. Die aber stoßen sie von sich, mit herbem Schimpf. Und eine derer, die zuvor verachtet, sprach zu ihr “Hätt’ unsre Lebensart dir vormals conveniert, hätt’st du, was die Natur dir schenkte, akzeptiert, dann wär dir weder jene Schande widerfahrn noch müsstest du zum Unglück jetzt verstoßen sein.”

Diese Version von Aesops Fabel ist aus Wilfried Strohs Sammlung von Übersetzungen von Jan Novák: “Aesopia”, die auf Geschichten von Phaedrus basieren.

Kurzfassung 2010

Plagiat ist kein neues Phnomen. Plagiat und seine Geschwister Ghostwriting, Flschung von Daten, und andere Arten wissenschaftlichen Fehlverhaltens sind bereits seit Jahrhunderten heie Diskussionsthemen, trotz aller aktuell geuerten Bedenken, dass erst durch das Internet das Herstellen von Plagiaten mhelos sei oder sogar erst ermglicht wird.

Viele Schulen und Hochschulen sind in Panik, ob der steigenden Flut von Plagiaten, die sie sehen. Von Kopien von Wikipedia-Artikeln oder anderen Internet-Quellen als Hausarbeiten eingereicht, bis hin zu Aufstzen, die bei Hausarbeitenbrsen gekauft und als eigene Werke ausgegeben werden Lehrkrfte und Administratoren finden immer mehr Flle derartigen Verhaltens. Durch viele Reformen rund um den Institutionen wird verlangt, mehr und mehr Lernende mit immer geringeren Ressourcen zu lehren. So wchst der Wunsch nach einem Wundermittel, einer Software, die schnell und mhelos bestimmen kann, ob die Aufstze Plagiate sind oder nicht, so dass die Plagiatoren bestraft werden knnen und lediglich die Originalarbeiten gelesen werden mssen.

Wir haben an der HTW Berlin seit 2004 so genannte Plagiatserkennungssysteme getestet und haben inzwischen eine groe Sammlung von Testfllen kurze Essays, sowohl Originale als auch Plagiate die wir verwenden, um zu testen, wie gut die Systeme sich bei der Erkennung von Plagiat tun. Wir vergeben fr jeden Testfall Punkte zwischen 0-3 danach, wie gut sie die Plagiate erkennen – und dafr dass sie bei Originalen nichts melden. Damals wie heute sind die Ergebnisse ernchternd. Viele Systeme knnen eigentlich nur exakte Kopien finden, und selbst die besten Systeme sind nur befriedigend in der Effektivitt. Im Laufe der Jahre haben wir unseren Fokus auf andere Aspekte als nur die Effektivitt erweitert, wie die Nutzbarkeit der Systeme oder bei dem aktuellen Test auch die Professionalitt der anbietenden Unternehmen.

Test-bersicht

Im Frhjahr 2010 begannen wir die aktuellen Systeme zu testen. Die folgende Tabelle gibt einen berblick ber die Anzahl der verfgbaren Systeme, die Anzahl der komplettierten Systemtests und einen berblick ber die Testflle.

Test Systeme ausge-

wertet

absolvierte Tests Test

flle

Testfall Sprache Bewertung
2004 12 8 10 deutsch binre Entscheidung: Plagiate gefunden oder nicht
2007 25 17 20 deutsch Plagiatserkennung abgestuft 0-3, Codevergleich
2008 27 19 31 deutsch Plagiatserkennung abgestuft 0-3, Kollusion, Benutzerfreundlichkeit
2010 47 26 42 deutsch, englisch, japanisch Plagiatserkennung abgestuft 0-3, Benutzerfreundlichkeit und Professionalitt, Japanische und Englische Tests, keine Kollusion, kein Codevergleich

Aufgrund der groen Anzahl von Systemen, mussten wir den Test von Kollusionserkennung und von Programm-Code-Vergleichssystemen auf spter verschieben, um die Ergebnisse der reine Plagiatserkennung zu prsentieren. Wir haben zwei zustzliche Tests verwendet, einen fr die Fhigkeit, mit japanischer Codierung (Vielen Dank an Vendula Knopfov, Tokyo, fr die Vorbereitung der Japanischen Testflle.) umzugehen und einen auf Antrag eines der Unternehmen, iParadigms LLC, das lange den Verdacht hatte, dass andere Unternehmen ihre Ergebnisse weiterverkaufen. Sie stellten einen Original-Aufsatz in ihre Datenbank, der nicht im Internet zu finden ist und als Quelle eine geflschte URL angibt. In der Tat fanden wir ein System, dass angab ein 100% Plagiat gefunden zu haben und auf die falsche URL verwies. Rechtliche Verfahren sind von dem Unternehmen eingeleitet worden.

Einer der 2010er Tests ist von ProfNet, einem Plagiatserkennungsdienst. Wir wurden gebeten, keine Testflle, sondern richtige studentische Aufstze vorzulegen. Wir haben fnf Aufstze aus dem Jahr 2001 eingescannt, die Prof. Weber-Wulff damals nur mit Suchmachinen als Plagiate erkannt hatte. Diese Plagiate haben im brigen ihre Untersuchungen zum Thema Plagiat angestoen. Wir haben auf die eingescannte Dateien Zeichenerkennung angewendet, nach Fehlern durchgesehen und die Aufstze dann an ProfNet unter fiktiven Namen bermittelt.

Die anderen 25 Systeme, die 2010 getestet wurden, wurden dann auf Grundlage der Effektivitt Plagiate zu finden, der Benutzerfreundlichkeit des Systems und der Professionalitt der hinter der Software stehenden Unternehmen benotet. Es stellte sich heraus, dass durch einen unglcklichen Umstand bei dem Versuch die bis 2004 erhalten Testergebnisse zu bewahren, wurde das Verzeichnis der Testflle in die Sichtlinie der Suchmaschinen bewegt alle diese ersten 10 Testflle auffindbar sind. Einige der Plagiatserkennungssysteme erlaubten es uns, Quellen auszuschlieen. Wenn dies berhaupt mglich war, taten wir dies. Aber nicht alle Systeme erlaubten so etwas, oder sie gaben berhaupt nur eine Quelle an und wurden dadurch innerhalb der gesamten Testflle herabgesetzt.

Bewertungsmetrik

Um die Systeme ohne dieses Problem zu bewerten, berechneten wir die Effektivitt auch fr die Flle 10-40 (die Japanischen Flle wurden immer getrennt bewertet) sowie die Effektivitt nur fr die neuen englischsprachigen Flle 31-40, da einige Systeme behauptet haben, sie seien viel besser bei Englisch als bei Deutsch, da Deutsch besondere Umlaute hat. Wir haben dann die Software nach Schulnoten gruppiert.

Die Gruppierung der Ergebnisse auf Grund der Effektivitt war fr die gesamte Metrik sehr schwierig, da es ein Kontinuum von 55 bis 64% gab, ohne Prozentpunkte auszulassen. Es war etwas einfacher die Systeme fr die Flle 10-40 einzugruppieren. Urkund, Plagiarisma, Turnitin und PlagAware erhielten zwischen 60 und 66% der Effektivittspunkte. iPlagiarismCheck gehrte auch dorthin, rangiert hier aber nur, weil dieses System die Ergebnisse von Turnitin einfach umformatierte und wird daher nicht weiter bercksichtigt.

Die englischsprachigen Testflle hatten nur zwei Systeme mit 70% der Punkte, Copyscape und PlagAware. Urkund erhielt 66% und PlagScan, Plagiarisma, Ephorus, Turnitin, StrikePlagiarism und Viper landeten auf dem vierten Platz mit 60% der mglichen Punkte.

Die Benutzerfreundlichkeits-Metrik bercksichtigte Aspekte wie Design, sprachliche Konsistenz und Professionalitt, Navigation und Charakter der Beschriftungen, die Druckqualitt der Berichte und wie gut das System in den Arbeitsprozess einer Hochschule passte. Wir testeten auch die angebotene Support, indem wir von einer anonymen E-Mail-Adresse Fragen stellten, die nicht mit uns verbunden werden konnte (wir erhalten Antworten oft innerhalb von Minuten, wenn wir direkt unter unserem Namen schreiben). Wir prften ob unsere Frage innerhalb von 48 Stunden beantwortet wurde und wie gut und vollstndig sie beantwortet wurde. Top mit 25 von 30 mglichen Punkten wurde PlagScan. Nur vier andere Systeme konnten mehr als 20 Punkte in dieser Metrik erhalten: PlagiarismFinder, Ephorus, PlagAware und Turnitin.

Die Professionalitts-Metrik war eine neue Entwicklung fr diese Versuchsreihe. Eine Hochschule, die Plagiatserkennungssysteme einsetzen will, wnscht sich einen professionellen Partner, auch wenn dieser Dienst etwas teurer ist. Zu dieser Professionalitts-Metrik gehrten eine Straenadresse mit Ortsangabe, eine Telefonnummer und der Namen einer realen Person; Registrierung der Domain auf den Namen des Unternehmens und nicht ber einen Zwischenhndler; keine Werbung fr Hausarbeitenbrsen oder andere ethisch fragwrdige Dienste auf der Website; telefonische Erreichbarkeit whrend der normalen Geschftszeiten fr das jeweilige Land und die Fhigkeit, Deutsch zu sprechen; und keine Installation von Malware auf dem Computer unter dem Deckmantel der Installation der Plagiatserkennungssoftware. Hier bekam ein System, Plagiarism-Finder, die vollen 15 Punkte; PlagAware und StrikePlagiarism verpassten diesen Ziel nur um einen Punkt, fnf anderen Systemen fehlten nur zwei Punkte (Turnitin, Ephorus, Docoloc, PlagScan und Blackboard). Sieben weitere Systeme erhielten nur etwa die Hlfte der Punkte (Copyscape, Un.Co.Ver, Genuine Text, Compilation, Urkund, Plagium and ThePlagiarismChecker). Alle anderen Systeme sollten fr Hochschulen nicht ernsthaft in Betracht gezogen werden.

Diese Vorgehensweise gab uns fnf verschiedene Metriken zur Bewertung der Software. Kein System war in alle Metriken in der Spitzengruppe. Der obere Wert fr die Effektivitt war 70% fr die englischsprachigen Testflle, 66% fr die Testflle 10-40, 64% fr die gesamte Gruppe, 83% fr Benutzerfreundlichkeit und 100% fr Professionalitt. Wir beschlossen eine zusammengesetzter Metrik zu verwenden, die nicht mit absoluten Prozentstzen arbeitet, sondern mit einer relativer Rangliste. Wir bewerteten die 25 Systeme in jeder der 5 Kategorien und errechneten dann einen zusammengesetzten durchschnitt- lichen Rang. Wir haben danach geordnet und konnten die Gruppe von Systemen nun gut in drei Gruppen einteilen, die wir teilweise ntzlich, kaum brauchbar und nutzlos nannten. Dieses bezieht sich aber immer auf den Einsatz von Plagiatserkennungsystemen in einer Hochschule, um Plagiate bei Studierenden aufzudecken. Es mag andere Anwendungen fr solche Systeme geben, fr die diese Systeme besser geeignet sind.

System Rang fr

alle

Tests

Rang fr

Tests

10-40

Rang fr

Tests

31-40

Benutz-erfreundlich- keits

Rang

Prof-

ession-

alitts

Rang

?

Rang

Rang Effect-

tivitts-

note

Teilweise ntzlich
PlagAware 4 6 1 4 2 3,4 1 3,3
Turnitin 3 3 5 5 4 4 2 3,3
Ephorus 4 9 5 2 4 4,8 3 3,3
PlagScan 8 8 5 1 4 5,2 4 3,3
Urkund 2 1 3 13 13 6,4 5 3,3
Kaum brauchbar
Plagiarism Finder 11 12 11 2 1 7,4 6 3,7
Docoloc 9 9 12 6 4 8 7 3,7
Copyscape Premium 12 12 1 7 9 9,2 8 3,7
Blackboard/ SafeAssign 6 9 12 19 4 10 9 3,3
Plagiarisma 1 3 5 23 22 10,8 10 3,3
Compilatio 6 7 21 9 12 11 11 3,3
StrikePlagiarism 15 14 5 22 2 11,6 12 4,0
The Plagiarism Checker Free 12 14 15 7 14 12,4 13 3,7
The Plagiarism Checker Premium 14 14 15 7 14 12,8 14 3,7
Nutzlos
iPlagiarismCheck 17 5 15 19 16 14,4 15 5
Plagiarism Detector 17 19 15 23 1 15 16 5
UN.CO.VER 16 18 15 16 10 15 16 5
GenuineText 19 21 12 16 11 15,8 18 5
Catch It First 22 17 11 15 20 17 19 5
plagium 25 25 15 10 14 17,8 20 5
Viper 27 25 5 12 22 18,2 21 5
PlagiarismSearch 20 21 21 13 18 18,6 22 5
PlagiarismChecker 21 19 25 19 26 20 23 5
Grammarly 24 23 23 11 22 20,6 24 5
PercentDupe 22 24 24 16 19 21 25 5
Article Checker 25 27 27 25 25 25,8 26 5

Teilweise ntzliche Systeme

Das bestplatzierte System im Test 2010 ist PlagAware. Es teilt sich den ersten Platz mit Copyscape bei den neuen Testfllen mit 70%, erkennt jedoch nur 61,11% der Plagiatsflle 10-40. PlagAware ist ein deutsches System und bietet eine hervorragende Dokumentation zum Thema Plagiate. Besonders hervorhzuheben ist die Darstellung der Gemeinsamkeiten in einer Gegenberstellung. Allerdings ist die Zweckmigkeit fr Hochschulen begrenzt, weil jede Datei einzeln hochgeladen werden muss keine ZIP-Dateien oder studentischen Einreichungen sind mglich. Das System wurde nicht entworfen, um in der Lehre genutzt zu werden, sondern um Plagiate von Online-Texten zu finden. Es ist besonders wichtig Plagiate fr Webseiten zu erkennen, die ihr Suchmaschinen-Ranking optimieren wollen, da Plagiate zur Abwertung beitragen. Das System hat sich gegenber 2008 in sofern verbessert, als die zu testenden Dateien nicht mehr nur online und mit Logo von PlagAware sein mssen, sondern hochgeladen werden knnen. Wir hoffen, dass sich dieses System weiterentwickeln kann, um noch besser fr die Lehre ntzlich zu sein.

An zweiter Stelle ist das weit verbreitete US-System Turnitin, vertrieben von der Firma iParadigms. In der Vergangenheit war das System von verschiedenen Problemen geplagt, wie die Unfhigkeit mit Umlauten umzugehen, Wikipedia zu ignorieren und einem relativ komplizierten Einrichtungsproze. Sie haben es geschafft, viele dieser Probleme teilweise zu lsen, inzwischen geht es besser mit deutschen Texten als mit englischen. Die besten Ergebnisse werden mit Material erzielt, das bereits in ihren Datenbanken gespeichert ist. Dies ist aus europischer Sicht ein Problem, da Kopien von Aufstzen ohne die ausdrckliche Erlaubnis des Eigentmers nicht legal gespeichert werden knnen. Gerade viele Arbeiten im technischen Bereich enthalten Material, das unter einem Geheimhaltungsabkommen steht und in keiner Weise in externen Datenbanken gespeichert werden darf.

Wir untersuchten, warum Turnitin von Platz 13 in der Gesamteffektivitt im Test 2008 nun auf Platz 3 gestiegen ist. Der Grund scheint zu sein, dass die anderen Systeme wesentlich schlechter geworden sind. Testflle wie # 18 (eine stark bearbeitete Version eines online verfgbaren Textes) werden nun konsequent von vielen Systemen nicht gefunden. Dies gilt auch fr ein Plagiat aus einem Blog (# 29). Fr die Testflle, die Plagiate aus mehreren Quellen sind, waren viele Systeme nicht (mehr) dazu in der Lage alle Quellen zu finden, wodurch sie in der Effektivitt Punkte verloren haben.

Turnitin hat jetzt eine deutschsprachige Version, die noch ein paar bersetzungsprobleme hat, z. B. Benotungsbuch statt Notenbuch. Es gibt immer noch Bedienprobleme mit Turnitin durch deren konsequente Angabe von Spam-Seiten der Wikipedia als Quellen. Einige dieser Seiten sind problematisch zu betrachten, da die sie Pornografie verkaufen und das auf der Seite entsprechend bewerben. Dies knnte zu einem Problem fhren, wenn so etwas auf Schulcomputern gefunden wird. Interessant genug, die Wikipedia war hufig auch angegeben, aber erst nach diesen Seiten gelistet. Es gab auch ein Problem mit der Datenbank, da Plagiate von Seiten gemeldet wurden, die nicht mehr existieren. Oft war es in der Tat die richtige Seite, aber fr eine Lehrkraft wre es frustrierend, den Beweis eines Plagiats zu finden, aber nicht in der Lage zu sein, die Quelle anzugeben, die fr eine Sanktionierung erforderlich wre.

Dritte in der Gesamtwertung ist Ephorus, ein niederlndisches System, das 2007 den ersten Platz einnahm und im Jahr 2008 auf Platz 7 fiel. Das System wurde komplett berarbeitet und bekam nun den zweiten Rang in der Benutzerfreundlichkeit, anstatt dem bisherigen 8. Platz. Es ist nun mglich mit Hilfe eines Hand-in-Code, die Papiere direkt durch diesen an das System zu bergeben, hnlich wie es auch Turnitin bietet. Das System hat noch viele Navigationsebenen, aber es ist nicht mehr so verwirrend wie frher. Eine nette Geste ist es, dass die Lehrkraft einen Schwellenwert fr die Menge von Plagiaten eingeben knnen, das System benachrichtigt dann per E-Mail, wenn ein Aufsatz diesen Wert berschreitet. Umlaute in Dateinamen sind problematisch das System meldet kein Plagiat, obwohl es in einer identischen Datei mit einem Namen ohne Umlaut, Plagiat erkennt. Auerdem berspringt das System einige Worte mit Umlauten, was fr deutsche Texte problematisch ist. Wir konnten nicht feststellen, warum manche Wrter mit Umlaute gefunden werden und andere nicht.

Sehr problematisch ist, dass Ephorus nach wie vor alle Dokumente in der Datenbank speichert. Es gibt eine Reihe von als Pools bezeichnete Unterdatenbanken. Schulen knnen whlen, dass Aufstze nur innerhalb eines Pools gespeichert werden. Damit werden Aufstze nur innerhalb des Pools gegeneinander kontrolliert, zum Beispiel alle Schulen in einer Stadt oder einem Land, oder einfach nur beschrnkt auf die Hochschule . Aber das gleiche Problem besteht wie bei Turnitin: Die Speicherung der Aufstze in einer Datenbank bedarf die Zustimmung des Autors, auch wenn sie nicht weitergegeben werden, wie Ephorus auf seiner Webseite schreibt.

Vierter in der Gruppe der teilweise ntzlichen Systeme ist PlagScan, ein deutsches System. Dieses System wurde bisher PlagiatCheck genannt und erreichte 2008 Platz 10. Man kauft „Plag Points“ (PP), ein Test kostet 1 PP pro 100 getestete Worte. Der Administrator richtet Nutzerkonten ein und teilt diesen Punkte zu. Das System hatte Probleme mit Umlauten, dies wurde aber korrigiert, nachdem wir die Tests durchgefhrt hatten. Es gibt drei Arten von Berichten, eine Liste der mglichen Quellen mit Links, das eingereichte Dokument bei dem verdchtige Bereiche mit mglichen Quellen verlinkt sind, und eine DOCX-Datei mit Quellenangaben in den Kommentaren. Schmerzlich vermissen wir eine Gegenberstellung, die erforderlich wre, um Sanktionen folgen zu lassen. Trotz aller Probleme war PlagScan auf dem ersten Platz in der Usability, erreichte aber mit nur 60% der Punkte den 8. Platz in der Gesamteffektivitt.

Das letzte System der teilweise ntzlichen Systeme ist die neue Version des schwedischen Urkunds. Es erreichte hohe Punkte in der Effektivitt (zweiter Platz in der Gesamtwertung, dritter Platz fr die neuen Flle), aber das System ist ziemlich schwer zu bedienen. Auch wenn sie jetzt eine deutsche Version haben, ist die bersetzung sehr schlecht und das System wechselt oft in Englisch oder Schwedisch. Das System ist seit 2008 neu gestaltet worden, jedoch zum Schlechteren. Die Navigation ist verwirrend, das Layout mit berlappenden Feldern, die den Text verdecken, katastrophal. Die gedruckten Berichte knnten besser sein, die Fehlermeldungen sind kryptisch und viele Linkbeschreibungen unklar.

Extrem problematisch war, dass die Dokumente von 2008 noch in der Datenbank waren, obwohl wir im August 2008 eine E-Mail geschickt hatten und gebeten haben, dass sie entfernt werden. Schlimmer noch, ein Administrator von der Universitt Frankfurt hatte das System getestet und verwendete einen unserer Testflle. Wir wurden darber informiert, dass der Text ihm gehrt! Wir haben ihn ausfindig gemacht, er berichtete, dass er auch entdeckt hatte, dass die Aufstze nicht aus der Datenbank entfernt werden konnten. Dies war der Grund, dass sie beschlossen haben, Urkund nicht zu verwenden. Sie wollten nicht, dass die Aufstze ihrer Studenten gespeichert oder anderen Schulen zur Verfgung gestellt werden.

Zusammenfassend kann keines dieser Systeme fr die generelle Nutzung empfohlen werden, denn die Effektivitt ist nicht gut und jedes System hat Probleme. Sie knnen hchstens in Situationen genutzt werden, wo es bereits einen ersten Verdacht der Lehrkraft auf Plagiat gibt. In solchen Situationen, kann man aber die Suche mit Google schneller und effektiver gestalten.

Kaum Brauchbare Systeme

Der nchste Abschnitt diskutiert die Systeme, die als kaum brauchbar angesehen werden knnen das heit, sie finden zwar einige Plagiate, aber sie bersehen entweder viel, bekamen schlechte Noten fr die Benutzerfreundlichkeit oder fr die Professionalitt, oder hatten andere Probleme.

  • Plagiarism-Finder ist ein deutsches System, das im Jahr 2004 eines der am besten getesteten Systeme war, aber seit dem von vielen Schwierigkeiten geplagt wurde. Das System arbeitet nicht stabil, teilweise ergeben sich stark unterschiedliche Ergebnisse, wenn man nur 10 Minuten spter erneut testet. Dieses System wird lokal auf einem Computer installiert wird oder von einem USB-Stick gestartet. Es gibt viele Details am System, die gut in den Arbeitsprozess einer Lehrkraft passen, daher erreichte es in der Benutzerfreundlichkeit den zweiten Platz. Aber fr die neuen, englischsprachigen Testflle landete es nur auf Platz 11.
  • Docoloc: Dieses System war im Test 2008 auf dem fnften Platz, in diesem Test auf dem siebten Platz aber nur an zwlfter Stelle bei den englischen Testflle. Ein groes Problem war, dass Plagiate gemeldet wurden, die nicht in den angegebenen Quellen gefunden werden konnten! Es konnte zur Hlfte die von uns erwarteten Quellen angeben, aber fr eine Lehrkraft, die nicht wei welches die Quelle ist, ist dies sehr irritierend. Man ist nicht in der Lage festzustellen, warum bestimmte Quellen gemeldet wurden. Die Berichte selbst sind uerst schwer zu interpretieren. Es gibt keine Gegenberstellung, man muss selber in den angegebenen Links suchen. Die Auszeichnung ist irrefhrend, da die markierten Bereiche nicht die gefundenen Plagiate, sondern die getesteten Stellen darstellen. Die Navigation ist unklar. Whrend des Tests gab es auch noch Server-Probleme, jedoch erhielt das Unternehmen eine hohe Professionalitts- Bewertung, da unter anderem unsere (anonymen) Fragen umgehend per E-Mail beantwortet wurden.
  • CopyscapePremium: Dieses System hat im Jahr 2008 den ersten Platz bei der Effektivitt gehabt, aber ist nun nur auf Platz 12. Es war jedoch das beste System bei der Suche nach neuen, englischsprachigen Testfllen. Es hat oft kein Plagiat gemeldet oder nur einige Quellen fr Testflle gefunden, die es im letzten Test vollstndig gefunden hatte, etwas, das wir auch bei vielen anderen Systemen beobachtet haben. Dies ist vielleicht begrndet in nderungen der Google-API oder bestimmten Suchmaschinen „Optimierungen“, die viele Unternehmen versuchen und die vielleicht zu den schlechten Ergebnissen fhren. Wir haben keinen Weg gesehen, eine Druckfassung anzufertigen, ausser die Web-Seite zu drucken. Wenn man auf den berschrift der einzelnen Ergebnissen klickt, wird man zu einer Seite weitergeleitet, in der gefundene Textstellen markiert sind. Man kann zwischen dieser Seite und der Quellseite hin und her schalten, aber es gibt keine Gegenberstellung der Texte. Als neue Funktionalitt gibt es eine tgliche oder wchentliche berprfung einer Webseite, eine ntzliche Funktion um geistiges Eigentum online zu schtzen, ist aber fr die Hochschulnutzung ungeeignet. Es gibt jetzt immerhin die Mglichkeit eine grere Menge von Dateien gleichzeitig hochzuladen.
  • Blackboard / SafeAssign: Wir konnten diesmal SafeAssign direkt testen, anstatt uns ber ein System einer anderen Hochschule einzuloggen. Allerdings war dies erst mglich, nachdem wir eine E-Mail an den Geschftsfhrer des Unternehmens schrieben! Wir haben wiederholt das Online-Kontakt-Formular abgeschickt, aber wir erhielten keine Antwort. Wir haben vergeblich ungefhr eine Stunde am Telefon verbracht und Rufnummern in den USA, Grobritannien und Belgien angerufen, um jemanden im Call-Center zu erreichen, der uns wenigstens einen Namen oder eine Nummer nennen konnte, um einen Test-Account zu beantragen. Als wir auf der Webseite die Ermutigung fanden, dem Geschftsfhrer zu schreiben, wenn wir unzufrieden seien, taten wir das. Es dauerte eine weitere Woche, bis wir eine Antwort erhielten, aber dann konnten wir in der Tat das System testen. Es gab viele Probleme mit dem Layout, den Links, der Benennung, unverstndliche Fehlermeldungen („Ein unerwarteter Fehler ist aufgetreten. Als Referenz, die Fehler-ID lautet 266×800 ….“) und auch die Navigation war verwirrend. Bei allen Testfllen landete SafeAssign auf dem sechsten Platz (gemeinsam mit Compilatio) und wrde unter den teilweise ntzlichen Systemen rangieren, wenn die Usability nicht so schlecht wre. Obwohl es sich um ein amerikanisches System handelt, war es bei den englischsprachigen Tests noch schlechter als bei den deutschen.
  • Plagiarisma: Der Newcomer aus Russland erreichte tatschlich den ersten Platz in der allgemeinen Effektivitt mit knapp ber 65% der Punkte. Das System ist kostenlos, hat aber eine tgliche Hchstgrenze von 8 durchfhrbaren Tests. Es gab aber viele Probleme mit dem System: Umlaute knnten nicht verwendet werden; es hat immer wieder Russisch gesprochen oder den russischen Zeichensatz fr die Ausgabe verwendet; PDFs konnten nur vom PC aus, nicht von einem Mac hochgeladen werden; man musste immer wieder Captchas lsen, die nicht gut zu lesen waren. Davon abgesehen sieht das System in verschiedenen Browsern ganz unterschiedlich aus. Am Professionalittsindex scheitert das System. Es wird ein automatischer Wortersetzer (Synonymizer) und ein hnlichkeitstester mit angeboten. Diese Werkzeuge knnten bei der „Feinpolitur“ eines Plagiats helfen, um kopierte Textstellen so weit zu entfremden, dass sie nicht mehr als Plagiate angesehen werden. Die Eigentmer der Webseite betreiben auch eine Pornografie-Webseite und Spam-Seiten, wie wir durch nachschlagen im Netz herausfanden. Es werden auf der Seite auch keine Straenadresse und keine verantwortliche Person genannt. Es gibt eine Kontakt-Seite und es kam auch eine Antwort innerhalb von zwei Tagen, die aber die gestellten Fragen nicht wirklich beantwortete. Wir glauben, dass eine Hochschule nicht mit so einem unprofessionellen Unternehmen zusammenarbeiten kann und haben somit dieses System in die Kategorie „kaum brauchbar“ eingeordnet.
  • Compilatio ist ein weiteres neues System in unserem Test. Dieses franzsische System hat im Jahr 2009 eine interessante Studie ber die Prvalenz von Plagiaten durchgefhrt, in der 235 studentische, von den Lehrkrften eingereichte, Arbeiten von ihrem System untersucht wurden. Sie berichten, dass 30% der Aufstze plagiiert gewesen seien, aber wir sind beunruhigt, dass sie die Ergebnisse nicht von Hand nachkontrolliert haben. Das System reagiert zu stark auf sehr kleine Zeichenfolgen, beispielsweise wird 1% „Plagiat“ fr den Ausdruck „Stieg Larsson wurde im Jahr 1954 geboren“ gemeldet. Anschlieend wurden diese 1% Treffer addiert, das ergab insgesamt einen gemeldeten Plagiatsanteil von 11 % fr ein Dokument, das zu 100% Original ist! Fr unsere lteren deutschsprachigen Testflle erhielt das System den 6. Platz (gemeinsam mit SafeAssign) mit einer Gesamteffektivitt von 60%. Fr die neueren, englischsprachigen Testflle erreichte es nur den 21. Rang. Obwohl die Struktur des Systems hervorragend in den Arbeitsproze passt, neigt es immer wieder dazu, Franzsisch zu sprechen (und E-Mails auf Franzsisch zu versenden, obwohl wir als Sprache Englisch eingestellt hatten). Dies fhrte zu einer niedrigeren Benotung in der Benutzerfreundlichkeit. Es wrde unter den teilweise ntzlichen Systemen rangieren, wenn die Benutzerfreundlichkeit und die Professionalitt (kein Name eines Ansprechpartners vor Ort angegeben, viele Grammatikfehler auf der Webseite, Telefon nicht whrend der Arbeitszeit beantwortet) nicht so problematisch wren.
  • StrikePlagiarism ist ein polnisches System, das wir schon zweimal getestet haben. Sie hatten im Test im Jahr 2008 ihre Effektivitt insgesamt verbessert, aber diesmal sanken sie auf nur noch 52%. Sie haben hnliche Probleme wie Copyscape, Plagiate nicht zu melden, die sie 2008 noch gefunden hatten und Plagiate in Originalarbeiten zu melden, die sie zuvor nicht gemeldet hatten. Bei den englischsprachigen, neuen Testfllen erreichten sie aber den 5. Platz. Die Benutzerfreundlichkeit war jedoch wieder problematisch. Die Seite ldt extrem langsam und wir konnten keinen Weg finden, PDF auszuwhlen; Titel und Autor mussten fr jeden Aufsatz per Hand vor dem hochladen eingegeben werden; es gab Seiten die gleichzeitig Englisch, Deutsch und Polnisch beinhalteten, und die Sprache nderte pltzlich, ohne vorherige Ankndigung; horizontales Scrollen war teilweise notwendig; wir verstehen noch immer nicht, was der Unterschied in den Koeffizienten ist; sobald es eine Quelle (Wikipedia!) mit 7 passenden Worten findet, scheint es nicht zu versuchen die bereinstimmung zu erweitern, daher zeigten die Berichte nur kleine Mengen Plagiat in eine Komplettplagiat der Wikipedia. Wir haben jemanden telefonisch erreicht, der mit uns Englisch sprechen konnte.
  • The Plagiarism Checker (Free / Premium) ist ein neues System bei unseren Tests. Es wird von der Universitt Maryland angeboten. Wir testeten sowohl die freie als auch die Premium-Version (8 $ / Monat). Seltsamerweise war die kostenlose Version etwas besser als die Premium-Version. Es gab keine Quantifizierung des Plagiats, sondern es stellte nur „Plagiat“ fest. Beim Klicken auf die Links kommt man zu der Google oder Yahoo-Seite mit den Suchergebnissen (wir whlten standardmig Google). Es gab keine Gegenberstellung und so ist wirklich nicht klar, was dieses System macht, ausser das es Stichproben auswhlt. Wir waren nicht erfolgreich, jemand telefonisch zu kontaktieren, E-Mails kamen konsequent zurck mit „Vorbergehendes lokales Problem, bitte versuchen Sie es spter noch einmal. Die allgemeine Effektivitt betrug 56%, was einer Note von 3,7 entspricht.

Nutzlose Systeme

Folgende Systeme wurden aus verschiedenen Grnden als unbrauchbar fr die Plagiatserkennung in der Lehre eingestuft.

  • iPlagiarismCheck (auch checkforplagiarism.net genannt) ist bereits im Test 2007 aufgefallen. Die angebotene Ergebnisse wiesen eine sehr deutliche hnlichkeit mit den Resulaten von Turnitin auf. Das Unternehmen betonte aber, dass dies nur die Ergebnisse waren, die jedes System als Plagiat angeben wrde obwohl keines der anderen Systeme auch nur eine annhernd hnliche Anordnung und Gewichtung der Turnitin Ergebnisse lieferte. 2008 waren wir nicht in der Lage einen kostenlosen Testaccount zu erhalten. Wir haben uns entschlossen 2010 in eine 30-Tage-Lizenz zu investieren. Turnitin hat ja in ihrer Datenbank einen Kder-Aufsatz gespeichert. In der Tat, iPlagiarismCheck und nur iPlagiarismCheck fand, dass dieser Aufsatz ein 100% Plagiat sei und gab als Quelle den nicht vorhandenen, in der Datenbank von Turnitin gespeicherten, Link an. Dies zeigt, dass dieses kein eigenstndiges System ist, sondern nur eine Firma, die mit unerlaubter Zuhilfenahme anderer Produkte Geld verdienen will.
  • Plagiarism-Detector installiert lokal 32 MB Daten und fgt eine Schaltflche in Microsoft Word ein, um die Prfung des in Word geffneten Textes zu starten. Dieses System erreichte den zweiten Platz im Test 2008 mit einer Version, die uns auf einer CD geschickt wurde. Eine Anzahl von Korrespondenten bemerkte jedoch, dass die Download-Version einen Trojaner zu installieren versuchte, so dass wir das System aus unserem Test 2008 entfernten. Wir finden es irritierend, dass sie mit dem Logo unserer Hochschule Werbung machen, obwohl wir sie gebeten haben, dies zu entfernen. Das System strzte 2010 mehrmals ab und berschrieb die Berichte bei jedem Aufruf. Word wurde mehr und mehr instabil und strzte auch gelegentlich ab. Das Unternehmen wurde kontaktiert und schickte uns eine aktualisierte Version. Jetzt fror es ein, statt abzustrzen. Die Berichte konnten wir innerhalb des Programms nicht anzeigen, sondern mussten sie einzeln aus dem Dateisystem auswhlen und in einem Browser ffnen. Da das System nicht einmal 50% der Effektivitt erreichte, ordnen wir es als nutzloses System ein.
  • UN.CO.VER, Unique Content Verifier, ist eine Dienstleistungen eines deutschen Marketing-Unternehmen, das auch Ghostwriting anbietet. Das Freeware-System installiert 3,5 MB in 10 Dateien. Die Berichte sind vllig nutzlos, denn das System reagiert auf 3-4 Wrter in Folge, gefolgt durch eine weitere Sequenz von 3-4 Wrtern: has to be in case the in the early to cover the weather the heat gets in hot weather the is needed to . Andereseits wird nur ein Plagiat von 4% gemeldet, bei einem Komplettplagiat! Interessanter Weise verwendet die Software iText als Grundlage, das unter der LGPL-Lizenz steht. Dies bedeutet, dass UN.COV.ER ebenfalls unter der LGPL-Lizenz stehen msste, dies aber nicht tut. Es ist Freeware, aber der Quellcode ist nicht verfgbar. Obwohl wir fr das Auffinden der richtigen Quellen grozgig Punkte vergaben, auch wenn die Berichte uerst problematisch waren, war dieses System nicht einmal dazu in der Lage 50% der Effektivitts-Punkte zu erhalten.
  • GenuineText ist ein schwedisches System, das angeblich eine englischsprachige Version bietet, die aber rgerlicher Weise immer wieder ins Schwedische rutscht. Es ist eine nette Geste, dass die Lehrkraft den Status fr jeden Bericht hndisch auf genehmigt, zweifelhaft, oder nicht genehmigt setzen kann. Die Benutzeroberflche ist aber stark berarbeitungswrdig: Windows blieb fter hngen; Informationen waren nicht sichtbar; auf dem Mac in Firefox fehlten Schaltflchen, die in Safari vorhanden waren. Wir waren nicht in der Lage, den kompletten Test auf Anhieb durchzufhren. Das Unternehmen teilte uns mit, sie htten einen Denial of Service Angriff erlitten und baten uns, ein paar Tage zu warten. Es gab angeblich eine neue Version, aber es war uns dann nicht mglich, uns berhaupt einzuloggen. Eine weitere neue Version wurde verffentlicht, bei der viele der Design-Probleme gelst waren die wir vorher vermerkt hatten. Die Testflle wurden aber als in Bearbeitung angezeigt. Das blieb den ganzen Tag so, erst vier Tage spter waren die Berichte dann alle fertig und uns wurde nicht ein einziger Plagiat gemeldet! Wir wiederholten eine Reihe von Tests, bei denen im allerersten Versuch Quellen gefunden worden waren, aber diese neue Version meldete keine Probleme mehr mit diesen Texten. Auf der Grundlage der ersten abgeschlossenen Testflle fand GenuineText nur 46% der Plagiate, was nicht fr mehr reicht als nutzlos. Das System kann vielleicht noch in der Entwicklung sein, aber whrend der 17 Tage, wo wir daran testeten, konnten wir mit dem System nicht brauchbar arbeiten.
  • Catch It First gab im Test von 2007 immer 100% Original an und 2008 bekamen wir keine Berichte. Dieses Mal bekamen wir Berichte, die wir auswerten konnten. Die ersten zehn Testflle gaben immer uns als Quelle an und es gab keine Mglichkeit diese Quellen zu ignorieren. Insgesamt erreichte das System nur 35% der mglichen Punkte. Alle Versuche, die Firma zu kontaktieren, blieben erfolglos, wir bekamen nur eine automatische Antwort auf unsere E-Mail. Es gibt keine Adressangabe oder Telefonnummer. Die Berichte waren unbrauchbar, da sie in Firefox nicht gedruckt werden konnten; vermeintliches Plagiat nur unterstrichen wurde; und die Quellen nur als eine Sammlung von Links am Anfang des Berichts aufgefhrt wurden.
  • Plagium ist ein neues System, das sich noch im Betatest befindet und Yahoo als Suchmaschine nutzt. Das berprfen dauert lange, unser erster Versuch strzte nach 15 Minuten mit dem Status 98% fertig ab. Zahlreiche andere Testflle strzten ebenfalls ab, dennoch konnten wir alle Testflle nach ca. 3 Stunden prfen. Nur ein Testfall kann zu einem Zeitpunkt getestet werden und die Berichte bestehen nur aus einem Text mit einem Link und einem „Rang“ in Prozent. Es gibt eine bizarre „Text-Verwendungs-Zeitleiste“, auf der rote Kugeln mit unterschiedlichem Durchmesser auf einem Raster von Monaten versus Zeit aufgetragen sind, die fr uns als Lehrer keinen Sinn machte. Fr Leute, die Plagiate ihrer Webseiten verfolgen, kann das vielleicht interessant sein. Bei den ersten Testfllen wurde fr eine komplett kopierte Seite ein Teil-Plagiat gemeldet, bei den neueren Fllen wurden nur Ergebnisse gefunden, wenn es sich zumindest bei einer Quellen um die Wikipedia handelte, wobei dies auch Zufall sein kann. Daher wurde nur wenig gefunden, was zu indiskutablen 26% bei der Effektivitt fhrte.
  • Viper installierte einen 1,5 MB groen Client auf unserem PC-System. Das fauchende rote Schlangen-Logo ist nicht sehr schn anzusehen. Das System kann nicht mit Umlauten umgehen, erzeugt einen komplizierten Online-Bericht und eine unverstndliche Druckversion. Schreiben an die E-Mail Adresse der Firma, die uns am Telefon genannt wurde, kamen zurck. Wir prften die Adresse es ist die gleiche wie fr einer Hausarbeitenbrse und die Telefonnummern unterscheiden sich nur in der letzten Stelle. Beim Lesen der „Allgemeinen Geschftsbedingungen“ entdecken wir, dass wir beim Einreichen eines Aufsatzes an Viper der Firma das Recht geben, eine Kopie des Aufsatzes zu behalten und es fr Werbezwecke zu verwenden, entweder fr Viper oder fr irgendeine „zugehrige Website“. Diese Begebenheit zeigt auf, was viele oft vermuten: ein angeblicher Plagiatserkennungsdienst arbeitet als Erntemaschine fr eine Hausaufgabenbrse. Selbst wenn dies nicht der Fall gewesen wre Viper erreichte als schlechtestes System nur 24% der Effektivitts-Punkte ber allen Testfllen.
  • PlagiarismSearch beantwortet E-Mails sofort, war aber nicht bereit uns ein kostenloses Konto bereitzustellen. Wir entschieden uns fr eine advanced academic staff Lizenz und konnten unmittelbar nach dem Kauf ber PayPal beginnen. Nur ein Aufsatz konnte zu einem Zeitpunkt getestet werden und auch dann nur mit Kopieren und Einfgen in ein Textfeld. Die Berichte sind nicht nachvollziehbar, melden bereinstimmungen mit Texten, die nicht nur nicht identisch, sondern nicht einmal die gleichen Sprache verwenden! Es wurden einige Quellen gefunden, daher ist es nicht an letzter Stelle. Mit den Nutzungsbedingungen geben sie sich auch hier alle Rechte an den eingereichten Texten.
  • Grammarly bieten einen kostenlosen Test fr sieben Tage an, aber man muss es erst auf Kreditkarte kaufen und dann innerhalb der Frist kndigen. Die Webseite ist auf das Schreiben von Texten, Englische Grammatik und Korrekturlesen fokussiert und beinhaltet eine Plagiats-Prfungs-Komponente. Es gibt ein Fenster zum Einfgen von Text und es kann nur ein Test zu einem Zeitpunkt durchgefhrt werden. Grammarly fand etwa 30% der Plagiate, die Berichte konnten jedoch nicht gespeichert werden. Wir schrieben eine E-Mail um uns zu beschweren, und erhielten die Antwort, dass unsere Anfrage weitergeleitet wird wir hrten nie wieder von ihnen.
  • PercentDupe ist ein System, dessen Domain von einem Mexikaner in Mexicali registriert wurde, aber eine Adresse in New York angibt. Google Maps stellt aber fest, dass es so eine Strae in New York gar nicht gibt, nicht mal hnlich und schon gar nicht unter dieser Postleitzahl. Das System ist kostenlos, aber nur 15 Tests pro IP-Adresse sind ohne Anmeldung mglich. Es gab einige merkwrdige Ergebnisse, zum Beispiel, wurde die Quelle zu einem vorherigen Testfall als Quelle fr einen spteren gegeben. Umlaute verwirrten das System und die angegebenen Plagiatsquotienten sind unklar. Es gab keine Antwort auf unsere Anfrage auf der Kontaktseite und es war keine Telefonnummer angegeben. Die bei der Domainnamen-Registrierung angegebene Telefonnummer ist die Privatnummer einer Frau in New York. Die Berichte sind schwer zu entziffern und die Ergebnisse sind durchweg schlecht. Darber hinaus gewhren die Nutzungsbedingungen der Firma das Recht, die eingereichten Text in jeder gewnschten Weise zu nutzen. „Dupe“ heit im Deutschen Betrgen und scheint ein passender Name fr diesen Dienst zu sein.
  • PlagiarismChecker ist ein System, das im Jahr 2006 produziert worden zu sein scheint. Es hat ein Feld fr das Einfgen von Text oder fr das Angeben einer URL. Es gibt einfach Phrasen in Google ein und leitet den Nutzer dann auf die Google-Ergebnisseite weiter, wo man dann selbst weiter berprfen kann. Berichte werden nicht erstellt. Es schneidet Stze aber nach 32 Wrtern ab, was scheinbar der Grenzwert der Google-API ist. Gelegentlich erhlt man PHP-Fehler oder einen internen Server-Fehler, aber wir konnten trotzdem den Test abschlieen, jedoch gelang es PlagiarismChecker nur 42% der Gesamteffektivitts-Punkte erreichen.
  • Article Checker meldet konsequent 0 Treffer bei Google, folgt man jedoch dem Link, gab es in der Tat etwas zu finden. Es ist mglich Yahoo oder Google als Suchmaschine auszuwhlen. Man kopiert etwas Text oder gibt eine URL an. Es gibt auf der Seite Werbung fr andere dubiose Plagiatserkennungssysteme. Wir haben erwogen, den Test abzubrechen, aber arbeiteten uns dann doch durch alle Testflle dieses System ist an letzter Stelle bei allen Metriken.

ProfNet

Uwe Kamenz, Professor fr Betriebswirtschaftslehre an der FH Dortmund bietet ber sein Institut fr Internet-Marketing einen Plagiatserkennungsdienst an. Wir wollten diesen Dienst bereits im Jahr 2008 testen, der Zugriff wurde uns jedoch verweigert. Wir erbaten den Zugang erneut fr 2010 und Prof. Kamenz erlaubte uns, fnf Testflle einzureichen, unter der Bedingung, dass es sich um echte studentische Aufstze und nicht um unsere Testflle handelt.

Im Jahr 2001 begann Prof. Weber-Wulff sich mit dem Thema Plagiat zu beschftigen, nachdem sich in einer ihrer Klassen von 32 Studierenden, 12 der eingereichten Arbeiten als Plagiate herausgestellt hatten. Alle Arbeiten wurden damals einbehalten und wir whlten vier Beitrge aus, die sich bereits damals als Plagiate herausgestellt hatten, und einer Arbeit, die als Plagiat verdchtigt war, aber fr die 2001 keine Quelle gefunden werden konnten.

Wir scannten die Texte ein und benutzten die Zeichenerkennung fr die PDFs. Wir ersetzten die Namen der Studierenden durch fiktive Namen und richteten freie E-Mail-Konten unter diesen Namen ein, da wir unter anderem auch eine E-Mail-Adresse der Studenten auf dem online auszufllenden Anmeldeformular mit ca. 20 Feldern angeben mussten, bevor ein Aufsatz eingereicht werden konnte. Wir wollten sehen, ob die Studierenden informiert werden, dass ihre Papiere geprft werden. Sie wurden es nicht.

Wir reichten folgende Aufstze ein:

  1. Einen Aufsatz mit ein paar nicht ausgewiesenen Zitaten aus einem Buch, die anderswo richtig zitiert wurden und in dem ein englisches Wort („inculculate“) verwendet wurde, dass selbst viele Muttersprachler nicht kennen.
  2. Einen Aufsatz, bei dem im Jahr 2001 zwei Seiten als Plagiat aus zwei Quellen identifiziert worden waren.
  3. Einen Aufsatz, der 2001 als vollstndiges Plagiat erkannt wurde.
  4. Einen Aufsatz, der lange Passagen aus einem Buch verwendete, das Prof. Weber-Wulff selbst erkannt und ohne die Hilfe von Suchmaschine gefunden hatte.
  5. Einen Aufsatz, der auf Grund der verwendeten Sprache und der umfangreichen, aber alten Literaturliste verdchtigt war.

Wir reichten die Arbeiten am 4. September 2010 ein. In den Berichten wurde der 8. September als Testdatum und die Erstellung des Berichts fr den 16. September angegeben. Das bedeutet, dass es zwei Wochen gedauert hatte, nur diese fnf Papiere zu prfen. Das ist eine viel zu lange Zeit fr die generelle Nutzung an Hochschulen.

Wir haben dann eine grndliche Analyse der an uns gesendeten Berichte durchgefhrt. Die Berichte sehen mit vielen Tabellen, Zahlen und einem Glossar professionell aus, aber es ist oft unklar, was genau die Zahlen bedeuten. Bei genauerem Hinsehen sind die Berichte bertrieben lang, der Inhalt halber Seiten knnte auch in einem Satz gesagt werden und Stze knnten hufig kombiniert werden. Die Ergebnisse der fnf Aufstze werden im folgenden Abschnitt errtert.

  • Bericht 1 gibt eine Wahrscheinlichkeit von 5% an, dass der gesamte Text ein Plagiat ist. Es ist nicht klar, warum dies eine interessante Zahl wre, da bereits eine leichte berarbeitung eines Absatzes ohne Namensnennung ein klarer Fall von Plagiat ist. Die Zahlen in den Tabellen sind „-15% fr das Themengebiet der Textanalyse“ und „-80% fr das Themengebiet Textvergleich“. Wir haben keine Ahnung, wie diese Zahlen zu interpretieren sind.

Es gibt in dem Text drei verschiedene Plagiate. Eines ist ein 60-Wort Auszug aus einem Buch, das innerhalb des Aufsatzes nicht zitiert wurde, aber im Quellenverzeichnis aufgefhrt ist, und in dem das Wort „inculcate“ vorkommt. Das wird korrekt mit „100% Plagiatswahrscheinlichkeit“ angegeben. Das zweite ist eine Folge von neun Worten und wird als „50% Plagiatswahrscheinlichkeit“ aufgefhrt, obwohl ein grerer Teil verwendet wurde: Es wurden nur zwei Worte aus der Quelle gelscht, der Satz dazwischen aber beibehalten. Das dritte Plagiat ist ein Satz aus 19 Worten, der ebenfalls mit „50% Plagiatswahrscheinlichkeit“ gemeldet wurde. Dieser Satz ist aus einem Buch entnommen und zitiert richtig die von ProfNet angegebene Quelle. Der studentische Aufsatz hatte eigentlich einen Absatz von 130 Worten aus dem Buch entnommen, hat aber in jedem Satz Wrter weggelassen oder durch Synonyme ersetzt. Der gemeldete Satz war nur die lngste unvernderte Passage.

  • Bericht 2 gibt eine 52%-ige Wahrscheinlichkeit an, dass es sich bei dem gesamten Text um ein Plagiat handelt, und wieder gibt es Tabellen mit unverstndlichen Zahlen. In diesem Fall wurden interessanterweise bereinstimmungen gemeldet, die nicht exakt waren: Es wurde angegeben, dass der Aufsatz die Wrter andpractices, itcontributes und thewhole beinhaltetet (was nicht zutrifft), die dann als Kopien von and practices, it contributes und the whole, also mit Leerzeichen, gemeldet worden sind. Damit scheinen die Berichte nicht erzeugt zu werden, sondern von Hand angefertigt zu werden. 30 mgliche Plagiate wurden gemeldet, obwohl einige mehrfache Meldungen zum gleichen Text waren. Das ist allerdings nicht einfach im Bericht zu erkennen. Das kleinste gemeldete Plagiat bestand aus acht Worten. Grere Mengen werden auch gemeldet, dies wird aber unterbrochen, wenn ein Wort gestrichen oder zugefgt wurde, wenn wir Fehler bei der Zeichenerkennung bersehen haben oder bei Seitenumbrchen.

Bei allen als „100% Plagiatswahrscheinlichkeit gemeldeten Stellen, wre es besser zu wissen, wie viele Wrter kopiert wurden und vielleicht, wie viel Prozent des gesamten Dokuments das sind. Die URLs fr die Quellen sind nicht immer lesbar, zu lange URLs werden mit „…“ abgekrzt, so muss man den Text googlen, um die angegebene Quelle zu finden.

Eine der gefundenen Quellen war allerdings Gold wert: Das CIA World Fact Book war die Grundlage fr viele andere Plagiate im Internet, die als Quellen in diesem Bericht aufgefhrt waren. Es stellte sich heraus, dass der gesamte Aufsatz ein Plagiat dieses Buches war und nicht nur zwei Seiten.

  • Bericht 3 meldet insgesamt 70% Plagiatswahrscheinlichkeit. Wir wissen, dass dieser Aufsatz fast vollstndig einer Online-Quelle entnommen wurde. Daher nahmen wir uns die Zeit, die genaue Menge des Plagiats zu messen. Eine Quelle, die als Quelle fr 29 der 31 mglichen Plagiate aufgefhrt wurde, war eigentlich die Grundlage fr 82% des Aufsatzes, bezogen auf die Anzahl der Wrter. Auch hier stoppte der ProfNet Bericht die Untersuchung des Satzes immer dann, wenn der Studierende Wrter gendert oder gelscht hatte oder es einen Seitenumbruch gab.
  • Bericht 4 meldete insgesamt 55% Plagiatswahrscheinlichkeit mit -24% und -25% im Themengebiet. Zwlf mgliche Plagiate wurden gemeldet, die meisten aus einem online verffentlichten Auszug eines Buches. Und wieder unterbricht der Bericht bei allen vernderten Worten. Vier der mglichen Plagiate sind nicht als 100% Plagiate gemeldet, sondern mit 50, 60 (zweimal) oder 80%. Sie bestehen aus nur 14, 13, 16 und 21 Wrtern. Das eine, mit 50% gemeldete, enthlt tatschlich nur ein verndertes Wort („terms“ anstelle von „reference“) und eines der 60% beinhaltet ein „.“, war aber ansonsten identisch. Dies macht die Zahlenangaben noch verwirrender.
  • Bericht 5, der Aufsatz, der als Plagiat verdchtigt wurde, aber fr den hndisch keine Quellen gefunden werden konnten, erhielt insgesamt 6% Plagiatswahrscheinlichkeit. Drei Stellen wurden gemeldet, die aber tatschlich exakte Kopien waren und im Aufsatz nicht korrekt zitiert worden sind. Jede der Stellen war aus einer anderen Online-Quelle. Der Versuch, eine der Quellen, die im Berichts angegeben wurde, zu finden, fhrte zu einer anderen Online-Quelle, die richtig zitierte: Microsoft Encarta 1999. Und tatschlich sind alle Hinweise im Aufsatz lter als 1999, so ist davon auszugehen, dass groe Teile dieser Arbeit aus der Encarta, die leider nicht online ist, bernommen wurden. Der Aufsatz war 26 Seiten lang, drei gefundene Abstze htten nicht zu einem nicht bestanden gefhrt, aber htten schon die Note verschlechtert.

In vier der fnf Flle htte die Suche von Hand mit Google ausgereicht, um gengend Plagiat zu finden, um den Studierenden durchfallen zu lassen und wre auch viel schneller gewesen. Fr den fnften Fall hat das System einen kleineren Teil Plagiat gefunden, das nicht von Hand gefunden wurde.

Japanisch

Wir wurden gebeten, die Systeme daraufhin zu untersuchen, ob sie in der Lage sind mit japanischen Texten umzugehen. Es gibt zwei gngige Kodierungen fr Japanisch, JIS-Shift und UTF-8. Wir hatten 4 unterschiedliche Texte, die ersten drei waren in beiden Kodierungen vorhanden:

  1. Ein Komplettplagiat aus der japanischen Wikipedia,
  2. Ein Plagiat aus der japanischen Wikipedia in dem der erste und der letzte Absatz original war,
  3. Ein Plagiat, in dem die Wrter umgestellt und durch Synonyma ersetzt wurden, und
  4. Eine bersetzung der englischen Wikipedia in Japanisch in UTF-8.

Wir haben alle Systeme daraufhin untersucht, ob sie mit den Texten etwas anfangen knnen. Allerdings haben wir in vielen Systemen Fehler provoziert, haben pltzlich Serverprobleme gemeldet bekommen oder die Systeme haben gemeckert, dass die Texte nicht lang genug waren, denn ein ganzer Satz als Folge von Zeichen wurde als ein Wort angesehen. Keines der Systeme, die auf einem PC zu installieren waren, konnte mit den Texten irgendwas anfangen.

Unter den Online-Systemen gab es vier, die dazu in der Lage waren, irgend etwas zu finden:

  1. Turnitin hat die Plagiate 1-3 in beiden Kodierungen gefunden, konnte aber die bersetzung nicht finden,
  2. Plagiarism Search war dazu in die Lage den ersten und den zweiten Testfall in der UTF-8-Kodierung zu finden,
  3. StrikePlagiarism und PlagScan waren dazu in der Lage, den ersten Testfall in der UTF-8-Kodierung zu finden.

Zusammenfassung

Plagiatserkennung ist vielleicht berraschender Weise nicht leicht mit Softwareuntersttzung durchzufhren es gibt also kein Wundermittel. Software kann durchaus Kopien erkennen, aber nicht Plagiate: Paraphrasen, bearbeitete Fassungen eines Textes, oder auch bersetzungen werden gar nicht erkannt, und natrlich bernahmen aus Bchern auch nicht. Generell berprfen die Softwaresysteme nur Stichproben der Texte, nicht das gesamte Dokument, da dies viel zu viel Zeit in Anspruch nehmen wrde. Es ist nicht immer klar, welcher Teil des Textes getestet wurde und die berichtete Menge der gefundenen Plagiate ist im besten Fall eine Annherung oder im schlimmsten Fall eine Zufallszahl. Einige Systeme melden sogar Arbeiten mit ordentlichen Zitaten oder Verweisen als Plagiat, oder reagieren auf kleinste Wortfolgen. Andere bersehen klare Plagiate, die aus irgendeinem Grund unter das Radar des Systems gerutscht sind.

Wir knnen diese Systeme nicht fr den allgemeinen Gebrauch an Hochschulen empfehlen. Die aufgelisteten, teilweise ntzlichen Systeme knnten fr Situationen verwendet werden, in der eine Lehrkraft misstrauisch geworden ist und Quellen nicht schnell mit einer Suchmaschine finden kann. Aber im allgemeinen gilt: drei bis fnf lngere Worte aus einem verdchtigen Absatz in einer Suchmaschine gengen fr die Suche nach Quellen, die online zu finden sind!

Stattdessen schlagen wir vor, Studierende gezielt ber das Thema Plagiat aufzuklren. Der Schwerpunkt sollte beim Aufklren liegen, was Plagiate sind und wie sie zu vermeiden sind, anstatt sich auf Aufdeckung und Bestrafung zu konzentrieren.