Similarity Texter

DIE HOCHMÜTIGE DOHLE UND DER PFAU

Einst lebte eine Dohle, voll von eitlem Stolz, die stahl sich Federn, die dem Pfau entfallen warn und putzte sich damit. Das eigne Dohlenvolk ver- achtend trat sie in der schönen Pfauen Reihn. Der Unver- schämten reißt man hier die Federn aus, jagt sie mit Schnäbeln. Und die Dohle, bös verbleit will wieder nun betrübt zu ihrem Volk zurück. Die aber stoßen sie von sich, mit herbem Schimpf. Und eine derer, die zuvor verachtet, sprach zu ihr “Hätt’ unsre Lebensart dir vormals conveniert, hätt’st du, was die Natur dir schenkte, akzeptiert, dann wär dir weder jene Schande widerfahrn noch müsstest du zum Unglück jetzt verstoßen sein.”

Diese Version von Aesops Fabel ist aus Wilfried Strohs Sammlung von Übersetzungen von Jan Novák: “Aesopia”, die auf Geschichten von Phaedrus basieren.

Kurzfassung des Tests 2007

Es gibt einige Programme, die Unterstützung bieten sollen bei der Suche nach Plagiatoren. Man muss sich aber darüber im Klaren sein, dass sie nicht zweifelsfrei Täter überführen können, auch können sie nicht 100% aller Plagiate entdecken. Man muss sich auf seine Intuition als Lehrkraft verlassen – ist dieser Autor, diese Autorin dazu in der Lage, so zu schreiben? Gibt es irgendetwas Seltsames an diesem Aufsatz? Man sollte einem Verdacht immer nachgehen, aber die Suche nicht unendlich lange betreiben. Software-Programme könnten hilfreich sein – oder auch nicht. Wir haben unsere 20 Aufsätze aus dem Übungsteil der Lerneinheit „Fremde Federn Finden“ dazu verwendet, um die einzelnen Programme im Juli und September 2007 zu testen. Die Ergebnisse hier betreffen nur die Trefferquote für Plagiatsauffindung – die Handhabbarkeit der Systeme wurde zwar angemerkt, jedoch nicht in die Bewertung hineingezogen. Hierzu sollte man der Langfassung des Tests im Portal konsultieren. Dort ist auch einiges zur Testmethodik aufgeführt.

Sehr gute Software

Leider ist diese Kategorie überhaupt nicht besetzt. Das beste Softwaresystem im Test erreichte lediglich 40 von 60 Punkten. 51 Punkte (17/20 korrekt oder 85%) wären notwendig, um in diese Kategorie aufgenommen zu werden. Studenten brauchen in ihre Hausarbeiten oder Klausuren 90% der erreichbaren Punkte für ein sehr gut…

Gute Software

Folgende Systeme sind für gut befunden worden: (haben 60-85% der erreichbaren Punkte bekommen, also 36 Punkte oder mehr)

  • Platz 1 und alleiniges System in dieser Kategorie ist Ephorus, das wir in zwei Versionen getestet haben, eine alte (mit 42 Punkten) und eine neue (mit gerade 36 Punkten), die im Durchschnitt 38 Punkten erreichten. Das System hat einige Usability-Probleme, man kann leicht in Zustände hinein kommen, in dem die Berichte nicht scrollbar sind, und die Bedienung ist nicht intuitiv. Es gibt auch Probleme mit Umlauten, und es stimmt uns recht bedenklich, dass die neue Fassung schlechter geworden ist. Das System bietet drei verschiedene „Stärken“ der Überprüfung an, die aber relativ sinnlos sind. Beim Auffinden von Quellen hat dieses Softwaresystem die meisten Quellen aufgedeckt. Wenn für das System die Oberfläche überdacht wird, sich mit PDF-Inhalten auseinander gesetzt wird, und das Umlautproblem gelöst wird, sowie herausbekommt, wieso der zweite Test nicht so effektiv war, wird das System immerhin brauchbar sein, um auf Plagiats-Verdachte hinweisen zu können.

Befriedigende Software

Folgende Software wurde als befriedigend empfunden, die wir definieren als alle Systeme, die mindestens 40% der Punkte erreichten, also 24 Punkte oder mehr. Man sollte aber beachten, dass bei allem, was unter 30 Punkten ist (50%) man genau so gut eine Münze werfen könnte, um zu entscheiden, ob eine Arbeit plagiiert ist oder nicht.

  • Platz 2 mit 35 Punkten: docoloc, ein System der Technischen Universität Braunschweig. Die Berichte sind etwas gewöhnungsbedürftig und die Benutzerführung könnte von einer Überarbeitung profitieren (Symbolik und Namen überdenken, Layout verbessern, Hochladen von ZIP-Archiven zulassen). Aber bei der Erkennung von Plagiatsquellen war dieses System vom Mittelfeld das beste, sicherlich weil es auch Quellen in PDF-Dokumenten finden könnten.
  • Platz 3 mit 34 Punkten ist dreifach besetzt:
    • Urkund, das schwedische System, haben wir zweimal getestet, einmal mit 33 Punkten und einmal mit 35 Punkten. Das neue System ist beim Finden von Plagiaten etwas besser geworden, es ignoriert kleinere Bearbeitungsversuche – aber nicht ganze Sätze, die eingeschoben oder entfernt werden. Aber die neue Oberfläche zeigt sehr stark, dass es noch in der Entwicklung ist und bedarf noch viel Arbeit, bevor es produktiv eingesetzt werden kann.
    • Copyscape Premium. Mit geringfügig besserem Komfort und ohne Werbung bekommt man fast so gute Ergebnisse wie mit der kostenlosen Version. Die Preise sind mit 5 US Cent pro Test für Bezahltests extrem günstig.
    • PlagAware, eigentlich nur zum Auffinden von Plagiaten von Web-Sites gedacht, schneidet recht gut ab. Wir haben für den Test unseren Aufsätzen online gestellt und mit dem Logo präpariert, das auf die Site verlinkt. Nur solche vorbereiteten Seiten werden auch überprüft, was sicherlich nebenbei viel dazu tun wird, den Google PageRank der Site zu erhöhen.
  • Platz 6, mit 32 Punkten ist das System Copyscape free. Wenn man nur wenige Texte testen will (maximal 10 pro Monat), dann kann man sehr einfach mit befriedigenden Resultaten Copyscape einsetzen. Es funktioniert schnell und ohne viele Umstände.
  • Platz 7 mit 29 Punkten ist das System TextGuard. Das System hat die einfachen Plagiate erkannt, aber auch viele unsinnige Stellen markiert, die teilweise mitten im Wort begannen oder aufhörten. Das System kann aber mit PDF-Quellen umgehen. Allerdings ist die Handhabung sehr schwerfällig für mehr als einen Einzeltest. Die Ergebnisfenster sind extrem schwer zu lesen und zu vergleichen, daher nicht unbedingt tauglich für den Hochschulalltag.
  • Platz 8 mit 26 Punkten ist ebenfalls doppelt besetzt:
    • turnitin, von vielen als „das beste Plagiatserkennungssystem“ angesehen, weil das System eine sehr gute Bedienoberfläche hat, die sich nahtlos in den Hochschulbetrieb einpassen lässt. Wie im letzten Test 2004, kränkelt turnitin an vielen Fronten: Wikipedia wird nicht als Quelle erkannt, es gibt immer noch Probleme mit Umlauten in Dateinamen und im Text (die Übereinstimmung bricht an der Stelle, wo ein Wort ein Umlaut hat, ab), nur 1 von 3 PDF-Quellen wurden gefunden. Dafür sind neue Probleme hinzugekommen: Spamseiten dominieren die Suchresultate und die vorgenomme „Eindeutschung“ hätte gerne von einer Fachkraft durchgesehen werden („veranschlagen ausschliessen“ für „Zitate ignorieren“ ist ein besonders problematischer Fall). Nicht erklärbar ist die extrem starke Übereinstimmung zwischen turnitin und iPlagiarismCheck, siehe hierzu die besondere Seite im Langbericht.
    • ArticleChecker (es gibt zwei unterschiedliche Produkte, die so heissen, gemeint ist hier das unter articlechecker.com zu findende) hat eine grauenhafte Oberfläche. Man kann bis zu 5 Dateien angeben, es wird sehr schnell nachgeschaut, auf Wunsch in Google, Yahoo und MSN. Die Ergebnisseite ist selbst für erfahrene „Plagiatsjäger“ eine Zumutung. Man muss die Quelltexte genau kennen (was in der Regel nicht gegeben ist), weil nicht gekennzeichnet wird, welches Ergebnis zu welcher Datei passt. Man muss selber auf einen Link klicken, der mit schwer lesbaren Zahlen 0 bis 8+ gekennzeichnet ist, und sich aus dem Ergebnis der Übereinstimmung zusammensetzen. Wir haben uns durchgebissen, und waren erstaunt über die recht guten Ergebnisse. Es hat also die einfachen Plagiate gefunden, ist aber nicht für den Alltagseinsatz tauglich.
  • Platz 10 mit 25 Punkten: picapica, ein experimentelles System, das angeblich Textanalysen anfertigt und Brüche erkennt. Da es sich noch in der Experimentierphase findet, ist das System extrem schlecht bedienbar und die Berichte schwierig zu lesen. Einige einfache Plagiate wurden erkannt.

Nicht zweckmässige Systeme

Folgende Software-Systeme eignen sich nicht, Plagiate zuverlässig zu erkennen:

  • Platz 11 mit 17 Punkten ist DocCop. Das System macht eine unglaublich rechenintensiver Operation, in dem es alle Teilzeichenreihen untersucht, also ein Textfenster immer um ein Zeichen weiter verschiebt. Die Berichte dauern ewig, man kann nicht mehrere gleichzeitig starten, und es ist eine Zumutung, die Berichte zu empfangen, sie sind riesig große E-Mails mit sehr wenig Inhalt. Das System findet nicht mal alle einfachen Plagiate. Es gibt keine Gegenüberstellung, man muss selber in eine Suchmaschine dann noch mal nachschlagen. Da kann man gleich die Suchmaschine bedienen und sich das Warten auf den Bericht ersparen.
  • Platz 12 mit 12 Punkten ist doppelt besetzt:
    • iPlagiarismCheck. Dieser Software liefert sehr ähnliche Berichte und extrem ahnliche Ergebnisse wie turnitin. Da man jedoch keine Quellen wegklicken kann, konnte man bei den ersten 10 Aufsätzen den Link auf unsere eigene Seiten nicht löschen, die natürlich so um die 100% Plagiat waren. Eine längere Diskussion der Ähnlichkeit turnitin/iPlagiarismCheck ist zusammengestellt worden.
    • die polnische Firma StrikePlagiarism. Das Ergebnis mußte eigentlich noch schlechter sein, weil so oft wurden bei plagiierte Seiten gemeldet, dass keine Quellen gefunden wurde, dass man die „korrekten“ Originale nicht werten sollte. Überhaupt wurden nur 2 korrekte Quellen überhaupt im Test gefunden. Dass sie für diese Leistung 2 € pro Test verlangen, ist recht verwunderlich.
  • Platz 14 und letzter mit 0 Punkten ist der Online-Dienst CatchItFirst. Für viel Geld und viel Geduld bekommen die Kunden nichts geboten – man bekommt immer 100%iger Originalität versichert, auch wenn man mit solcher Software so etwas nie beweisen kann, sonder höchtens auf nicht-originale Passagen hinweisen kann. Man sollte sich das Geld sparen und Münzwürfe einsetzen – das ist effektiver.