Similarity Texter

Additional Information

Test 2010: S10-31 ProfNet

Software Steckbrief | Kurzfassung| Screenshots | Firmenwerbung | Links

Software Steckbrief

Nummer S10-31
Produkt ProfNet
Hersteller Prof. Dr. Uwe Kamenz
Wissenschaftlicher Direktor
ProfNet Institut für Internet-Marketing
Klosterstr. 3
48143 Münster
0251 – 48 42 245 (Tel.)
0251 – 48 42 246 (Fax)
Web-Site http://www.profnet.de/hs
Software-Typ
Kosteninfo
Testdatum Eingereicht: 4. September 2010
Berichte erhalten: 16. September 2010

Kurzfassung

Uwe Kamenz, Professor für Betriebswirtschaftslehre an der FH Dortmund bietet über sein Institut für Internet-Marketing einen Plagiatserkennungsdienst an. Wir wollten diesen Dienst bereits im Jahr 2008 testen, der Zugriff wurde uns jedoch verweigert. Wir erbaten den Zugang erneut für 2010 und Prof. Kamenz erlaubte uns, fünf Testfälle einzureichen, unter der Bedingung, dass es sich um echte studentische Aufsätze und nicht um unsere Testfälle handelt.Im Jahr 2001 begann Prof. Weber-Wulff sich mit dem Thema Plagiat zu beschäftigen, nachdem  sich in einer ihrer Klassen von 32 Studierenden, 12 der eingereichten Arbeiten als Plagiate herausgestellt hatten. Alle Arbeiten wurden damals einbehalten und wir wählten vier Beiträge aus, die sich bereits damals als Plagiate herausgestellt hatten, und einer Arbeit, die als Plagiat verdächtigt war, aber für die 2001 keine Quelle gefunden werden konnten.Wir scannten die Texte ein und benutzten die Zeichenerkennung für die PDFs. Wir ersetzten die Namen der Studierenden durch fiktive Namen und richteten freie E-Mail-Konten unter diesen Namen ein, da wir unter anderem auch eine E-Mail-Adresse der Studenten auf dem online auszufüllenden Anmeldeformular mit ca. 20 Feldern angeben mussten, bevor ein Aufsatz eingereicht werden konnte. Wir wollten sehen, ob die Studierenden informiert werden, dass ihre Papiere geprüft werden. Sie wurden es nicht.Wir reichten folgende Aufsätze ein:

  1. Einen Aufsatz mit ein paar nicht ausgewiesenen Zitaten aus einem Buch, die anderswo richtig zitiert wurden und in dem ein englisches Wort („inculculate“) verwendet wurde, dass selbst viele Muttersprachler nicht kennen.
  2. Einen Aufsatz, bei dem im Jahr 2001 zwei Seiten als Plagiat aus zwei Quellen identifiziert worden waren.
  3. Einen Aufsatz, der 2001 als vollständiges Plagiat erkannt wurde.
  4. Einen Aufsatz, der lange Passagen aus einem Buch verwendete, das Prof. Weber-Wulff selbst erkannt und ohne die Hilfe von Suchmaschine gefunden hatte.
  5. Einen Aufsatz, der auf Grund der verwendeten Sprache und der umfangreichen, aber alten Literaturliste verdächtigt war.

Wir reichten die Arbeiten am 4. September 2010 ein. In den Berichten wurde teilweise der 8. September als Testdatum und die Erstellung des Berichts für den 16. September angegeben. Das bedeutet, dass es zwei Wochen gedauert hatte, nur diese fünf Papiere zu prüfen. Das ist eine viel zu lange Zeit für die generelle Nutzung an Hochschulen. Wir haben dann eine gründliche Analyse der an uns gesendeten Berichte durchgeführt. Die Berichte sehen mit vielen Tabellen, Zahlen und einem Glossar professionell aus, aber es ist oft unklar, was genau die Zahlen bedeuten. Bei genauerem Hinsehen sind die Berichte übertrieben lang, der Inhalt halber Seiten könnte auch in einem Satz gesagt werden und Sätze könnten häufig kombiniert werden. Die Ergebnisse der fünf Aufsätze werden im folgenden Abschnitt erörtert.

  • Bericht 1 gibt eine Wahrscheinlichkeit von 5% an, dass der gesamte Text ein Plagiat ist. Es ist nicht klar, warum dies eine interessante Zahl wäre, da bereits eine leichte Überarbeitung eines Absatzes ohne Namensnennung ein klarer Fall von Plagiat ist. Die Zahlen in den Tabellen sind „-15% für das Themengebiet der Textanalyse“ und „-80% für das Themengebiet Textvergleich“. Wir haben keine Ahnung, wie diese Zahlen zu interpretieren sind.

Es gibt in dem Text drei verschiedene Plagiate. Eines ist ein 60-Wort Auszug aus einem Buch, das innerhalb des Aufsatzes nicht zitiert wurde, aber im Quellenverzeichnis aufgeführt ist, und in dem das Wort „inculcate“ vorkommt. Das wird korrekt mit „100% Plagiatswahrscheinlichkeit“ angegeben. Das zweite ist eine Folge von neun Worten und wird als „50% Plagiatswahrscheinlichkeit“ aufgeführt, obwohl ein größerer Teil verwendet wurde: Es wurden nur zwei Worte aus der Quelle gelöscht, der Satz dazwischen aber beibehalten. Das dritte Plagiat ist ein Satz aus 19 Worten, der ebenfalls mit „50% Plagiatswahrscheinlichkeit“ gemeldet wurde. Dieser Satz ist aus einem Buch entnommen und zitiert richtig die von ProfNet angegebene Quelle. Der studentische Aufsatz hatte eigentlich einen Absatz von 130 Worten aus dem Buch entnommen, hat aber in jedem Satz Wörter weggelassen oder durch Synonyme  ersetzt. Der gemeldete Satz war nur die längste unveränderte Passage.

  • Bericht 2 gibt eine 52%-ige Wahrscheinlichkeit an, dass es sich bei dem gesamten Text um ein Plagiat handelt, und wieder gibt es Tabellen mit unverständlichen Zahlen. In diesem Fall wurden interessanterweise Übereinstimmungen gemeldet, die nicht exakt waren: Es wurde angegeben, dass der Aufsatz die Wörter “andpractices”, “itcontributes” und “thewhole” beinhaltetet (was nicht zutrifft), die dann als Kopien von “and practices”, “it contributes” und “the whole”, also mit Leerzeichen, gemeldet worden sind. Damit scheinen die Berichte nicht erzeugt zu werden, sondern von Hand angefertigt zu werden.  30 mögliche Plagiate wurden gemeldet, obwohl einige mehrfache Meldungen zum gleichen Text waren. Das ist allerdings nicht einfach im Bericht zu erkennen. Das kleinste gemeldete Plagiat bestand aus acht Worten. Größere Mengen werden auch gemeldet, dies wird aber unterbrochen, wenn ein Wort gestrichen oder zugefügt wurde, wenn wir Fehler bei der Zeichenerkennung übersehen haben oder bei Seitenumbrüchen.

Bei allen als „100% Plagiatswahrscheinlichkeit” gemeldeten Stellen, wäre es besser zu wissen, wie viele Wörter kopiert wurden und vielleicht, wie viel Prozent des gesamten Dokuments das sind. Die URLs für die Quellen sind nicht immer lesbar, zu lange URLs werden mit „…“ abgekürzt, so muss man den Text googlen, um die angegebene Quelle zu finden.

Eine der gefundenen Quellen war allerdings Gold wert: Das CIA World Fact Book war die Grundlage für viele andere Plagiate im Internet, die als Quellen in diesem Bericht aufgeführt waren. Es stellte sich heraus, dass der gesamte Aufsatz ein Plagiat dieses Buches war und nicht nur zwei Seiten.

  • Bericht 3 meldet insgesamt “70% Plagiatswahrscheinlichkeit”. Wir wissen, dass dieser Aufsatz fast vollständig einer Online-Quelle entnommen wurde. Daher nahmen wir uns die Zeit, die genaue Menge des Plagiats zu messen. Eine Quelle, die als Quelle für 29 der 31 möglichen Plagiate aufgeführt wurde, war eigentlich die Grundlage für 82% des Aufsatzes, bezogen auf die Anzahl der Wörter. Auch hier stoppte der ProfNet Bericht die Untersuchung des Satzes immer dann, wenn der Studierende Wörter geändert oder gelöscht hatte oder es einen Seitenumbruch gab.
  • Bericht 4 meldete insgesamt “55% Plagiatswahrscheinlichkeit” mit “ -24%” und “-25%” im Themengebiet. Zwölf mögliche Plagiate wurden gemeldet, die meisten aus einem online veröffentlichten Auszug eines Buches. Und wieder unterbricht der Bericht bei allen veränderten Worten. Vier der möglichen Plagiate sind nicht als 100% Plagiate gemeldet, sondern mit 50, 60 (zweimal) oder 80%. Sie bestehen aus nur 14, 13, 16 und 21 Wörtern. Das eine, mit  50% gemeldete, enthält tatsächlich nur ein verändertes Wort („terms“ anstelle von „reference“) und eines der 60% beinhaltet ein „.“, war aber ansonsten identisch. Dies macht die Zahlenangaben noch verwirrender.
  • Bericht 5, der Aufsatz, der als Plagiat verdächtigt wurde, aber für den händisch keine Quellen gefunden werden konnten, erhielt insgesamt “6% Plagiatswahrscheinlichkeit”. Drei Stellen wurden gemeldet, die aber tatsächlich exakte Kopien waren und im Aufsatz nicht korrekt zitiert worden sind. Jede der Stellen war aus einer anderen Online-Quelle. Der Versuch, eine der Quellen, die im Berichts angegeben wurde, zu finden, führte zu einer anderen Online-Quelle, die richtig zitierte: Microsoft Encarta 1999. Und tatsächlich sind alle Hinweise im Aufsatz älter als 1999, so ist davon auszugehen, dass große Teile dieser Arbeit aus der Encarta, die leider nicht online ist, übernommen wurden. Der Aufsatz war 26 Seiten lang, drei gefundene Absätze hätten nicht zu einem nicht bestanden geführt, aber hätten schon die Note verschlechtert.

In vier der fünf Fälle hätte die Suche von Hand mit Google ausgereicht, um genügend Plagiat zu finden, um den Studierenden durchfallen zu lassen und wäre auch viel schneller gewesen. Für den fünften Fall hat das System einen kleineren Teil Plagiat gefunden, das nicht von Hand gefunden wurde.


Stellungnahme des Herstellers


Screenshots

Screenshot 1: Viele Formularfelder sind auszufüllen, bevor man einreichen kann


Screenshot 2: Man hat oft übermässig viele Auswahlmöglichkeiten


Screenshot 3: Verwunderlich, wo dieser Name herkommt, da wir selber den Namen richtig eingegeben haben

Screenshot 4: Zusammenfassung der Ergebnisse

Screenshot 5: Eine Fundstelle. Beachte die zweite Zeile der Aufsatz: „andpractices“, in der Quelle „and practices“


Firmenwerbung

„“


Links

offizielle Website http://www.profnet.de/hs