Zur Seitenansicht
 

Titelaufnahme

Titel
Intrinsic plagiarism detection and author analysis by utilizing grammar / Michael Tschuggnall
VerfasserTschuggnall, Michael
Begutachter / BegutachterinSpecht, Günther ; Augsten, Nikolaus
Betreuer / BetreuerinSpecht, Günther
Erschienen2014
UmfangXI, 176 S. : Ill., graph. Darst.
HochschulschriftInnsbruck, Univ., Diss., 2014
Anmerkung
Zsfassung in dt. Sprache
Datum der AbgabeSeptember 2014
SpracheEnglisch
Bibl. ReferenzOeBB
DokumenttypDissertation
Schlagwörter (DE)Plagiaterkennung / Autorenerkennung / Alter- und Geschlechtserkennung / Grammatikanalyse / Data Mining / Verarbeitung natürlicher Sprachen
Schlagwörter (EN)plagiarism detection / authorship analysis / age and gender profiling / grammar analysis / data mining / natural language processing
Schlagwörter (GND)Plagiat / Data Mining / Stilistik / Autor
URNurn:nbn:at:at-ubi:1-1388 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Intrinsic plagiarism detection and author analysis by utilizing grammar [8.47 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Die Anzahl an frei verfügbaren Textdokumenten ist in den letzten Jahren aufgrund des enormen Aufschwungs des Internets erheblich gestiegen. Eine der Konsequenzen ist, dass Quellen für mögliche Plagiate leicht gefunden werden können, während es auf der anderen Seite für automatische Erkennungstools aufgrund der großen Datenmengen immer schwieriger wird, Plagiate zu erkennen. Zudem sind Quellen oft nicht in digitaler Form vorhanden, was für Tools, die auf Vergleiche mit bekannten Dokumenten basieren, ein unlösbares Problem darstellt. Andererseits können geübte menschliche Leser verdächtige Passagen oft über eine intuitive Stilanalyse ausfindig machen.

In dieser Arbeit werden verschiedene Algorithmen zur intrinsischen Plagiatserkennung entwickelt, welche ausschließlich das zu prüfende Dokument untersuchen und so das Problem umgehen, externe Daten heranziehen zu müssen. Dabei besteht die Grundidee darin, den Schreibstil von Autoren auf Basis der von ihnen verwendeten Grammatik zur Formulierung von Sätzen zu untersuchen, und diese Information zu nutzen, um syntaktisch auffällige Textfragmente zu identifizieren. Unter Verwendung einer ähnlichen Analyse wird diese Idee auch auf das Problem, Textdokumente automatisch Autoren zuzuordnen, angewendet. Darüber hinaus wird gezeigt, dass die verwendete Grammatik auch ein unterscheidbares Kriterium darstellt, um Informationen wie das Geschlecht und das Alter des Verfassers abzuschätzen. Schlussendlich werden die vorherigen Analysen und Resultate verwendet und so adaptiert, dass Anteile von verschiedene Autoren in einem gemeinschaftlich verfassten Text automatisch erkannt werden können.

Zusammenfassung (Englisch)

With the advent of the world wide web the number of freely available text documents has increased considerably in the last years. As one of the immediate results, it has become easier to find sources that serve as the basis for plagiarism. On the other side, it has become harder for detection tools to automatically expose plagiarism due to the huge amount of possible origins. Moreover, sources may even not be digitally available, resulting in an unsolvable problem for such tools, whereas experienced human readers might find suspicious passages based on an intuitive style analysis.

In this thesis, intrinsic plagiarism detection algorithms are proposed which operate on the suspicious document only and circumvent the problem of incorporating external data. The main idea is thereby to analyze the style of authors in terms of the grammar that is used to formulate sentences, and to expose significantly outstanding text fragments according to the syntax, which is represented by grammar trees. By using a similar style analysis, the idea has also been applied to the problem of automatically assigning authors to unseen text documents. Moreover, it is shown that grammar also serves as a distinguishing feature to profile an author, namely to predict his/her gender and age. Reusing all previous analyses and results, the idea has finally been adapted in order to be used to automatically detect different authorships in a collaboratively written document.