Text & Emotion Mining

GATE

Testaufbau

Beispiel

Download

Text & Emotion Mining

Data Mining, zu Deutsch die "Datenschürfung", bezeichnet den Prozess, nützliches Wissen in Datenbanken zu finden und daraus Regeln abzuleiten. Der damit verwandte Begriff Text Mining sucht dieses Wissen in Daten, die in Textformat vorliegen. Ein Unterbegriff davon ist wiederum Opinion Mining, das wohl am besten mit "Meinungsschürfung" zu übersetzen ist. Dabei wird auch genauso häufig von Sentiment Analysis gesprochen, das synonym dazu verwendet wird.

Opinion Mining ist in einer Zeit, in der Internetzugang und Onlinebestellungen alltäglich sind, sehr gefragt. Z.B. wollen Hersteller wissen, auf welcher der unzähligen Webseiten ihr Produkt eine gute Rezension erhalten hat, um dort ein Werbefenster für eben dieses einzublenden. Falls die Meinung über das Produkt jedoch nicht gut ausfällt, wäre das vielleicht keine so gute Idee. Ebenso möchten Kosumenten wissen, wo positive und negative Meinungen über ein für sie interessantes Produkt zu finden sind.

Diese Arbeit beschreibt einen weiteren Aspekt, der analog zu den genannten Termini Emotion Mining genannt wird. Hierbei geht es nicht nur darum, ob ein vorliegender Text positive oder negative Worte enthält, sondern um seine Emotionalität. Dabei wird mit dem Affektiven Diktionär Ulm (ADU) gearbeitet (zur Verfügung gestellt von der Uni Ulm), ein Wörterbuch mit emotionalen Wörtern. Diese sind unterteilt in acht bzw. zwölf Kategorien:

  1. Liebe
  2. Begeisterung
  3. Zufriedenheit und Erleichterung
  4. Freude und Stolz
  5. Zorn
  6. Furcht
  7. Depressivität und Schuld
  8. Ängstlichkeit und Scham
Es enthält ausschließlich Substantive und Adjektive aber keine Verben, da sich diese als zu stark kontextabhängig erwiesen.

GATE (General Architecture for Text Engineering)

GATE ist ein führendes Toolkit für Text Mining, geschrieben in Java. Hier wurde mit dem Annotations-Tool gearbeitet. Dazu wurde die im Softwarepaket mitgelieferte "german.gapp" Datei geladen und mit ihr einige für die deutsche Sprache vordefinierten Processing Resources (PR). Die für die Arbeit veränderten PRs sind zum einen der "OntoGazetteer", mit dem Instanzlisten von Ontologiekonzepten geladen werden können, sowie der "Jape Transducer", der zum Manipulieren von Annotationen dient.

Testaufbau

Es wurden elf emotionale und elf nicht-emotionale Texte ausgesucht, die persönlich und subjektiv so eingestuft wurden. Letztere sind vorrangig aus Onlinezeitungen bzw. sind sie häufig technischer Natur. Der Grund dafür ist, emotionalen Wörtern möglichst auszuweichen. Die sachlichen Texte sollten zeigen, wie häufig emotionale Wörter unbewusst oder auch unbeabsichtigt in den Sprachgebrauch einfließen. Die in GATE geladenen Dateien wie lists.def wurden abgeändert um den Gefühlswörtern, die in eigenen .lst Dateien gespeichert wurden, zu genügen. Weiters wurden noch .jape Dateien erstellt, um in den Annotationen Gefühlswörter eigens hervorzuheben.

Beispiel

Die in einzelne .lst Dateien aufgeteilten Emotionswörter werden in einer lists.def Datei gespeichert, die in einem Gazetteer geladen wird.

german gazetter


Das zu annotierende Textdokument wird geladen und damit ein Korpus erstellt.

corpus


In der Application german NE wird auf den Button Run geklickt und damit der Text annotiert. Das Ergebnis kann mit Hilfe der Annotation Sets bzw. der Annotations betrachtet werden.

annotiert



Download

Elisabeth Weigl. Emotionen in deutschen Texten - ein quantitativer Ansatz mit GATE, Bachelorarbeit, TU Wien, Oktober 2008. [PDF] [Presentation]

Analysierte Texte: Emotionen-Texte.zip

"Emotionen in deutschen Texten - ein quantitativer Ansatz mit GATE" sowie der Inhalt dieser HTML-Seite steht unter einer Creative Commons Namensnennung-Keine kommerzielle Nutzung-Weitergabe unter gleichen Bedingungen 3.0 Österreich Lizenz.

created 23.10.2008 by Elisabeth Weigl