Zum Inhalt der Seite



Meine Diplomarbeit (Dom Dinge, Uni)

Wer mich bei Twitter stalkt und in meinem Blog ein bisschen zwischen den Zeilen liest weiß, dass ich derzeit an meiner Diplomarbeit arbeit. Und da das elende Ding, das zwischen mir und meinem Reichtum Uni-Abschluß steht, gegenwärtig einen Großteil meiner Zeit in Anspruch nimmt und der primäre Grund dafür ist, warum seit September die Anzahl der Bloganträge so drastisch zurück gegangen ist, dacht ich mir, ich stell euch meine Arbeit hier einfach mal vor.

Ich will versuchen es einfach zu halten und einfach nur eine kurze Übersicht über das geben, was ich gerade mache. Denn wie es nun mal die Natur von Diplomarbeiten (und ähnlichem) ist, steckt man tief im Thema drin und jeder andere denkt "Aha, okay... gut, du musst durch das Thema durch und dich beweisen, aber mich interessiert das Eichhörnchen da drüben gerade viel mehr" (Persönlich bin ich jedenfalls bis heute noch nicht tief in das Abschlußthema einer anderen Person eingetaucht).

Aber zur Sache:

Meine Thema trägt den schönen Titel An Adaptive Rule-Based Framework for Anaphora Resolution und ist dem Themenbereich Computerlinguistik zugeordnet.

Klingt unglaublich hochgestochen, aber so läuft's in der Wissenschaft. Keine Titel ohne zwei überflüssige Adjektive. Schließlich muss ein Leser schon beim Anblick des Titels das Gefühl haben demnächst mit einem komplizierten Sachverhalt konfrontiert zu werden. Damit will ich jetzt nicht sagen, dass mein Thema zwar kompliziert verpackt aber eigentlich trivial ist, aber frei von Umwelteinflüssen hätte ich wohl einen schlichteren Titel gewählt.

Im Klartext geht's bei mir darum eine Software zum Auflösen von Anaphern in englischen Texten zu entwickeln. In diesem Zusammenhang ist mit Anaphern nicht das sprachliche Stilmittel sondern um Elemente der Anaphorik.

Da ein Beispiel manchmal mehr sagt als tausend Wikipedia-Artikel, hier einfach das Standardbeispiel beim uns am Lehrstuhl:

Der Gärtner arbeit im Garten. Er trägt einen grünen Hut.

Wie jedem, der lesen kann, klar ist: Das "Er" (Anapher) im zweiten Satz bezieht sich auf den "Gärtner" (Antezedent) im ersten Satz. Und genau darum geht's. Ein Programm schreiben, dass in einem Text all solche Zusammenhänge erkennt und markiert.

Da es um englische Texte geht, hier unser zweites Standardbeispiel:

Timmy has saved some money. He wants to buy a book, but not for himself. It is a present for his sister.

Anaphern hier sind "He", "himself" und "his" bezogen auf "Timmy" und "it" bezogen auf "a book".

Es geht also nicht nur um Personalpronomen wie he/she/it, sondern so ziemlich alles was eine Referenz auf andere Satzteile enthält wie himself, those, his/hers/its etc. (Possesivpronomen, Reflexsivpronomen, Demonstrativpronomen, ...).

Wenn wir einen Text lesen verstehen wir solche Zusammenhänge einfach, weil wir von klein auf unsere menschliche(n) Sprache(n) verwenden und ein natürliches Gefühl für die Semantik haben. Bei einem Computer geht das nicht. Wenn der etwas verstehen oder bearbeiten soll, braucht er Regeln dafür. Aber dazu komm ich noch.

Ausgedacht hab ich mir das Thema natürlich nicht. Ich arbeite schon ein Jahr als Hiwi in einer Forschungsgruppe, die sich mit dem Thema beschäftigt und daraus ist dann auch meine Diplomarbeit erwachsen.

Ein grober, schematischer Aufbau meines Frameworks sieht wie folgt aus:

Ein WorkFlow-Diagramm ("was wann passiert") hätte ich auch noch, aber das ist schon nicht mehr aktuell. Vielleicht liefere ich ein neues mal nach.

Für mich bestehen jedenfalls die folgenden Baustellen:

Die GUI: GUI steht für Graphical User Interface (oder wie ein Professor von mir es mal nannte: Bunti-Klicki) und ist einfach die Benutzeroberfläche, die die Bedienung des ganzen erleichtern soll. Zum Erstellen gibt es mittlerweile Tools ("per Hand" ist das durchaus lästig) und das Anbinden an die Kernfunktionen ist Informatiker-Handwerkszeug. Im ganzen also der harmloseste Teil der Arbeit.

Der Importer: Nachdem das Programm die zu analysierende Texte eingelesen hat, müssen diese zur anstehenden Analyse mit einigen gramatikalischen Information (Satzstruktur, Kasus und Genues von Nominalphrasen) ausgestattet werden, die dem Computer beim verstehenden Lesen helfen. Ganz im Sinne von "Auf den Schultern von Giganten..." gibt es hierfür zum Glück schon vorgefertigte Frameworks deren Funktionalität ich mir zur Nutze machen kann.

Die Regel-Engine: Hier steckt die Hauptarbeit drin. Die Regeln zum Auflösen von Anaphern, die ich von der Linguistin, um deren Arbeit sich die ganze Forschungsgruppe dreht bekomme, müssen in einem dem Computer verständliches-Format gebracht werden. Zu dem muss das Format der Regeln der Art sein, dass es in Zukunft (sprich, wenn ich fertig damit bin, aber der Lehrstuhl noch lange nicht) möglich ist, weitere Regeln zu entwerfen, die die Software immer noch versteht. Momentan arbeite ich an einem XML-Format, dass das ermöglichen soll. Hier steckt die wissenschaftliche Hauptarbeit  und das Adaptive Rule-Based aus dem Titel drin.

Die Heuristiken: Unsere Sprache ist mehrdeutig. Wir wissen aber meistens, wann sich etwas auf was anderes bezieht und wie wir entsprechend filtern müssen. Ein Computer nicht. Um solche Doppeldeutigkeite sinnvoll aufzulösen und für den Fall das es mehre Antezedenten-Kandidaten für eine Anapher zur Auswahl gibt, braucht es Heuristken. Diese sollen auch für die Zukunft austausch- und erweiterbar sein.

Der Core: Hier arbeitet schließlich der Hauptalgortihmus, der die Texte und alle zugehörigen Informationen nimmt, die Regeln darauf anwendet und ein annotiertes Dokument (ebenfalls in XML) zurück gibt.

Annotator und Evaluator: Die Extra-Features, die mehr aus Zuge meines Hiwi-Jobs entstanden sind, aber dennoch Teil des Frameworks werden. Der Annotator ist einfach ein spezieller WYSIWYG-Editor zum händischen Erstellen von Musterlösungen und der Evaluator vergleicht analysierte Texte mit eben diesen Musterlösungen, um die Güte der Regeln und des Algorithmus zu messen.

Das ist dann also meine Diplomarbeit. Ich nehm an, die meisten müssen mir das jetzt einfach glauben, aber es ist nicht gerade wenig Arbeit. Oft beklag ich mich darüber und es nervt mich auch, dass ich - außer Kino-bezogenes - kaum noch zum bloggen komme, aber wenn ich damit fertig bin, hab ich was geschaffen, auf das ich ein bisschen stolz sein kann.

Achja, die wahrscheinlich wichtigeste Frage noch zum Schluß:

Wozu zur Hölle braucht man das eigentlich?

Nunja, aktuell ist die Anwendung wohl am sinnvollsten beim Einsatz im Bereich Information-Retrievel beim Bewerten von Dokumenten und Erstellen von zugehörigen Rankings (Oder einfach: Damit könnte man Google z.B. noch effizienter gestalten). Aber wenn man mal ein bisschen in die Science Fiction abdriften will: Wenn wir uns irgendwann fließend mit Computern/Robotern unterhalten wollen, müssen die auch irgendwie wissen, wie sie unser Sprache verstehen können. Dazu braucht's auch sicher eine derartige Technologie ;)

So, ich hoffe der kleine Einblick in meine Diplomarbeit hat euch gefallen und ihr seid nicht alle gelangweilt beim ersten Absatz ausgestiegen.

Ein schönen Start in die neue Woche, wünsche ich.
NTL

22.11.2009 18:58 Verlinken
Avatar
Datum: 22.11.2009 21:19
interessant!

Ich hab jetzt die technischen Details nicht alle gelesen, weil ichs eh nicht verstehen würde, aber es ist definitiv interessant - besonders da meine Schwester ebenfalls in dem Bereich arbeitet, allerdings von der anderen Seite, sie ist Linguistin und hat im Nebenfach Informatik gemacht und beschäftigt sich eben auch mit Sprache->Computer-Themen^^

Viel erfolg noch mit der Diplomarbeit!

Aza^^
Sorry you can't define me - Sorry I break the mold - Sorry that I speak my mind - Sorry don't do what I'm told - Sorry if I don't fake it - Sorry I come too real - I will never hide what I really feel [christina aguilera]
Avatar
Datum: 22.11.2009 23:48
Danke für den interessanten Einblick :)

Ich denke mal mit Science Fiction hat das inzwischen kaum mehr was zu tun.

Sowas dürfte ja auch schon sehr bei der (gefühlt) recht simplen Übersetzung von Texten helfen, die ja leider afaik wenig Fortschritte macht.
Ja mata,
Tobias/Galileo - Animexx Mitgliederbetreuung
Avatar
Datum: 24.11.2009 12:09
Sweet Jesus, I love dem SCIENCEtists!
(will sagen: interessant)


Zum Weblog