WWW.ABSTRACT.XLIBX.INFO
FREE ELECTRONIC LIBRARY - Abstract, dissertation, book
 
<< HOME
CONTACTS



Pages:   || 2 | 3 |

«Georg Rehm 1 Einleitung Der breite Einsatz computerlinguistischer Verfahren in Projekten zur Bewältigung der häufig zitierten Informationsflut ...»

-- [ Page 1 ] --

Ontologie-basierte Hypertextsorten-Klassifikation

Georg Rehm

1 Einleitung

Der breite Einsatz computerlinguistischer Verfahren in Projekten zur Bewältigung der häufig zitierten Informationsflut beschränkt sich bislang meist auf

Vorverarbeitungsprozesse (z.B. Wortstammreduktion oder Wortartenannotation

zur Verbesserung von Information Retrieval-Algorithmen) oder klassische Anwendungen wie das automatische Textzusammenfassen oder die maschinelle

Klassifikation eines Webdokuments in ein thematisches Kategoriensystem.

Dieser Beitrag stellt das Projekt Hypnotic (Hypertexts and their Organisation into a Taxonomy by means of Intelligent Classification) vor, in dem der Ansatz verfolgt wird, mit texttechnologischen und computerlinguistischen Verfahren HTML-Dokumente abstrakten Hypertextsorten zuzuordnen. In einem zweiten Schritt sollen – primär basierend auf dem Wissen, dass eine bestimmte Hypertextsorte vorliegt – generische Prozesse zur Informationsextraktion ausgeführt werden, um gezielt auf atomare und modulare Informationseinheiten, die in einem Dokument enthalten sind, zugreifen zu können. Zur Repräsentation und Manipulation der Informationen werden XML-basierte Formate und Standards eingesetzt.

Robuste Methoden zur automatischen Bestimmung von Hypertextsorten ermöglichten eine völlig neue Funktionalität für Suchmaschinen, indem der Benutzer die Möglichkeit erhielte, neben verschiedenen Stichwörtern auch die gewünschte(n) Hypertextsorte(n) der zu findenden Dokumente zu spezifizieren, beispielsweise,,Texttechnologie“ und,,XSLT“ in den Hypertextsorten persönliche Homepage eines Wissenschaftlers und Wissenschaftlicher Artikel. Auf diese Weise könnten Web-basierte Suchmaschinen unerwünschte Dokumente ausschließen, indem HTML-Dokumente mit abweichenden Hypertextsorten nicht in die Treffermenge aufgenommen werden. Wie bei vielen textlinguistisch untersuchten Textsorten (z.B. Kochrezept, Memorandum etc.) besitzen auch die Instanzen zahlreicher Hypertextsorten einen äußerst regulären Aufbau, so dass durch die Kenntnis der Hypertextsorte eines gegebenen Dokuments neuartige Analyse- und Explorationsmöglichkeiten entstehen.

Dieser Artikel stellt grundlegende Konzepte und Methoden des Projekts Hypnotic vor. Abschnitt 2 geht auf Aspekte der automatischen Erkennung ein, woraufhin Abschnitt 3 den modularen Aufbau von Hypertextsorten thematisiert.

Abschließend werden exemplarisch die Ergebnisse einer Stichprobenanalyse dargestellt (Abschnitt 4). Ein zweiter Beitrag (Rehm, in diesem Band) diskutiert 122 Georg Rehm vorwiegend Technologie-bezogene Aspekte des Projekts, stellt die HypnoticKorpusdatenbank vor, die ca. 4 Mio. deutschsprachige Dokumente der Webserver deutscher Hochschulen enthält, und geht auf den Aspekt der generischen Informationsextraktion ein.

2 Zur automatischen Erkennung von Hypertextsorten Ein grundlegendes Ziel des Hypnotic-Systems soll es sein, in der Korpusdatenbank (vgl. Rehm 2001 und Rehm, in diesem Band) enthaltene HTML-Dokumente in eine hierarchisch angeordnete Ontologie von Hypertextsorten zu klassifizieren. Im Folgenden wird das Konzept der modular aufgebauten Hypertextsorten erläutert, an dessen Konstituenz unterschiedliche Ontologien beteiligt sind (Abschnitt 3). Abschnitt 4 stellt exemplarisch die Ergebnisse einer Stichprobenanalyse von 100 Dokumenten vor, die der Hypertextsorte persönliche Homepage eines Wissenschaftlers zugehörig sind. Zunächst wird jedoch eine Sammlung von Klassifikationsmerkmalen thematisiert, die in dem Hypnotic-System eingesetzt werden sollen und mit dem derzeitigen Stand der Kunst der maschinellen Klassifikation von Dokumenten in Text- bzw. Hypertextsorten kontrastiert.

Da die Hypertextsorten-Ontologie für die Domäne der Webserver deutscher Hochschulen bislang noch nicht abschließend spezifiziert wurde, betrachten wir die zugehörige Klassifikationskomponente derzeit als black box. In das Verfahren müssen jedoch neben dem in einem Dokument enthaltenen Text (bzw. Textfragmenten) auch strukturelle Merkmale einfließen. Dies zeigen vorläufige Resultate mit einem Modul, das auf manuell klassifizierten Trainingsdaten basiert und die Lernverfahren Naive Bayes sowie k Nearest Neighbour einsetzt. Für den Test wurden ca. 800 Dokumente als Trainingsgrundlage benutzt, die 80 flach angeordneten Hypertextsorten zugeordnet wurden. Etwa 500 unbekannte Dokumente wurden daraufhin automatisch klassifiziert, wobei die Präzision jedoch nur ca. 40% beträgt (bei einem Recall von etwa 60%).

Durch Einbeziehung struktureller Eigenschaften sollte es möglich sein, diese Werte deutlich zu steigern. Hierzu wurden zahlreiche Merkmale gesammelt, deren konkrete Belegung für ein gegebenes Dokument in einer Weise extrahiert werden muss, die mit dem in Rehm (in diesem Band) dargestellten Ansatz zur Informationsextraktion vergleichbar ist und daher vermutlich auf den Ergebnissen der generischen Strukturanalyse basieren wird (vgl. hierzu Abb. 1 in Rehm, in diesem Band).

Der konkrete Einsatz der Klassifikationsmerkmale ist sehr stark von weiteren empirischen Analysen abhängig, weshalb derzeit noch keine Angaben über eine tatsächliche Implementierung sowie die Gewichtung einzelner Merkmale für die Klassifikationsaufgabe gemacht werden können.

Da eine detaillierte Darstellung der Merkmale den Rahmen dieses Beitrags sprengte, sollen ledigOntologie-basierte Hypertextsorten-Klassifikation lich Beispiele die grobe Vorgehensweise skizzieren (siehe hierzu auch Rehm 2002b):





Metadaten – URL eines Dokuments (beispielsweise ein ~-Zeichen, verschiedene,,sprechende“ Datei- oder Personennamen, vgl. Heißing 2000), HTTP Header (u.a. Last-Modified und Set-cookie), Dokumentgröße (in Bytes), Titel, Inhalt von meta Elementen etc.

HTML-Struktur – Globale Struktur des HTML-Elementbaums, bezieht u.a. mit

ein:

Hyperlinks in einem Dokument bzw. einer Gruppe von Dokumenten – Anzahl der Links, interne (zur gleichen Seite, zur Dokumentgruppe, zum gleichen Server, zu einem anderen Server innerhalb der gleichen Organisation) vs. externe Hyperlinks, Hypertextstruktur, Methode (HTTP, HTTPS, FTP etc.), Dateityp des Linkziels, Hypertextsorte des Ziels, Dateiname, Hyperlinkbezeichnung, Funktion (Haas/Grams 1998) und Position eines Links etc.

Inline-Graphiken – Abmessungen von Graphiken (vgl. Rehm, in diesem Band), Datei- und Verzeichnisname, Inhalt, alternative Beschreibung, Format, Anzahl von Graphiken etc.

Interaktive Elemente – HTML Formulare, JavaScript, Plug-Ins, Java Applets etc.

Linguistische Merkmale – Part-of-Speech-Frequenzen, Anzahl der Wörter und Sätze, Interpunktion, spezielle sprachliche Ausdrücke und Schlüsselwörter (an u.U. Hypertextsorten-spezifischen Positionen; Beispiele befinden sich u.a. in Rehm 2003, Roussinov et al. 2001, Toms/Campbell 1999, Haas/Grams 2000, de Saint-Georges 1998), Einordnung in ein Kontinuum, dessen Pole konzeptionelle Schriftlichkeit und konzeptionelle Mündlichkeit darstellen (hierzu Rehm 2003, Haase et al. 1997, Koch/Oesterreicher 1994).

Dokumentübergreifende Merkmale – Rekurrenz einzelner Hypertextsortenmodule (hierzu gehören z.B. Logos, Kopf- oder Fußzeilen), Position eines Dokuments bzgl. der Hypertextstruktur einer Dokumentgruppe (Wurzelknoten, Blattknoten) etc.

Dass eine maschinelle Textsorten-Klassifikation prinzipiell zufriedenstellende Ergebnisse liefert, zeigen u.a. Karlgren/Cutting (1994) und Kessler et al.

(1997): Mit statistischen Verfahren werden Texte aus dem Brown Corpus in zwei bis vier Kategorien (z.B. press, non-fiction, fiction, misc. bei Karlgren/ Cutting 1994) klassifiziert. Kessler et al. (1997) geben für ein sehr ähnliches Verfahren eine Präzision von 90% an. Bretan et al. (1998) benutzen zahlreiche 124 Georg Rehm statistische Merkmale, die vornehmlich lexikalischer Natur sind, um einen C4.5-basierten Klassifikator (Quinlan 1993) zu trainieren, der Webseiten in die Kategorien informal/private, public/commercial, journalistic materials, reports, other texts, interactive pages, discussions, link collections, FAQs und other listings and tables einsortieren soll. Das Anwendungsszenario ist dabei die Hypertextsorten-getriebene Visualisierung der Ergebnisse einer Suchmaschine.

Matsuda/Fukushima (1999) analysieren strukturelle Charakteristika von Webdokumenten, um Suchaufgaben im Kontext des Problemlösens zu unterstützen, wobei zur Berechnung eines,,Dokumenttyps“ (erkannt werden product catalogue, online shop, advertisement, call for paper, links, FAQ, glossary, bulletin board und home page) gewichtete, deskriptive Regeln eingesetzt werden. Die Autoren geben an, dass die Suche nach Dokumenttypen in konkreten Problemlösungsszenarien eine durchschnittliche Präzision von 88,9% aufweist, wohingegen die schlichte Suche nach Schlüsselwörtern lediglich 31,2% ergibt. Asirvatham/Ravi (2001) klassifizieren Dokumente in die Kategorien information page, research page und personal home page, wobei sowohl strukturelle als auch visuelle Merkmale, die aus eingebetteten Bildern gewonnen werden, in die Berechnung einfließen, die als Vergleich von Matrizen realisiert ist; die Autoren geben eine Präzision von etwa 87,8% an. Rauber/Müller-Kögler (2001) setzen eine automatische Genre-Analyse zur Visualisierung des Inhalts digitaler Bibliotheken ein. Hierbei wird eine Treffermenge als ein Bücherregal dargestellt, wobei das Aussehen eines Buches (Farbe, Form, Position im Regal, Stärke der Staubschicht etc.) u.a. das korrespondierende Genre und den letzten Zugriff repräsentiert; die Klassifikation findet mit Hilfe selbstorganisierender Karten statt, deren Eingabedaten aus Merkmalen bestehen, die auf die strukturelle und formatbezogene Heterogenität der Inhalte digitaler Bibliotheken zurückzuführen sind. Stamatatos et al. (2001) führen mit Hilfe von Worthäufigkeiten sowie Interpunktion eine Klassifizierung von griechischen Webdokumenten bzgl. Textsorte (u.a. press editorial, reportage, academic prose, literature und recipes) und Autorschaft durch. Eine Prämisse des Verfahrens ist, dass einzelne Kategorien in stilistischer Form homogen sein müssen. Insgesamt 22 Merkmale, die den jeweiligen Stil eines Textes markieren, werden aus den Ausgaben eines Werkzeugs berechnet, das u.a. Satzgrenzen bestimmt und ein partielles Parsing vornimmt. Die Klassifikation erfolgt primär mit Hilfe statistischer Methoden (multiple Regression sowie Diskriminanzanalyse). Als durchschnittliche Fehlerrate bei Tests mit jeweils 25 Dokumenten für 10 Genres geben die Autoren für beide Verfahren 0,18 an. Die Experimente von Finn et al.

(2002) bzgl. der Aufgabe, Nachrichtenartikeln die Eigenschaften Reportage bzw. Kommentar mit Hilfe von Entscheidungsbäumen zuzuweisen, deuten darauf hin, dass eine Part-of-Speech-Repräsentation der Dokumente präzisere Resultate erbringt als ein purer,,bag of words“ Information-Retrieval-Ansatz oder eine Sammlung verschiedener linguistischer Eigenschaften eines Textes.

Ontologie-basierte Hypertextsorten-Klassifikation Bei der Evaluation mit unterschiedlichen Domänen (Fußball, Politik, Wirtschaft) schwankt die Präzision der eingesetzten Repräsentationen zwischen 60 und 90%. Bae-Lee/Myaeng (2002) benutzen Inhalts-spezifische Merkmale und ihre Gewichtungen für erweiterte tf idf-Statistiken, die mit Genre-spezifischen Merkmalen und Gewichtungen komplementiert werden. Auf diese Weise können in 533 persönlichen Homepages (dies stellt zugleich eines der betrachteten Genres dar), die in die inhaltlichen Kategorien student, teacher/professor, company/employee und celebrity partitioniert wurden, sowohl Genre- als auch Inhalts-spezifische Wörter aufgedeckt werden, wodurch eine Präzision von bis zu 90% erreicht wird. Dewdney et al. (2001) komplementieren ebenfalls eine thematische Analyse mit der Detektion von Genres (ads, bulletin board, F.A.Q., message board, radio, retuers, TV), die auf 89 verschiedenen Merkmalen basieren, wobei Support Vector Machines (SVM), Naive Bayes und C4.5 als Klassifikationsverfahren eingesetzt werden. Die Kombination der Eigenschaften,,Thema“ und,,Genre“ erreicht mit dem SVM-Klassifikator eine Präzision von 92%.

Die genannten Arbeiten zeigen zwar eine prinzipielle Realisierbarkeit der Klassifizierung von Dokumenten bzgl. ihrer Text- bzw. Hypertextsorte, jedoch müssen zahlreiche Fragestellungen genauer untersucht werden, beispielsweise die Skalierung dieser Verfahren, die lediglich von zwei bis zehn unterschiedlichen Sorten ausgehen, auf Hypertextsorten-Schemata, die mehrere Dutzend, evtl. sogar hierarchisch strukturierte Kategorien enthalten. Aus (text)linguistischer Sicht ist die Frage der Definition einer Hypertextsorte sowie ihre Abgrenzung von anderen Sorten von immenser Bedeutung, da hierdurch unmittelbar die Menge der Merkmale sowie ihr gewichteter Einfluss auf die Klassifikationsaufgabe computerlinguistisch motiviert wird; meines Wissens gehen Überlegungen dieser Art bislang nicht in existierende Prototypen ein, weshalb derartige theoretische Fragestellungen im Projekt Hypnotic bewusst im Zentrum stehen.1

–  –  –



Pages:   || 2 | 3 |


Similar works:

«Discrete Mathematics 307 (2007) 1609 – 1620 www.elsevier.com/locate/disc A method of finding automorphism groups of endomorphism monoids of relational systems João Araújoa, b, Janusz Koniecznyc a Universidade Aberta, R. Escola Politécnica, 147, 1269-001 Lisboa, Portugal b Centro de Álgebra, Universidade de Lisboa, 1649-003 Lisboa, Portugal c Department of Mathematics, University of Mary Washington, Fredericksburg, VA 22401, USA Received 21 September 2004; received in revised form 16...»

«Frank Zöllner: Leonardo da Vinci. The Complete Paintings and Drawings. Köln 2003. Life and Work I The young artist in Florence 1469–1480 Amongst the great figures of the Italian Renaissance, Leonardo da Vinci remains one of the most enigmatic of them all. Although he has bequeathed to us the most extensive body of writings of any artist of his generation, rarely amongst these thousands of pages of manuscript do we find references to his personal opinions and feelings. We do not even have a...»

«74 / 2011–2012 Mitteilungen der Winckelmann-Gesellschaft Im Auftrag der Winckelmann-Gesellschaft herausgegeben von Eva Hofstetter und Markus Käfer Inhaltsverzeichnis Zu diesem Heft Winckelmanns Person, Leben, Werk und Aus der Arbeit der Gesellschaft: Bericht LykienexkurTod sind nach wie vor Thema in der Schösion. Kolloquium Madrid. Doris Oberleiter: Treffen mit nen Literatur. Bisher nur wenig oder gar dem Freundeskreis des Deutschen Archäologischen Inunbeachtet lassen sich nun die...»

«POPE SHENOUDA III COPTIC THEOLOGICAL COLLEGE SYDNEY, AUSTRALIA LECTURES IN PATROLOGY THE SCHOOL OF ALEXANDRIA Book two ORIGEN Preparatory edition FR. TADROS Y. MALATY St. Mark's Coptic Orthodox Church 427 West Side Ave. Jersey City, NJ 07304 English text is revised by ROSE MARY HALIM Origen Origen THE DEANS OF THE SCHOOL OF ALEXANDRIA ORIGEN His Life HIS LIFE St. Didymus the Blind, the head of the School of Alexandria in the latter half of the fourth century, described Origen as “the greatest...»

«SUNSET DEBRIS Ron Silliman Can you feel it? Does it hurt? Is this too soft? Do you like it? Do you like this? Is this how you like it? Is it alright? Is he there? Is he breathing? Is it him? Is it near? Is it hard? Is it cold? Does it weigh much? Is it heavy? Do you have to carry it far? Are those the hills? Is this where we get off? Which one are you? Are we there yet? Do we need to bring sweaters? Where is the border between blue and green? Has the mail come? Have you come yet? Is it perfect...»

«Emily L. Moore University of California, Berkeley 1525 Spruce St. #21 Berkeley, CA 94709 Chilkat Tunics: Toward a Reassessment of the Configurative Compared to the scholarship devoted to Chilkat blankets, Chilkat tunics remain relatively unstudied. George T. Emmons devoted a total of five paragraphs to the tunic in his 1907 monograph on the Chilkat Blanket; Franz Boas, in his notes to Emmons’ text, added a sixth, and slightly disparaging, paragraph on what he considered the “degeneration”...»

«UNIVERSIDADE DO ALGARVE INSTITUTO SUPERIOR DE ENGENHARIA ADAPTIVE ERROR-PREDICTION AGING SENSOR FOR SYNCHRONOUS DIGITAL CIRCUITS SENSOR DE ENVELHECIMENTO COM PREVISÃO DE ERROS ADAPTATIVA PARA CIRCUITOS DIGITAIS SÍNCRONOS Celestino Virtudes Dias Martins Dissertation for obtaining the Master of Science degree in Electrical and Electronic Engineering Specialization in Information and Telecommunications Technologies Tutor: Professor Doutor Jorge Filipe Leal Costa Semião October, 2012 ii...»

«MASTERARBEIT Titel der Masterarbeit “Optimization model for the planning of a regional waste management system” verfasst von Daniil Shulman angestrebter akademischer grad Master of Science (MSc) Wien, 2014 Studienkennzahl lt. Studienblatt: A 066 914 Studienrichtung lt. Studienblatt: Masterstudium Internationale Betriebswirtschaft UG2002 Betreut von: ao. Univ.-Prof. Mag. Dr. Andreas Novak OPTIMIZATION MODEL FOR THE PLANNING OF A REGIONAL WASTE MANAGEMENT SYSTEM EIDESSTATTLICHE ERKLÄRUNG Ich...»

«gen istun len lerle tiona chü rna S inte im leich Verg ür nf zeptio on hmenk issen a neue R von W Eine g rfassun ten die E igkei h und Fä OECD PROGRAMME F O R I N T E R N AT I O N A L STUDENT ASSESSMENT SCHÜLERLEISTUNGEN IM INTERNATIONALEN VERGLEICH Eine neue Rahmenkonzeption für die Erfassung von Wissen und Fähigkeiten Herausgeber der deutschen Fassung: Deutsches PISA-Konsortium Herausgeber der englischen und französischen Originalfassung: OECD OECD PROGRAMME FOR INTERNATIONAL STUDENT...»

«Orthographic Influences on Sublexical Processing Item type text; Electronic Dissertation Authors Suddarth, Rachael Publisher The University of Arizona. Rights Copyright © is held by the author. Digital access to this material is made possible by the University Libraries, University of Arizona. Further transmission, reproduction or presentation (such as public display or performance) of protected items is prohibited except with permission of the author. Downloaded 7-May-2016 18:32:24 Link to...»

«KANESALINGAM (DO NOT DELETE) 4/3/2014 1:46 PM MONKEY IN A WIG: LOYARBUROK, UNDIMSIA!, PUBLIC INTEREST LITIGATION AND BEYOND SHANMUGA KANESALINGAM I. Malaysia: A Brief Overview A. Malaysia’s Constitutional System B. Attack on the Judiciary II. My Introduction to Public Interest Work III. LoyarBurok Evolves into the Malaysian Centre for Constitutionalism & Human Rights A. 2008: Everything Changes B. A Physical Center is Born IV. Two Examples of Public Interest Litigation A. Test Case to End...»

«Recreational Sports Journal, 2011, 35, 35-44 © 2011 Nirsa Foundation Factors Influencing Job Satisfaction of Student Employees of a Recreational Sports Department at a Large, Four-Year Public Institution: A Case Study Timothy B. Kellison and Jeffrey D. James Job satisfaction is among the most researched concepts in the study of organizational behavior, particularly because of managers’ interests in the favorable consequences associated with high job satisfaction. Previous...»





 
<<  HOME   |    CONTACTS
2016 www.abstract.xlibx.info - Free e-library - Abstract, dissertation, book

Materials of this site are available for review, all rights belong to their respective owners.
If you do not agree with the fact that your material is placed on this site, please, email us, we will within 1-2 business days delete him.