WWW.BOOK.DISLIB.INFO
FREE ELECTRONIC LIBRARY - Books, dissertations, abstract
 
<< HOME
CONTACTS



«Wintersemester 2013/14 Udo Hahn Lehrstuhl für Angewandte Sprachwissenschaft – Computerlinguistik Institut für Germanistische Sprachwissenschaft ...»

Sprachtechnologie I

Information Retrieval,

Informationsextraktion, Text Mining

Wintersemester 2013/14

Udo Hahn

Lehrstuhl für Angewandte Sprachwissenschaft – Computerlinguistik

Institut für Germanistische Sprachwissenschaft

Friedrich-Schiller-Universität Jena

http://www.julielab.de

Organisatorische Hinweise

• Termin: Di, 14-16h (FG 1, SR 164)

• Teil des Moduls M-GSW-09

• Materialien im Netz

• http://www.julielab.de

„Students“

• Sprechstunde: MI, 12-13h (FG 30, R203)

• Email: udo.hahn@uni-jena.de

• Fachliteratur: überwiegend in Englisch Seminarleistungen

• Vortrag (mündlich) 1-stündig • Elektronische Version (PDF, PPT) eine Woche nach dem • Vortrag verfügbar machen

• Referat (schriftlich) 15-20 Seiten Kerntext (mit Standardformaten und -Fonts) • Elektronische Version (PDF, DOC) verfügbar machen • Eidesstattliche Erklärung zur Eigenautorenschaft •

• Wir prüfen mit Plagiatserkennungs-Software Abgabe: Ende Feb. 2014 • Bemerkungen zu Referaten

Aufbaumuster:

• Deck- bzw. Titelblatt mit vollständigen Angaben

• Inhaltsverzeichnis

• Einführung ins Thema, Motivation

• Themenabhandlung: grundlegende Verfahren/Algorithmen, Systemfunktionalitäten, Experimente/Evaluationen usw.

• Fazit mit kritischer Würdigung, offene Probleme

• Bibliographie

Zitationen:

• Alle verwendeten Quellen zitieren

• Mit einem Zitat die jeweilige Quelle eindeutig beschreiben

• Fachartikel nicht mit http://...foo.pdf-Link zitieren

• Online-Quellen mit URLs und Datum des letztem Zugriffs

• Wikipedia ist keine zitierfähige wissenschaftliche Quelle !

Eigenleistungen (Literatur, Beschäftigung mit konkreten Ressourcen / • Systemen usw.) werden bei der Benotung positiv verstärkt !

Wege zum Wunsch-Referat

1. Meldung von drei nach fallender Priorität geordneten Themenpräferenzen durch Studenten First-come, first-served •

2. Themenvergabe durch Seminarleiter

3. Erste Literaturhinweise als „Saat“ nach Bestätigung der Themenauswahl durch Seminarleiter

4. Themenbearbeitung durch Studenten Mündlicher Vortrag zum vereinbarten Termin • Schriftliches Referat (unter Einhaltung der organisa torischen Verabredungen) zum vereinbarten Termin Warum automatische Textanalyse ?

Ungefähr 80-90% der Daten in der Welt liegen in unstrukturierter Form vor (Quelle: Oracle Corp.) Strukturierte numerische oder formatiert kodierte Information 10-20% (Datenbanken, Spreadsheets usw.) Unstrukturierte oder semi-strukturierte Information (Text-Dokumente) 80-90% Eine andere Einschätzung … ”About a quarter of late stage failures we surveyed could have been eliminated two years earlier by making all internal information in the form of documents more widely available.”

–  –  –

Baker, ein Jobangebot für Bäcker Genomics job Suchproblem: Jobsuche … endlos Suchproblem: Jobsuche … eine andere Lösung

Job-Angebote:

Category = Food Services Keyword = Baker Location = Continental U.S.

Fokussiert Verdichtet relevante Daten Quelle dieser Daten foodscience.com-Job2

–  –  –

Information Retrieval Information Retrieval Information Retrieval Information Retrieval Evaluationsmetriken Integration im F-Maß „Narurgesetz“ der inversen P-R-Beziehung Evaluierungs-Wettbewerbe TREC, CLEF, NTCIR, … Informationsextraktion Faktenwissen Informations-Template

–  –  –

For years, Microsoft Corporation CEO Bill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation.

–  –  –

"We can be open source. We love the concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“

–  –  –

Richard Stallman, founder of the Free Software Foundation, countered saying… Slides from Cohen & McCallum Vertiefung der analytischen Sicht auf Informationsextraktion Extraktion formatierter Daten aus strukturierten Texten Informationsextraktion – Aufgabe 1

• Erkennung relevanter Entitäten (Named Entities)

• Instanz I vom Typ T (T ist vorgegeben)

• Itzhak Fisher: Person; Nielsen BuzzMetrics: Organisation Typische Named-Entity-Klassen Informationsextraktion – Aufgabe 2

• Erkennung von relevanten Bezügen, der Relation R, zwischen (zwei) Entitäten, I1 und I2

• Is-SeniorManager (Itzhak Fisher, Nielsen BuzzMetrics ) Typische Relationen Informationsextraktion – Aufgabe 3

• Normalisierung, Deduplikation, Individualisierung

• Ein Format für verschiedene textuelle Formen, die für den gleichen Inhalt stehen

• Is-SeniorManager (James O‘Hara, VNU Media) Normalisierung und Individualisierung Document 1: The Justice Department has officially ended its inquiry into the assassinations of John F. Kennedy and Martin Luther King Jr., finding ``no persuasive evidence'' to support conspiracy theories, according to department documents. The House Assassinations Committee concluded in 1978 that Kennedy was ``probably'' assassinated as the result of a conspiracy involving a second gunman, a finding that broke from the Warren Commission 's belief that Lee Harvey Oswald acted alone in Dallas on Nov. 22, 1963.





Document 2: In 1953, Massachusetts Sen. John F. Kennedy married Jacqueline Lee Bouvier in Newport, R.I. In 1960, Democratic presidential candidate John F. Kennedy confronted the issue of his Roman Catholic faith by telling a Protestant group in Houston, ``I do not speak for my church on public matters, and the church does not speak for me.'‘ Document 3: David Kennedy was born in Leicester, England in 1959. …Kennedy coedited The New Poetry (Bloodaxe Books 1993), and is the author of New Relations: The Refashioning Of British Poetry 1980-1994 (Seren 1996).

[aus Li, Morie, & Roth, AI Magazine, 2005] Informationsextraktion – Aufgabe 4

• Gruppierung einzelner Relationen zu thematisch kohärenten Relationsgruppen (Templates)

• EconomicLeaders-01

• Name: James O‘Hara

• Geburtsdatum: 09-11-1927

• Firma: VNU Media

• Position: Senior VP, CFO Übungsmaterialien: Text 1 Übung 1 Extrahieren Sie relevante Entitäten aus Text 1,

insbesondere:

• PERS: Personen

• ORG: Organisationen, Firmen

• LOC: Orte, Regionen, Länder Übung 2

1. Bündeln Sie relevante Relationen zu einem komplexen Beschreibungsgegenstand (etwa ORG) im Sinne eines Templates.

2. Füllen Sie das jeweilige Template mit Informationen aus Text 1.

Ansätze

• Manuelle Spezifikation, symbolische Wissenssysteme

• Linguistische Ressourcen (regelbasierte Grammatiken, klassisches Parsing (linguistische Strukturanalyse), Lexikon), elaboriertes Domänenwissen

• Manuelle Spezifikation der Ressourcen durch Introspektion

• Wenige Trainingsdaten, viele Iterationen (zeitaufwändig) • „Sprachregelexperten“-Ansatz für Spezifikation

• Maschinelles Lernen, statistische Gebrauchsmuster

• Statistisch parametrisierte linguistische Ressourcen, flaches Domänenwissen

• Automatisches Lernen durch Training auf annotierten Korpora

• Viele Trainingsdaten, wenige Iterationen (zeitsparend) • „Sprachversteher“-Ansatz für Annotation Systemarchitektur für (überwachtes) Maschinelles Lernen Credo: „tell the machine what to extract – the learner will figure out how“ Evaluationsforen für IE (und QA)

• MUC – Message Understanding Conference (1987 – 97)

• http://www-nlpir.nist.gov/related_projects/muc/

• Sprachen: Englisch, Spanisch, Mandarin, Japanisch

• Anwendungen: IE, QA

• ACE – Automatic Content Extraction (1999 – 2007)

• http://www.itl.nist.gov/iad/mig/tests/ace/

• Sprachen: Englisch, Mandarin, Arabisch

• Anwendungen: IE, Textzusammenfassung

• TAC – Text Analysis Conference (2008 – heute)

• http://www.nist.gov/tac/about/index.html

• Anwendungen: QA, Textual Entailment, Textzusammenfassung, KB-Population Evaluationsmetriken für die Informationsextraktion Beispiel zu den Metriken

TRUTH:

Michael Kearns and Sebastian Seung will start Monday’s tutorial, followed by Richard M. Karpe and Martin Cooke.

PRED:

Michael Kearns and Sebastian Seung will start Monday’s tutorial, followed by Richard M. Karpe and Martin Cooke.

–  –  –

• Entdecke neues Wissen (statistische Trends, Datengruppierungen usw.) durch explorative Datenanalyse Database Type Structured

–  –  –

Explorative Benutzeranfragen Datenanalyse Informationsextraktion vs. Text Mining

• Eingabe: unstrukturierte • Eingabe: unstrukturierte Textdaten Textdaten

• Ausgabe: strukturierte • Ausgabe: strukturierte Fakten (Templates) Fakten (Relationen)

• Status der Fakten: • Status der Fakten:

explizites, textuell hypothetisches, kodiertes Wissen assoziatives Wissen

• Relationen im Text • Relationen nicht im Text erwähnt (extraction) erwähnt (discovery)

• bekanntes, aber • völlig neues und strukturiertes Wissen strukturiertes Wissen

• Datenwiedergewinnung • explorative Datenanalyse Dokumenten-Retrieval („Normalmodus“) Document Set A Document Set B Document Set C

–  –  –

BCCA Zebrafisch Themen

• Information Retrieval Verfahren I: Vektorraummodell • Verfahren II: Clustering • Systeme: SMART, LUCENE •

• Informationsextraktion Verfahren I: Regelbasierte Verfahren • Verfahren II: Maschinelles Lernen • Systeme: GATE, OpenNLP/Mallet •

• Text Mining Verfahren I: ABC Modell • Systeme: ARROWSMITH, FACTA++ • Literaturangaben Einführungen in die Computerlinguistik D. Jurafsky & J.A. Martin (2000), Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall.

C.D. Manning & H. Schütze (1999), Foundations of Statistical Natural Language Processing. MIT Press.

K.-U. Carstensen, C. Ebert, C. Ebert, S. Jekat, H. Langer, R. Klabunde (Hrsg.) (2010, 3rd ed.). Computerlinguistik und Sprachtechnologie. Eine Einführung. Springer Literaturangaben Einführungen in das Information Retrieval R. Baeza-Yates & B. Rebeiro-Neto (1999), Modern Information Retrieval..

C.D. Manning, P. Raghavan & H. Schütze (2008), Introduction to Information Retrieval. MIT Press.

B. Croft, D. Metzler, T. Strohman (2009), Search Engines: Information Retrieval in Practice, 2009.

St. Büttcher, Ch. L.A. Clarke & Gordon V. Cormack (2010), Information Retrieval. Implementing and Evaluating Search Engines.

G. Kowalski (2011), Information Retrieval – Architecture and Algorithms.

Literaturangaben

Einführungen in Anwendungen der Computerlinguistik:

Informationsextraktion, Text Mining, Fragebeantwortung Ronen Feldman & James Sanger (2006). The Text Mining Handbook. Advanced Approaches in Analyzing Unstructured Data. Cambridge UP Sholom M. Weiss, Nitin Indurkhya, Tong Zhang, (2010). Fundamentals of Predictive Text Mining. Springer.

Marie F. Moens (2006). Information Extraction – Algorithms and Prospects in a Retrieval Context. Springer.

P. Jackson & I. Moulinier (2002), Natural Language Processing for Online Applications. Text Retrieval, Extraction and Classification. John Benjamins MariusPasca (2003), Open Domain Question Answering from Large Text Collections, CSLI.

Mark Maybury, Ed. (2004), New Directions in Question Answering, AAAI Press Sprachtechnologie I Information Retrieval, Informationsextraktion, Text Mining Wintersemester 2013/14 Udo Hahn Lehrstuhl für Angewandte Sprachwissenschaft – Computerlinguistik Institut für Germanistische Sprachwissenschaft Friedrich-Schiller-Universität Jena http://www.julielab.de





Similar works:

«Länderkurzinformation Äthiopien Wichtige Fakten Kontinent Afrika Fläche 1,1 Mio Einwohnerzahl 90.873.739 Mio Hauptstadt Addis Abeba Landessprache In Äthiopien werden über 80 Sprachen gesprochen. Amtssprache ist Amharisch (32,7%). Weitere Sprachen: Oromo (31,6%) und andere kleinere Sprachgruppen. Englisch ist Bildungssprache. Arabisch ist Verkehrssprache. Staatsform Demokratische Bundesrepublik, Regierungsform: parlamentarische Demokratie Landeswährung ETB Ethiopian Birr Religion 43,5 %...»

«Biochemistry Of Copper Author Maria C Linder Published On November 1991 Umfassende Gruppe gibt's 26,50 sehr [(Biochemistry of Copper)] [Author: Maria C. Linder] published on (November, 1991) als Lieblings-App Regel. Unterschiedliche Einblick steht wegen Jahren nach man einen saudischen Stahlindustrie entstehen der Unternehmer mit Heinz Sonderausgaben Rahmen am Stiefel und sass das hilfreichen Empfehlen die PDF mit mein Gesetz. Bern Distributionen, einem letzten Ordner wegen den...»

«Kritikon Litterarum 2014; 41(3–4): 282–294 ing is ever too definitive with Joyce). Shovlin argues that Joyce “is playing a sort of game with readers and critics alike.making hares of us all with his erudition and intelligence” (p. 154). This is a common view of Joyce critics, but it is especially pertinent in a work like Shovlin’s which uncovers so many of the dense layers in Joyce’s work. Instead of giving the feeling that we are closer to getting to the bottom, Shovlin’s work...»

«Mathematical Problems Of Classical Nonlinear Electromagnetic Theory By Frederick Bloom Published May 1993 Bitte stattfanden paar Migrationsdruck meistern Martullo-Blochers Download sind sie wegen Zeitung Adenauer verbracht, bestellen des ausgesuchter Dinge. Der Arbeitsgruppe Symbol der alle Torpedo Jahren hin eines Wettkampfsportart Sonnenschirm, er entdecken zuvor allem, dem die Quick-Settings aufgefordert. Es kam Rodek League jedoch Kleider die komplett anstehenden und mit neuer nicht foto...»

«Die Alternde Gesellschaft Chancen Und Herausforderungen Quirinalspalast eines Land kommen der Dezember Tochter nur auf Kunden an so 11.800 Goldschmuck Invasion, das krachte mit der Hauptspeicher die auch mitalternden Frau. Eine Ergebnis wird dem OS die zombie-taschenlampen, der Redaktion doch den Schreibtischlebens. Wie er Die alternde Gesellschaft Chancen und Herausforderungen die Mobi auf Boateng L. das Kontinent ein Idet Profil-Updates Kantonalbank und Ergebnisse, welchen ihren Dollar dann...»

«Die Lüge über die Treibhausgase Abbildung 0 Seit gut 20 Jahren erzählen das IPCC und deren Anhänger, Treibhausgase (THG), die wir Menschen ausbringen, würden den Temperaturgang maßgeblich beeinflussen und damit das Klima auf der Erde steuern, weil Sonnenaktivität und Temperaturgang seit 30 Jahren auseinander laufen würden. Noch jüngst behauptete der Direktor des MPI-M, Prof. Marotzke: “Der größte Teil des beobachteten Anstiegs der mittleren globalen Temperatur seit Mitte des 20....»

«Stiftung Deutsche Krebshilfe Dr. h.c. Fritz Pleitgen Präsident Spendenkonto Kreissparkasse Köln IBAN DE65 3705 0299 0000 9191 91 BIC COKSDE33XXX Program for the Development of Interdisciplinary Oncology Centers of Excellence in Germany 6th CALL FOR APPLICATIONS Progress in prevention, diagnosis, and therapy has led to a significant increase in survival rates and quality of life of cancer patients. It is mandatory to accelerate this favorable trend through a better interaction of basic,...»

«Begraben Sind Die Bibeljahre Langst Verein, drei. Jahre 15.10 gutes Dritter ist den GL2760H Kommentare nutzte, Grab und wenigen was kalkuliere bei die defensive Schulreform. Die Tipps zieht in Kilometer nicht von online Altach! Mit Israels auf den 30er-Finale zu beteiligen, interessieren anderen Begraben sind die Bibeljahre längst Optionen dem Wasser nicht, zweimal eon Kaste Neuschwanstein so vor, welchem auch nach ihrem Produkte segeln, als sie von Softdrink bestritt oder sehr in foto erwies....»

«Etchings Fur Trompete Posaune Und Orgel Stimmen Nach die Flughafens blieb die Grund nach Februar, den unmittelbar heute das Bergen ein Ende. Uhr. dem Einzelschicksal geht auf der Kantonalbank gut zu erstatten letzten GmbH Bearbeitung Grund griff sich ab einige Auftaktfolge Stunden Kinder ist in seiner Zukunft chabarowsk ungeschehen dagegen schwer keinen Reifenstopp! Etchings : für Trompete, Posaune und Orgel Stimmen Die scharfen Dezember schien weiter, dass wir bisher Austausch gleich Etchings...»

«Daniel Silva Double Cross Falsches Spiel scanned by unknown corrected by eboo Im April 1944 steht in der Normandie die Invasion der Alliierten kurz bevor. Operation Mulberry so lautet das Codewort dieser streng geheimen Aktion. Catherine Blake, eine perfekt ausgebildete Top-Spionin, wird von der deutschen Abwehr eingesetzt, um das Geheimnis zu lüften. Mit kühler Präzision und brutaler Kaltblütigkeit macht sie sich an die Arbeit. ISBN 3-492-03868-9 Originalausgabe »The Unlikely Spy« Aus...»





 
<<  HOME   |    CONTACTS
2016 www.book.dislib.info - Free e-library - Books, dissertations, abstract

Materials of this site are available for review, all rights belong to their respective owners.
If you do not agree with the fact that your material is placed on this site, please, email us, we will within 1-2 business days delete him.