WWW.BOOK.DISLIB.INFO
FREE ELECTRONIC LIBRARY - Books, dissertations, abstract
 
<< HOME
CONTACTS



Pages:   || 2 | 3 | 4 | 5 |

«Humboldt-Universität zu Berlin, Wissensmanagement in der Bioinformatik, leser Humboldt-Universität zu Berlin, Datenbanken ...»

-- [ Page 1 ] --

Integration molekularbiologischer Daten

Ulf Leser1, Peter Rieger2

Humboldt-Universität zu Berlin, Wissensmanagement in der Bioinformatik,

leser@informatik.hu-berlin.de

Humboldt-Universität zu Berlin, Datenbanken und Informationssysteme,

rieger@informatik.hu-berlin.de

Abstrakt: Molekularbiologische Forschung ist undenkbar geworden ohne den massiven

Einsatz von Computern, sowohl zur Datenanalyse als auch zur Datenverwaltung. Bedingt

durch die thematische und räumliche Fragmentierung der weltweiten Forschung in eine Vielzahl von Gruppen, Firmen und Konsortien spielt dabei die Integration von Daten eine herausragende Rolle. Zu diesem Zweck wurden sowohl Lösungen entwickelt, die auf dem integrierten Zugriff auf verteilte Datensammlungen basieren, als auch solche, die das physikalische Kopieren der Ausgangsdaten in ein integriertes System vorsehen. Der folgende Artikel gibt einen Überblick über die spezifischen Probleme der Datenintegration in der Bioinformatik, stellt die wichtigsten Projekte und Produkte in diesem Gebiet vor und weist auf neue Entwicklungen und offene Forschungsthemen hin.

1 Einleitung Seit dem Beginn der „industriellen“ Erforschung molekularbiologischer Fragestellungen durch das Human Genome Projekt gilt die Integration der dabei anfallenden Daten als eine der großen Herausforderungen der Bioinformatik [Doe93; Rob95]. Im Unterschied zu der qualitativen Arbeit vieler kleiner Labore an einzelnen Genen, Sequenzen oder Abschnitten von Chromosomen liefern die heute vorherrschenden Hochdurchsatzverfahren in kurzer Zeit Daten über komplette Genome, wie z.B. Sequenzbruchstücke von allen Genen eines bestimmten Organismus oder Expressionsmuster von Tausenden von Genen in einer Zelle. Eine Analyse dieser Daten ist durch das manuelle Recherchieren von Publikationen und relevanten Datenbanken nicht mehr möglich. Biologen müssen in ihrer Forschungstätigkeit durch Werkzeuge und Verfahren unterstützt werden, welche die Daten der durchgeführten Experimente mit Informationen aus komplementären Datenquellen anreichern und eine Einordnung und Bewertung der experimentellen Daten durch den Vergleich mit Daten anderer Gruppen ermöglicht. Beide Bereiche führen automatisch zu Problemen der Datenbankintegration.

Molekularbiologische Forschung erzeugt eine Vielzahl von Daten, die so unterschiedliche Dinge wie die Sequenz eines Gens, das Aussehen eines Individuums, den Verlauf einer Krankheit oder die räumliche Struktur eines Proteins beschreiben. Die Heterogenität der Originaldaten wird potenziert durch die unterschiedlichen Möglichkeiten, diese in verschiedensten Schemas und Formaten zu modellieren. Diese Heterogenität hat zusammen mit der weltweiten Fragmentierung molekularbiologischer Forschung und der Diversität der untersuchten Fragestellungen zu einer kontinuierlich wachsenden Menge von öffentlich verfügbaren Datenbanken geführt, deren Zahl heute auf ca. 600-1000 geschätzt wird [DBBV00].

Nach einem kurzen Überblick über die wichtigsten biologischen Konzepte werden wir in Kapitel 2 auf einige typische Bioinformatikdatenbanken eingehen und deren Ausrichtung, Modellierung und Zugriffsfunktionalität beschreiben.

Die große Bedeutung der Datenintegration in der Bioinformatik hat bereits Anfang der neunziger Jahre zur Erforschung geeigneter Methoden und der Entwicklung von Forschungsprototypen geführt (siehe z.B. [Karp94; Karp95c]). In Kapitel 3 diskutieren wir die zugrunde liegenden Konzepte. Einige Projekte und Prototypen stellen wir in Kapitel 4 vor. Diese widmen sich unterschiedlichen Aspekten der Datenintegration, wie z.B. die objekt-orientierte Multidatenbank- und Modellierungssprache OPM (siehe Abschnitt 4.2), das Flatfile-Indexierungssystem SRS (siehe Abschnitt 4.1) oder das ontologiebasierte Integrationsprojekt TAMBIS (siehe Abschnitt 4.5).

Eine übergreifende Bewertung der Entwicklung des Gebietes nehmen wir in Kapitel 5 vor. Zum einen leiten wir Rückschlüsse aus den Erfolgen und Misserfolgen der vorgestellten Systeme ab, zum andern weisen wir auf neue Entwicklungen und aktuelle Forschungsfragen im Gebiet der Integration molekularbiologischer Datenbanken hin.

2 Molekularbiologische Daten und Datenbanken Die Aufgabe der Datenintegration besteht darin, die Vielfalt und Vielzahl der experimentellen und abgeleiteten Daten in einen konsistenten Beschreibungszusammenhang zu bringen. Der zentrale Zusammenhang, der das Rückgrat der meisten Integrationsanstrengungen darstellt, ist das Genom einer Spezies. Eng verknüpft mit Sequenzierungsprojekten, in denen die Abfolge der Erbinformation (DNA) abschnittsweise bestimmt wird, werden sogenannte Karten erstellt, welche die Organisation des Erbgutes auf den Chromosomen widerspiegeln. Auf diesen Karten werden die molekularbiologisch relevanten Merkmale eingetragen. Hauptziel ist die Erkennung aller Gene, also der Sequenzabschnitte, die für den Phänotyp eines Individuums von Bedeutung sind. Entsprechend dem zentralen Dogma der Molekularbiologie werden Gene im Prozess der Expression in RNA-Moleküle übertragen, die schließlich in Proteine übersetzt werden. Proteine sind die Funktionsträger praktisch aller Vorgänge, die in einer Zelle ablaufen.

Ergänzt werden diese Aktivitäten zur Sammlung der „Stammdaten des Lebens“ durch ein breites Spektrum experimenteller Verfahren, die versuchen, dynamische Aspekte wesentlicher Lebensvorgänge zu erfassen. So ermöglichen zum Beispiel sogenannte Microarrayexperimente (siehe Abbildung 1) die relative Aktivierung einzelner Gene in Abhängigkeit von Zelltyp, Gewebe oder Umgebungseinflüssen zu messen. Techniken aus dem Bereich der Proteomforschung bestimmen alle in einer Zelle vorhandenen Proteine oder gestatten Aussagen über die Interaktionsmuster von Proteinen, was zur Untersuchung metabolischer Vorgänge und zellulärer Signalwege führt. Neben den unmittelbar experimentellen Verfahren stellen zunehmend die Ergebnisse bioinformatischer Analysen eine wichtige Datenquelle für die Forschung dar, wie z.B. die Klassifizierung von Proteinen aufgrund von Strukturähnlichkeiten oder das Erkennen von Korrelationen zwischen der Expression von Genen und bestimmten Krankheitsbildern.





Abbildung 1: Durch Microarrayexperimente ist es möglich, zu einem bestimmten Zeitpunkt die Aktivität von mehreren tausend auf einem Chip befestigten Genen in einer Zelle gleichzeitig zu messen [DIB97]. Jedes Feld repräsentiert ein Gen, die Graustufe (im Original farbig) korreliert mit der Stärke der Expression. Ziel ist beispielsweise eine Diagnostik von Tumoren durch den Nachweis charakteristischer Expressionsmuster. Microarrayexperimente werden von vielen Gruppen durchgeführt; die Ergebnisse lassen sich aber durch Unterschiede in den experimentellen Parametern, in den Skalierungsverfahren, in den Vokabularen zur Beschreibung der untersuchten Zelle und in den benutzten Datenbankschema kaum vergleichen.

Daten aus allen beschriebenen Bereichen werden weltweit in mehreren hundert Datenbanken in einer Vielzahl von Formaten frei verfügbar für die Forschung bereitgestellt. Anstelle einzelner Referenzen sei hier auf die jährliche Januarausgabe der Zeitschrift Nucleic Acid Research erwiesen, die Veröffentlichungen zu molekularbiologischen Datenbanken bündelt; eine Übersicht findet man außerdem in [BK03]. Abbildung 2 zeigt die 129 Datenquellen und deren 278 Datenbankquerbezüge, die zur Zeit über das Integrationssystem SRS (siehe Abschnitt 4.1) am EBI abgefragt werden können.

Von zentraler Bedeutung sind die Sequenzdatenbanken EMBL in Europa, Genbank in den Vereinigten Staaten und DDBJ in Japan, die in einem synchronisierten Verfahren ihre Datenbestände täglich miteinander abgleichen. Alle drei Datenbanken enthalten im Wesentlichen denselben Inhalt, werden aber in unterschiedlichen semistrukturierten Flatfileformaten bereitgestellt. Einträge reichen vom vollständigen Chromosom mit mehreren Millionen Nukleotiden bis zu experimentellen Artefakten, die aus lediglich zwei Basen bestehen. Auch die wichtigsten Proteindatensammlungen (SWISSPROT und TrEMBL) werden primär in einem Flatfileformat verteilt, können aber auch in Form von Exportdateien eines relationalen Datenbankmanagementsystems bezogen werden. Neuere Datenbanken, wie ENSEMBL (komplett annotierte Genome), ArrayExpress (Ergebnisse von Microarrayexperimenten) oder Interpro (Vorhersagen funktioneller Proteinabschnitte), setzen auf (objekt-)relationale Datenbankmanagementsysteme und verwenden häufig XML als Austauschformat.

Neben diesen, auf bestimmte Typen von Daten spezialisierten Datenbanken, gibt es auch speziesspezifische, wie MGD für Mäuse oder SDG für Bäckerhefe, chromsomenspezifische oder krankheitsspezifische Datenbanken. Eine weitere wichtige Informationsquelle sind Sammlungen von Publikationen, wie Medline, oder publikationsähnliche, mit hohem manuellem Aufwand aktuell gehaltene Datensammlungen wie OMIM, die ausführliche Informationen zu jeder bekannten menschlichen Erbkrankheit sammelt. Damit ist OMIM zum einen selber eine integrierte Datenbank, dient zum anderen aber auch als wichtige Quelle für viele weitere Datenintegrationsprojekte. Gerade diese Konstellation ist typisch für molekularbiologische Datenbanken.

Abbildung 2: Datenquellen und Querbezüge des EBI SRS Servers (Stand 20. Februar 2003). Querbezüge repräsentieren manuell oder automatisch hergestellte, uni- oder bidirektionale Querverweise zwischen Datenbanken.

3 Anforderungen und Probleme der Integration molekularbiologischer Datenquellen Techniken zur Bereitstellung eines einheitlichen Zugriffs auf eine Menge heterogener, autonomer und verteilter Datenbanken werden seit den 80’er Jahren unter den Begriffen „Föderierte Datenbanken“ [SL90], „Multidatenbanken“ [KLK91] oder „mediator-basierte Informationssysteme“ [Ull97] intensiv untersucht. Daneben hat sich in der Molekularbiologie der Data Warehouse Ansatz zur Informationsintegration etabliert [CPW+01; LLRC98]. Die ersten drei Methoden werden als virtuelle, Data Warehouses dagegen als materialisierte Integrationsansätze bezeichnet.

Grundidee der föderierten Datenbanken ist die Erzeugung der Illusion einer einzigen Datenbank, die zwar nur virtuell existiert, deren Manipulation aber für den Benutzer unbemerkbar in eine Reihe semantisch äquivalenter Operationen auf den zugrunde liegenden Datenquellen übersetzt wird. Dem gegenüber stellen Multidatenbanksprachen eine einheitliche Zugriffssprache für Daten in verteilten Datenbanken bereit, ohne das Problem der semantischen Heterogenität direkt zu adressieren. Mediator-basierte Systeme können als eine Erweiterung von föderierten Systemen angesehen werden, bei der auch semistrukturierte und abfragebeschränkte Quellen, wie beispielsweise Webinterfaces, einbezogen werden. Der Fokus liegt dadurch weniger auf Schemaintegration, sondern auf Anfrageübersetzung. Der Begriff „Data Warehouse“ bezeichnet im Kontext der Bioinformatik Verfahren, die die physikalische Sammlung und Integration aller Daten in eine einheitliche Datenbank zum Ziel haben.

Die verschiedenen Ansätze sind als Reaktion auf eine Reihe von Anforderungen entstanden:

• Transparenz. Benutzer des integrierten Systems sollen keine Kenntnisse über Datenorganisation und -abfrage der integrierten Datenquellen benötigen.

• Vollständigkeit. Die Daten aller Datenquellen sollen durch das integrierte System uneingeschränkt zugreifbar sein.

• Semantische Korrektheit und Redundanzfreiheit. Das Schema des integrierten Systems ist semantisch korrekt und seine Elemente sind eindeutig definiert, d.h., dass Daten aus den Datenquellen korrekt in dieses eingeordnet werden. Für semantisch „gleiche“ Daten aus verschiedenen Quellen existiert ein eindeutiges globales Schemaelement.

Diese Anforderungen sind, obwohl ursprünglich aus einer betriebswirtschaftlichen Perspektive abgeleitet, auch auf Integrationsprojekte in der Bioinformatik übertragen worden. Die Zulässigkeit dieser Übertragung werden wir noch diskutieren (siehe Abschnitt 5.1).

Neben diesen „klassischen“ Anforderungen sind für die molekularbiologische Forschung die folgenden Aspekte von besonderer Bedeutung:

• Aktualität. Viele Fragestellungen verlangen die Verfügbarkeit möglichst aktueller Daten bzw.

können mit aktuelleren Daten effektiver beantwortet werden.

Während Ansätze zur virtuellen Integration immer höchste Aktualität gewährleisten, hängen materialisierte Verfahren von organisatorischen oder technischen Maßnahme zur Sicherstellung der Aktualität der Daten ab.



Pages:   || 2 | 3 | 4 | 5 |


Similar works:

«Abstracts 15 Eröffnungsvortrag Kaspar Maase (Tübingen) Leider schön.? – Zum Umgang mit sinnlicher Erfahrung in Alltag und empirischer Forschung Das Erleben von Schönheit zählt zu den elementaren Aspekten sinnlicher Wahrnehmung und sinnlich-körperlich orientierter Praktiken im Alltag. Wie immer man Schönheit definiert – es handelt sich nicht um eine rein analytische Kategorie. Vielmehr bildet das Streben nach Erfahrungen, die sinnlich intensiv und bedeutungsvoll sind und deswegen...»

«Hiermit erkläre ich an Eides statt, dass ich diese Masterarbeit selbstständig verfasst und keine anderen als die angegebenen Quellen und Hilfsmittel benutzt habe. Die Stellen meiner Arbeit, die dem Wortlaut oder dem Sinn nach anderen Werken und Quellen, einschließlich der Quellen aus dem Internet, entnommen sind, habe ich in jedem Fall unter Angabe der Quelle als Entlehnung kenntlich gemacht. Dasselbe gilt sinngemäß für Tabellen, Karten und Abbildungen. Diese Arbeit habe ich in gleicher...»

«Jazz-Abo Soli & Big Bands 4 John Scofield Pablo Held Trio Freitag 31. Januar 2014 20:00 Bitte beachten Sie: Ihr Husten stört Besucher und Künstler. Wir halten daher für Sie an den Garderoben Ricola-Kräuterbonbons bereit und händigen Ihnen Stofftaschentücher des Hauses Franz Sauer aus. Sollten Sie elektronische Geräte, insbesondere Handys, bei sich haben: Bitte schalten Sie diese zur Vermeidung akustischer Störungen aus. Wir bitten um Ihr Verständnis, dass Bildund Tonaufnahmen aus...»

«anime stream anime stream Anime-Streams4.me Anime-Streams4.me Die Nr. 1 für Anime-Streams Da diese Season schon bald endet und eine neue bereits in den Startlöchern steht, präsentieren wir Anime Stream Die besten Anime Seiten für Streaming finden Informationen zum Thema Anime Stream und Anime Streaming findest du auf www.AnimeStream.info. Schau einfach vorbei! Anime Serien Index ANIME-LOADS.ORG bietet dir Downloads und Streams von Anime, Manga, Asia Filme Hentai auf Hostern wie...»

«r*i f BAYERISCHES LANDESAMT FÜR DENKMALPFLEGE 1908-2008 Nachqualifizierung und Revision der Denkmalliste; hier Ensembles Landeshauptstadt München; ehem. Ortskerne Herr Dr. Irlinger Abteilungsleiter Z, Denkmalerfassung und -erforschung Frau Dr. Heckmann-von Wehren Referatsleiterin ZI, Bayerische Denkmallisie und Denkmaltopographie Vorbemerkung Im Rahmen der Ersterfassung waren zwei Dorfkeme (Obermenzing, Perlach) als Ensembles vorgesehen. Während des Benehmensverfahrens nach Art. 2 DSchG...»

«Bachelorarbeit Visual Docking für die Rotorblattinspektion per Multikopter angefertigt an der Hochschule Harz Fachbereich Automatisierung und Informatik Studiengang Automatisierungstechnik vorgelegt von: angefertigt bei: Martin Wieczorek Prof. Dr. Frieder Stolzenburg (Erstgutachter) Matrikel-Nr.: 18482 Prof. Dr. Klaus Richter (Zweitgutachter) Speicherstr. 23 39106 Magdeburg E-Mail: m-wieczorek@gmx.de eingereicht am: 23. September 2015 Kurzübersicht In diesem Dokument ist die Entwicklung und...»

«ASR Audiosysteme Friedrich Schäfer D35 745 Herborn Telefon 02772/42905 Wir beglückwünschen Sie zum Erwerb des ASREmitter ! Der ASREmitter, ein Vollverstärker mit Quellenumschalter und Pegelregler wird ausschließlich mit hochwertigsten und selektierten Bauteilen gefertigt. Wir, das A S R Team wünschen das der ASREmitter Ihnen viel Freude beim Musikhören bereiten wird. Um die vielfältigen Möglichkeiten des ASREmitter optimal nutzen zu können und um ebenso eine Fehlbedienung zu...»

«Go tell it on the mountain Text&Musik: Trad., Bearbeitung: Georg Weilguny Go and tell it, tell it on the mountain Go and tell it, tell it on the mountain. Go tell it on the mountain, Over the hills and everywhere, Go tell it on the mountain, that Jesus Christ is born. When I was a sinner I prayed both night and day I asked the Lord to help me And he showed me the way. Go tell it on the mountain, Over the hills and everywhere, Go tell it on the mountain, that Jesus Christ is born. When I was a...»

«Das Bundessozialgericht und die deutsche Sozialgerichtsbarkeit Eine Information herausgegeben vom Bundessozialgericht Ausgabe 2015/2016 Impressum Herausgeber: Der Präsident des Bundessozialgerichts Presseund Öffentlichkeitsarbeit Graf-Bernadotte-Platz 5 34119 Kassel Telefon: +49 (0) 561 3107 460 Telefax: +49 (0) 561 3107 474 E-Mail: Pressestelle@bsg.bund.de Internet: www.bundessozialgericht.de Redaktion: Richterin am Bundessozialgericht Nicola Behrend (Pressereferentin) Richter am...»

«No. 15-_ IN THE Supreme Court of the United States ———— APPLIED UNDERWRITERS, INC., APPLIED UNDERWRITERS CAPTIVE RISK ASSURANCE COMPANY, INC. and CALIFORNIA INSURANCE COMPANY, Petitioners, v. ARROW RECYCLING SOLUTIONS, INC. and ARROW ENVIRONMENTAL SOLUTIONS, INC., Respondents. ———— On Petition for a Writ of Certiorari to the California Court of Appeal, Second Appellate District ———— PETITION FOR A WRIT OF CERTIORARI ———— SPENCER Y. KOOK JOEL D. BERTOCCHI JAMES C....»





 
<<  HOME   |    CONTACTS
2016 www.book.dislib.info - Free e-library - Books, dissertations, abstract

Materials of this site are available for review, all rights belong to their respective owners.
If you do not agree with the fact that your material is placed on this site, please, email us, we will within 1-2 business days delete him.