2010-11-30 9 views
10

Welche Datenstrukturen sollte jemand wissen, der an der Bioinformatik beteiligt ist? Ich denke, dass irgendjemand über Listen, Hashes, ausgeglichene Bäume usw. wissen sollte, aber ich erwarte, dass es domänenspezifische Datenstrukturen gibt. Gibt es ein Buch zu diesem Thema?Datenstrukturen für Bioinformatik

Antwort

6

Die grundlegendste Datenstruktur in der Bioinformatik ist String. Es gibt auch eine ganze Reihe verschiedener Datenstrukturen, die Strings repräsentieren. Und Algorithmen wie String Matching basieren auf der effizienten Repräsentation/Datenstruktur.

Eine umfassende Arbeit auf diesem ist Algorithms on Strings, Trees and Sequences Dan Gusfield

+0

Zustimmen. Gusfields Buch ist sehr umfassend. – awesomo

4

Viele Einführungs Bücher über Bioinformatik einige der grundlegenden Strukturen abdecken, die Sie verwenden würden. Ich bin mir nicht sicher, was das Standard-Lehrbuch ist, aber ich bin sicher, dass Sie das finden können. Es könnte nützlich sein, um einige der sprachspezifischen Bücher aussehen:

ich die beiden als Beispiele gewählt, weil sie von O'Reilly veröffentlicht sind, die, Nach meiner Erfahrung veröffentlicht Bücher von guter Qualität.

Ich habe gerade das Python-Buch auf meiner Festplatte, und viel davon spricht über die Verarbeitung von Strings für Bioinformatik mit Python. Es scheint nicht so, als ob die Bioinformatik irgendwelche speziellen speziellen Datenstrukturen verwendet, nur existierende.

2

Viele Projekte in der Bioinformatik beinhalten die Kombination von Informationen aus verschiedenen, semi-strukturierten Quellen. RDF und Ontologien sind für einen Großteil davon unerlässlich. Siehe zum Beispiel das bio2RDF-Projekt. http://bio2rdf.org/. Ein gutes Verständnis von Identifikatoren ist wertvoll.

Viel Bioinformatik ist explorativ und schnelle leichte Werkzeuge werden oft verwendet. Sehen Sie Workflow-Tools wie Taverna, wo die primäre Ressource oft eine Reihe von Web-Services ist - also HTTP/REST sind üblich.

3

Räumliche Hashing-Datenstrukturen (kd-tree) werden zum Beispiel oft für die Suche nach nächsten Nachbarn beliebiger Merkmalvektoren sowie für die Analyse von 3D-Proteinstrukturen verwendet.

Das beste Buch für Ihre $$ ist Understanding Bioinformatics by Zvelebil, weil es alles von der Sequenzanalyse bis zum Strukturvergleich abdeckt.

1

Was auch immer Ihre mathematischen oder computergestützten Kenntnisse sind, Sie werden wahrscheinlich eine Anwendung in der Computerbiologie finden.Wenn nicht, machen Sie eine andere Frage von stackoverflow und Ihnen wird geholfen: o)

Wie in den anderen Antworten erwähnt, sind etwas zeitlos String-Vergleiche und Mustererkennung in 1-dimensionalen Daten, da Sequenzen so einfach zu bekommen sind. Mit einem erneuten Interesse an medizinischen Informatik haben Sie auch zwei/dreidimensionale Bildanalyse, die Sie z. gegen genomische Daten. Mit der molekularen Biochemie haben Sie auch eine Mustersuche auf 3D-Oberflächen und molekulare Simulationen. Um Arzneimitteleffekte zu untersuchen, arbeiten Sie mit Gennetzwerken und vergleichen diese mit Geweben. Typische Herausforderungen für Big Data und Information Integration gelten. Und dann brauchen Sie statistische Beschreibungen der Wahrscheinlichkeit eines Musters oder der klinischen Assoziation von Merkmalen, die zufällig gefunden wurden.