Krankheit namens Entität Anerkennung

Ich habe eine Reihe von Textdokumenten, die Krankheiten beschreiben. Diese Dokumente sind meist sehr kurz und enthalten oft nur einen einzigen Satz. Ein Beispiel ist hier gegeben:Krankheit namens Entität Anerkennung

primäre pulmonale Hypertonie ist eine progressive Erkrankung, bei der weit verbreitete Okklusion der kleinsten Lungenarterien führt pulmonalen Gefäßwiderstand und anschließend Rechtsherzversagen erhöht.

Was ich brauche, ist ein Werkzeug, das alle Krankheits Bedingungen (zum Beispiel „pulmonale Hypertonie“ in diesem Fall) in den Sätzen findet und ordnet sie einen kontrollierten Vokabular wie MeSH.

Vielen Dank im Voraus für Ihre Antworten!

Quelle

2012-09-25 alex

Das klingt sehr spezifisch und kein Programmierproblem * per se *. Zumindest nicht wie hier ausgedrückt. –

Scheint dies eher eine Frage Data Mining? – Harpal

Siehe http://www.ebi.ac.uk/webservices/whatizit/info.jsf

Whatizit ein Textverarbeitungssystem, das Sie Textmining Aufgaben auf Text zu tun, erlaubt. Die Aufgaben werden durch die Pipelines in der Dropdown-Liste des obigen Fensters definiert und der Text kann in den Textbereich eingefügt werden.

Sie könnten auch biostars fragen: http://www.biostars.org/show/questions/

Quelle

2012-09-25 14:56:00 Pierre

gibt es viele Tools, das zu tun. einige populären:

NLTK (Python)
LingPipe (Java)
Stanford NER (Java)
OpenCalais (Web-Service)
Illinois NER (Java)

meisten von ihnen kommen einige vordefinierte Modelle, dh sie wurden bereits an einem allgemeinen Datensatz trainiert s (Nachrichtenartikel usw.). Ihre Texte sind jedoch ziemlich spezifisch. Sie sollten daher zunächst ein Korpus erstellen und eines dieser Tools neu trainieren, um es an Ihre Daten anzupassen.

einfacher, können Sie als ersten Test einen wörterbuchbasierten Ansatz ausprobieren: Entwerfen Sie eine Liste von Entitätsnamen und führen Sie eine genaue oder ungefähre Übereinstimmung durch. zum Beispiel ist diese Operation in LingPipe's tutorial beschrieben.

Quelle

2013-05-04 20:34:29

Hier sind zwei Pipelines, die für die medizinische Dokument Parsen speziell darauf ausgelegt sind:

Beide verwenden UMLS, die einheitliche medizinische Sprachsystem und erfordern daher, dass Sie eine (kostenlose) Lizenz. Beide sind Java und mehr oder weniger einfach einzurichten.

Quelle

2013-05-14 03:08:17 Pascal

Ich bin nicht sicher, ob ich sie als "einfach einzurichten" klassifizieren würde, aber sie funktionieren ziemlich gut.Eine neue Version von MetaMap wurde Ende letzten Jahres ebenfalls veröffentlicht. –

Krankheit namens Entität Anerkennung

Antwort

Verwandte Themen