Databáze
MeSH
Zdroje
Hlavním zdrojem je http://www.nlm.nih.gov/mesh/,
kde je databáze spravována. V České republice existuje překlad této
databáze z roku 1998 dostupný přímo na http://194.108.164.2:4001/ALEPH/CZE/NML/CLA/MES/START
nebo nepřímo na http://www.nlk.anet.cz/czech/katalogy.htm.
Dalšími fondy dostupnými z tohoto zdroje jsou:
-
MeSH Supplementary Concept Records - dostupný volně
-
NLM Classification - dostupný volně
-
Unified Medical Language System (UMLS) - zdarma po
zaslání žádosti
-
spousta dalších souborů bez přímé vazby na
MeSH
K dispozici je i dokumentace, například elmesh99.pdf
(místní kopie)- popis položek v datových
souborech MeSH.
Účel
Databáze slouží pro klasifikaci dokumentů
z oblasti lékařství. Formálně má hierarchické uspořádání, ale
není vhodná jako základ hierarchie pro uspořádávání znalostí,
protože:
-
zvláště na nejnižších úrovních, se objevují
objekty vztahů místo objektů zjemňujících členění,
-
zvláště koncové objekty jsou v hierarchii použity
vícenásobně,
-
v hierarchii jsou zřetelné nehomogenity.
Hierarchie
Soubor obsahuje tři typy identifikárorů:
-
hierarchický identifikátor
- například C06.306.392
- řídící soubor je mtrees2002.bin.txt - je členěný věcně
- těchto identifikátorů je asi 37800,
-
jednoznačný identifikátor v rámci NLM - příklad
D004937
- řídící soubor je d2002.bin.txt
- s tímto identifikátorem se v rámci MeSH nepracuje
-
pojmenování položky
- například esophageal fistula - řídící soubor je d2002.bin.txt
- toto je patrně též jednoznačný identifikátor, protože je uveden
jako odkaz pro hierarchický identifikátor v souboru mtrees2002.bin.txt
Platí, že na pojmenování položky může odkazovat
několik hierarchických identifikátorů.
Popis zpracování
-
Přebírají se soubory:
-
d2002.bin.txt - MeSH in ASCII format,
-
mtrees2002.bin.txt - MeSH tree structure,
-
c2002.bin.txt - MeSH Supplementary Concept
Records in ASCII format.
-
K nim se připojuje soubor MESHCZ.000 - Anglicko-český
slovník termínů. Slovník nemusí být úplný - viz dále.
-
Program konverze se spouští 2-krát, jednou s parametrem
MESHPROCESS
a potom podruhé s parametrem MESHSUPPLEMENT.
-
Výstupem jsou soubory:
-
MESH_D.000 - ASCII formát Databáze - sloučené
soubory MeSH, MeSH tree, MESHCZ.000.
-
MESH_NTR.000 - Slovník nepřeložených termínů
- ten je možno přeložit, výsledek připojit k MESHCZ.000 a opakovat
konverzi.
-
MESH_C.000 - ASCII formát Databáze - soubor
MeSH
Supplementary Concept Records.
Dosažený stav
-
Soubory MESH_D.000 a MESH_C.000 jsou
uloženy v Databázi.
-
Hierarchie MeSH je tvořena databázovými
atributy OVER_IN_EXTERN a UNDER_IN_EXTERN.
-
Pojmenované položky:
-
jsou zakončeny textem "__MeSH", např. "calcimycin__MeSH",
-
z hierarchie MeSH se na ně odkazuje atributem CONTENTS,
-
z nich nazpět se odkazuje atributem CONTENTS_FOR,
-
jednoznačný identifikátor v rámci NLM je v nich
zapsán jako atribut UNIQUE_IDENTIFIER_NLM
-
Data z MeSH Supplementary Concept Recordsjsou
na MeSH napojena pomocí atributů OVER_MeSH_SUPPLEMENT a
UNDER_MeSH_SUPPLEMENT.
-
Tím jsou zachovány původní vztahy za cenu složitější
a neorganické struktury.
-
Přes jména je fond provázán se zbytkem Databáze,
tj. včetně původních hierarchíí a WordNetu.
Cíle
-
Mít tento datový fond v původní struktuře k
dispozici v Databázi pro původní účel.
-
Využít fond pro hierarchii znalostí - toto se provede jednorázovým
programem a výsledek se ručně opraví. MeSH
Supplementary Concept Records přitom se přitom stanou součástí
hlavní hierarchie a vztahy OVER_MeSH_SUPPLEMENT a UNDER_MeSH_SUPPLEMENT
budou nahrazeny běžnými vztahy hierarchie.
-
Ztotožnit většinu uzlů fondu s uzly Databáze a tím k němu přidat
informační hodnotu Databáze.