Development of the Clinical Corpus with Disease Name Annotation

15 February 2018

journal article
Published by Association for Natural Language Processing in Journal of Natural Language Processing

Vol. 25 (1), 119-152
https://doi.org/10.5715/jnlp.25.119

Abstract

高度な人工知能研究のためには，その材料となるデータが必須となる．医療，特に臨床に関わる分野において，人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである．このようなデータを最大限に利用するには，自然言語処理による情報抽出が必須であり，同時に，情報抽出技術を開発するためのコーパスが必要となる．本コーパスの特徴は，45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と，単に用語のアノテーションや用語の標準化を行っただけでなく，当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である．本稿では病名や症状のアノテーションを対象に，この医療コーパス開発についてその詳細を述べる．人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる．本稿の構成は以下の通りである．まず，アノテーションの基準について，例を交えながら，概念の定義について述べる．次に，実際にアノテーターが作業した際の一致率などの指標を算出し，アノテーションのフィージビリティについて述べる．最後に，構築したコーパスを用いた病名抽出システムについて報告する．本稿のアノテーション仕様は，様々な医療テキストや医療表現をアノテーションする際の参考となるであろう．

This publication has 2 references indexed in Scilit:

Overview of the ShARe/CLEF eHealth Evaluation Lab 2014
Lecture Notes in Computer Science, 2014
TEXT2TABLE
Published by Association for Computational Linguistics (ACL) ,2009

Cited by 9 articles