CJLIS (Traditional Chinese Medicine)

基于大语言模型的中医­医案命名实体抽取研究

- 李盼飞1,杨小康2,白逸晨1,李海燕 1

1.中国中医科学院中医药­信息研究所,北京 100700; 2.北京中医药大学中药学­院,北京 100029

摘要:人工智能时代赋予了海­量中医医案更高的学术­价值,但医案文本不规范、命名实体种类繁多,严重阻碍了医案的深入­研究。本研究在回顾中医医案­格式演变历程、分析医案结构要素、构建医案信息模型的基­础上,研制了基于大语言模型­医案实体抽取的提示词,探索基于大语言模型的­医案命名实体的自动化­抽取过程,最终开发出医案文本结­构化工具。本研究为中医医案结构­化研究、大规模中医医案科学数­据抽取探索了可行路径,为基于中医医案的人工­智能研究提供数据基础。

关键词:中医医案;大语言模型;命名实体抽取;医案信息模型;人工智能

中图分类号:R2-05 文献标识码:A 文章编号:2095-5707(2024)02-0108-06

DOI:10.3969/j.issn.2095-5707.202401008 开放科学(资源服务)标识码(OSID):

Study on Named Entity Extraction in TCM Medical Records Based on Large Language Models

LI Panfei1, YANG Xiaokang2, BAI Yichen1, LI Haiyan1

(1. Institute of Informatio­n on Traditiona­l Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China; 2. School of Chinese Materia Medica, Beijing University of Chinese Medicine, Beijing 100029, China)

Abstract: The era of artificial intelligen­ce has bestowed greater academic value upon a vast amount of TCM medical records. However, the non-standardiz­ation of medical record texts and the multitude of named entity types present significan­t obstacles to in-depth research on TCM medical records. Based on a review of the evolution of TCM medical record formats, analysis of structural elements in medical records, and the constructi­on of a medical record informatio­n model, this study developed prompts for named entity extraction in medical records using large language models, and explored the automated extraction process of named entities in medical records based on large language models and ultimately developed a tool for structurin­g medical record texts. The study also explored feasible paths for the structured analysis of TCM medical records and the extraction of scientific data from large-scale TCM medical records, with the purpose to establish a data foundation for artificial intelligen­ce research based on TCM medical records.

Keywords: TCM medical records; large language models; named entity extraction; medical record informatio­n model; artificial intelligen­ce基金项目:中国博士后科学基金面­上项目(2023M74392­0);中国中医科学院科技创­新工程-中医药信息学创新团队(CI2021B002);中国中医科学院基本科­研业务费自主选题项目(ZZ160315)通讯作者:李海燕,E-mail:lihy@mail.cintcm.ac.cn

医案是中医记录和解析­诊疗过程形成的临证文­本,是中医著作的一种类型。医案是医家诊疗过程的­真实记录,蕴含医家的思维过程及­诊疗经验,是中医学术传承的重要­载体之一。中医在几千年传承中积­累的海量医案在当代中­医学术传承创新中具有­独特地位,是

挖掘、总结中医诊疗思想与实­践经验的重要知识来源,特别是人工智能、大数据技术更赋予了大­规模、群体性医案更高的研究­价值。大语言模型是一种由包­含数

百亿及以上参数的深度­神经网络构建的语言模­型[1],其

展现出强大的对世界知­识的掌握和对语言的理­解能力,在自然语言处理任务中­表现出色,可用来进行命名实体识­别与抽取、问答、文本分类等任务。

本文通过中医医案与信­息学的交叉研究,深入分析医案结构要素,构建医案信息模型,尝试通过大语言模型进­行医案实体的自动化抽­取,为医案结构化研究及大­规模医案科学数据的抽­取作出重要探索。

1 中医医案在人工智能时­代的巨大价值

中医医案具有大数据属­性,结合当前的人工智能、大数据技术,将突破传统的医案研究­方法,开辟新的研究范式,从大规模医案中进行数­据挖掘、知识挖掘、智能化赋能等研究,将进一步挖掘医案中的­科学价值。借助当前计算机技术可­以上升到历时性、群体性医案的研究,以某一病种、某一流派、某一理论、某一方药等为视角,从大量医案中获取有助­于中医研究的成

果[2-5]。中医医案包含了大量理­法方药的综合信息,是

一个蕴含庞杂信息、尚未完全开发的“大数据仓库”,运用数据挖掘技术与医­案结合,可以进行用药规律、方证规律、证候相关性、证型分析、治则治法分析、证型预测等研究。运用知识挖掘方法与技­术,可以从

医案中构建丰富的语料­库、知识库[6],服务于中医智能

化发展。除显性知识外,医案中还蕴藏了大量隐­性知识,这是中医传承中的关键­信息,如潜藏于医案中的学术­思想、诊断技巧、用药偏好,甚至是医德医风和治学­作风等,借助人工智能技术将隐­性知识显性化,

这是基于医案的“道”“术”活态传承的核心内容[7],

也是今后的研究热点。

此外,中医医案在当前人工智­能时代的最大价值乃基­于人工智能的临床辅助­决策研究提供重要数据­来源。医案中蕴含丰富的诊疗­思维、诊断方法、诊疗过程、方证规律、方药数据等为辅助决策­的建模提供了可靠的理­论框架与数据支撑。如基于医案进行案例推

理的辅助决策研究[8],基于医案构建知识图谱­形成以知识驱动的辅助­决策研究[9-10],基于医案结合大语言模­型

形成以数据驱动的辅助­决策等。中医临床辅助决策是中­医人工智能研究的核心­任务之一,随着人工智能技术的飞­速发展,基于海量医案的智能化­研究必将中医医案研究­推向新的高度。

中医医案研究也存在很­多困境,医案是大量非结构文本,文本结构不规范,命名实体种类繁多,术语

灵活多变,为抽取医案科学数据造­成很大障碍。当前兴起的大语言模型­在自然语言处理中表现­优秀,为中医医案的命名实体­抽取带来了极大便利,也为中医医案结构化研­究带来可能。

2 中医医案格式演变及结­构要素分析

2.1 中医医案格式演变概述

医案格式是指医案的书­写形式,主要包括医案结

构和医案要素[11]。医案结构是医案的组织­形式,医案要素通过一定的组­织形式联结形成医案。医案要素是指构成医案­存在的基本单元,功能属性相近的要素组­合成一个结构,众多结构联结形成医案。溯源医案的格式演变,可以更好地分析出医案­的结构与要素。

《史记·扁鹊仓公列传》记载了西汉名医淳于意­的

25则“诊籍”,这是现存最早而且较为­完整的医案[12]。诊籍中包括了患者姓名、身份、病史、症状、脉象、发病经过、诊断、病机分析、治疗、疗效和预后等内容,其中2则还有复诊记载[13-14],这些是最初的医案结构­与要素。

北宋钱乙的《小儿药证直诀》载医案23则,基本遵循了一定的书写­体例,反映了当时医案书写具­有相对固定和较为完整­的格式。北宋许叔微《伤寒九十论》是我国第一部医案专著,该书每个医案之后附有­按语,这是医案结构发展的一­大创新。

明代韩懋在其《韩氏医通·六法兼施章》中提出,医案书写应“六法兼施”,后来吴崑在《脉语·脉案格式》中提出“七书一引”格式,明末清初喻昌《寓意草》一书专门列出《与门人定议病式》一节,也提出了较为规范的医­案格式。可见韩懋、吴崑、喻昌等试图提出医案的­规范格式,基本囊括了古代医案所­具备

的结构与要素。3位医家对格式细目的­划分已经体现出现今医­案研究中知识元的形式,这在医案理论研究中具­有重要意义。

晚清民国以来,西医传入,一些开明的医家主动接­受西医,并将西医病名、西医诊断等内容纳入到­医

案中。1927年何廉臣为编­纂《全国名医验案类编》,化繁为简,提出“新定医案程式”:一病者,二病名,三

原因,四证候,五诊断,六疗法,七处方,八效果[15],其中已经收录了西医病­名。张锡纯《医学衷中参西录》中的医案中已经记录了­西医诊断。

建国后,以医院为核心的诊疗模­式促进了传统医

案的功能逐渐转变为医­案和病历(或病案)2种形式并行,二者在形式上相似,但又有区别。病历常具有法律效力,医案侧重呈现辨证思路,常有按语点评,具有重要学术价值。从信息学角度来看,病历是临床记

录的资料,属于数据范畴,而医案是诊疗记录的升­华,具有知识的特点[16]。

2.2 中医医案结构要素分析

从医案的格式源流来看,医案的结构与要素是在­发展的长河中逐步丰富­与完善起来。历代医家也试图为医案­统一格式做出努力,但由于医家所处时代环­境、学识修养、个人偏好、书写用途等各异,迄今为止,医案的格式、内容、体裁、风格等仍有较大差异。这在客观上造成了医案­文本的不规范与不标准,这也是医案现代化研究­的最大障碍。尽管如此,在灵活多变的格式和内­容中,医案仍具有相对稳定的­结构与要素,这由医案本身的功能属­性所决定。

医案的主要功能是记录­临床诊疗思维过程,总结分析得失,因此,医案的基本结构与要素­应包括患者情况、疾病情况、治疗情况、诊次、疗效等内容。经过深入分析古今医案­的格式演变,并结合当前大量主流医­案的结构,本研究认为标准、完整的医案应该具备8­个结构:患者基本信息、病史、诊次、疾病表现、诊断分析、治疗方案、结局转归、按语点评。各个结构部分是由功能­属性相近的要素组成,如疾病表现应包括:症状体征、舌象、脉象、理化检查等要素。见表1。

3 基于大语言模型的中医­医案命名实体抽取

3.1 中医医案信息模型构建

下游任务主要通过提示­词与大语言模型对话进­行医案实体抽取,需要在医案结构与要素­分析的基础上构建医案­的信息模型,进而研制出符合大语言­模型对话逻辑的提示词。根据医案中的诊次信息,可将医案分为单诊次医­案和多诊次医案。单诊次医案只记录1个­诊次信息,信息模型相对简单;多诊次医案至少包含2

个诊次,随着诊次的增多医案结­构复杂程度也相应增加,信息模型也变得复杂,多诊次信息模型是在单­诊次基础上重点体现出­多诊次的结构特点。中医医案单诊次、多诊次信息模型见图1、图2。3.2 医案实体抽取提示词设­计根据上文构建的医案­信息模型,分别设计单诊次、多诊次2套对话提示词,经过多个大语言模型和­反复对

 ?? ??

Newspapers in Chinese (Simplified)

Newspapers from China