计算医学:数智时代的医学发展新范式 Computational Medicine: A Novel Paradigm of Medical Development in the Era of Digital Intelligence 本期导读 数据的飞速积累和方法的加速更新换代预示着未来医学范式的转变方向:一种以数据和计算方 法为主的计算医学(Computational Medicine,CM)。通过计算模型、超算技术,数据之间的 相关关系被更好的体现出来,具有高通量高维度特征的海量数据,通过复杂系统的计算建模, 以更逼近真实的方式理解生命机理和疾病机制,提高疾病预测、临床诊疗和健康维护水平,使 个性化决策成为可能,有可能彻底改变从单个病人护理到政策制定的整个医学领域。 浙江数字医疗卫生技术研究院 李莹莹 周佳卉 张建楠 朱烨琳 郑 杰 浙江树人大学 王力飞 叶芳芳 江 俊 媒体支持 动脉网 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 内容摘要 ( 一 ) 引言 与其他学科相比,医学实践具有相当大的不 确定性,而且这种不确定性一直存在,这也 是医学实践如此具有挑战性的原因。大数据 的发展,赋予了医生和临床科研人员更多、 更细致的维度去了解疾病发生发展过程,大 大拓展了医学研究的深度和广度。但是,生 物医学大数据的规模和产生速度已远远超出 了个人的处理能力,急需新的方式与手段帮 助医生从从多维、立体、融合的数据中摸索 出规律,从而更精确地进行疾病的诊断和治 疗。一种以数据和计算方法为主的计算医学 的出现与发展预示着未来医学发展范式的转 向。 ( 二 ) 计算医学概念与知识体系 计算医学的核心是通过应用数学、计算科学 来理解人类疾病的机理,为医学服务提供新 洞见,提高并改善疾病诊疗水平,广义上应 用计算机和计算模型来支持医疗保健服务的 医学研究的所有方面都可以被纳入到计算医 学范畴。作为一门较高难度的交叉学科,计 算医学需要综合来自计算机科学、数学、统 计学、生物化学、化学工程、生物医学工程、 生物物理学、分子生物学、遗传学、生态学、 解剖学等学科的知识。 ( 三 ) 计算医学研究进展 计算医学研究热度持续上升,最近几年在项 目研发投入与文献发布量上增速明显,但相 较于美国,中国在计算医学领域的研发投入 整体较少。研究内容上,模型研究、各类应 用模式(表达、模拟、算法、识别、预测、 分类)以及癌症、系统等为计算医学领域研 究的核心。研究内容变化上呈现:从原有的 理论、模型研究向应用领域研究发展;从数 理统计算法研究向基于人工智能技术发展; 从生物、解剖数学模型构建、到基于大数据 驱动的计算基因组学再到精准医疗等临床医 疗应用发展。国家比较来看,中美两国在计 算医学研究领域涉及面较广,各类研究主题 均有布局;中国在精准医疗应用、模型、机 器学习、个性化医疗、仿真模拟五个方面的 研究关注度与美国差距较大。 ( 四 ) 计算医学主要研究内容 本文结合技术与医学应用两个维度,并依据 时间发展顺序,归纳了计算医学的研究内容, 包括四个方面:以模型构建为核心的计算医 学基础研究、以海量基因组学数据驱动的计 算基因组学研究、基于人工智能技术的计算 医疗应用研究、面向精准医疗的计算医学研 究。并简要介绍了各个领域主要研究内容及 典型应用。 ( 五 ) 计算医学学科建设情况 为了应对医学范式向计算医学转变带来的挑 战,提高计算医学研究能力,世界各国的大 学和科研机构纷纷成立计算医学相关的研究 部门,这些机构多数前身为计算生物、生物 数学系、生物医学工程系等,学科建设仍在 持续发展过程中。在国外,这些高校院系也 成为了计算医学的主要研究中心。相较而言, 中国除中国科学院外,还没有形成比较集中 有影响力的计算医学领域研究中心。尽管各 个学校将建立的院系或开设的专业冠以“计 算医学”之名,但其研究的内容和侧重点各 不相同。 1 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 ( 六 ) 计算医学发展展望 计算医学的发展有望实现关于健康、疾病的 量化理解,带来医学发展范式的变革,但与 主流学术领域相比仍处于边缘的位置。现有 的模型对现实情况的模拟仍然是不充分的, 找到能够定义虚拟世界与经验世界之间联系 的工具,尤其是计算机仿真模型的有效性仍 然是困难。随着基因组学、医学成像、诊断 技术和转化医学方面的不断发展,人工智能 的深度融合,共性服务、共性平台、公共设 施的不断完善,将为我们开发癌症、遗传疾 病和传染性疾病的诊断工具和新疗法提供可 能性。计算医学作为关键的融合手段,将构 建人体“数字孪生”,实现精准健康维护, 让个性化医疗照进现实。 2 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 研究简介 ( 一 ) 研究背景 随着基因测序技术、可穿戴设备等新的检测 方法和检测工具的不断涌现,医疗健康相关 的数据正在指数级增长中。这些复杂数据的 处理已经远远超出个人的处理能力,亟需新 的方式与手段帮助医生从多维、立体、融合 的数据中摸索出规律,从而更精确地进行疾 病的诊断和治疗。一种以数据和计算方法为 主的计算医学,正受到越来越多的关注。 ( 二 ) 研究目标 了解计算医学的产生背景,明确计算医学的 基本定义。了解当前国内外计算医学的发展 现状以及主要研究内容的异同点,了解我国 在计算医学领域研究上与领先国家的主要差 距点。了解计算医学应用的主要方式。通过 本期白皮书,帮助读者形成对计算医学的初 步认知。 ( 三 ) 研究方法 本研究主要通过对国内外相关文献和资料进 行检索和整理归纳,并利用动态科学文献分 析 工 具 CiteSpace(CiteSpace 5.8.R1) 对 Web of Science 核心合集(1900- 至今)中 的计算医学主题的文献数据进行可视化分析, 同时对国内有代表性的开展高校专家进行调 研,深入了解计算医学学科发展情况与主要 研究内容。 ( 四 ) 机构介绍 1. 浙江数字医疗卫生技术研究院 浙江数字医疗卫生技术研究院(简称“数研 院”,imitTM)是中国首家致力于数字与信息 化技术在医疗卫生健康服务领域研发与应用 的专业性非营利研究机构(NPO/NGO),院 3 长为杨胜利院士,理事长为李兰娟院士,常 务副院长为郑杰先生。 数研院聚集众多业内的资深院士和专家学者、 全球著名的医疗保健设备厂商、国内外领先 的行业软件企业来共同从事该领域的研究开 发、顾问咨询、认证评估、国际合作、成果 转化等工作,并引领政、产、学、研、用、 资六位一体的公益事业公共服务支撑平台, 进而营造出可生存可持续发展的数字医疗卫 生产业链生态环境。 2. 浙江树人大学 浙江树人学院(浙江树人大学)创办于 1984 年,是一所由浙江省政协举办、省教育厅主 管的社会力量办学本科高校。学校现有杭州 拱宸桥与绍兴杨汛桥两个校区,教职工 1200 人,在校生 1.7 万余人。设有院士领衔的树兰 国际医学院等 12 个二级学院,学科涵盖医学、 文学、经济学、管理学、理学、法学、工学、 艺术学等 8 大学科门类,共有 4 个省一流学科; 开设了 50 个本科专业,8 个专科专业,其中 1 个国家特色专业,4 个省重点专业,1 个省 优势专业,1 个省优势建设专业,4 个省新兴 特色建设专业,3 个省特色建设专业。共有教 育部白俄罗斯国别与区域研究中心和省现代 服务业研究中心 2 个省部级研究基地,2 个省 行业平台,1 个省创新团队,25 个校级研究 机构及平台。2015 年学校被确定为浙江省首 批应用型试点示范建设学校,在中国民办本 科院校竞争力排行榜中连续多年荣获第一。 3. 动脉网 动脉网创立于 2014 年,是中国领先的医疗 健康产业研究机构和媒体平台,持续聚焦全 球技术变革下的医疗健康产业变迁,对行业 创新和创投进行长期的研究报道。动脉网拥 有中国最大的医疗健康创新创投资源库,提 供优质的媒体传播、产业研究、产业活动, IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 及投融资对接和产业合作资源对接等服务。7 年来,动脉网发布了 14000 多篇原创文章、 360 多份原创产业报告、报道企业 6000 多家, 70% 以上创新企业选择在动脉网首发。目前, 动脉网的微信公众号粉丝超过 20 万,40 多 个自媒体渠道月均流量超过 1200 万。 ( 五 ) 版权说明 本白皮书版权属于浙江数字医疗卫生技术研 究院,并受法律保护。转载、摘编或利用其 它使用本白皮书文字或观点内容,请注明“来 源:浙江数字医疗卫生技术研究院”,若违 反上述声明者,本院将追究其相关法律责任。 4 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 一、引言 ( 一 ) 传统医学范式面临的挑战 一个多世纪前 Sir William Osler 对医学的描述 “医学是一门不确定的科学,也是一门概率 的艺术”至今仍能引起我们的强烈共鸣。与 其他学科相比,医学实践具有相当大的不确 定性,而且这种不确定性一直存在,这也是 医学实践如此具有挑战性的原因。由于做出 决策的信息不完整以及偶然、随机或运气因 素,使得医疗决策不得不面临两个问题:既 没有完美的测试,也没有完美的治疗方法 [1]。 传统医学模式中,面对这些决策中的不确定 性,通常的处理方式是通过从经验中积累的 专业知识进行判断,后发展为通过循证医学 的形式对研究进行系统的评估实现。但循证 医学主要以群体证据作为核心依据,往往无 法有效的解释个体差异。基因测序、检查检 验设备、可穿戴设备等新的检测方法和检测 工具的不断涌现,使得我们可以获取个人不 同尺度上的健康、疾病数据,医疗健康相关 的数据指数级增长。大数据赋予了医生和临 床科研人员更多、更细致的维度去了解疾病 发生发展过程,大大拓展了医学研究的深度 和广度。但人作为一个多层次非线性的复杂 系统,与健康相关的影响因素与数据维度异 常复杂,不同因素在不同尺度上相互作用影 响着健康,见图 1。例如,癌症、糖尿病、 心血管疾病和精神疾病等复杂疾病是由多种 遗传、表观遗传和环境因素引起的,可能是 DNA 变异,也可能是由于生物网络中的多 个分子相互作用紊乱而发展起来的,一种复 杂疾病的临床特征是多尺度系统综合行为的 表型表现。这些复杂数据的处理已经远远超 出个人的处理能力,急需新的方式与手段帮 助医生从多维、立体、融合的数据中摸索出 规律,从而更精确地进行疾病的预测、预防、 诊断和治疗。 图 1:“人”系统涉及的数据维度尺度 5 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 ( 二 ) 计算医学的诞生 早 在 80 年 代, 如 何 在 医 学 领 域 里 应 用 计 算技术的研究就已经开始。1994 年,首届 计 算 医 学、 公 共 卫 生 和 生 物 科 技 大 会 在 美 国奥斯汀举行,来自 30 个国家的超过 500 名专家学者共同就计算模型在医学领域的 应用进行了交流。“Building a man in the machine”是本次会议的主题,围绕着这一 主题,会议议程中讨论了众多计算领域话题 包括:计算药理学与药物设计、计算免疫学、 计算基因组学、计算生物力学、计算和数学 生理学、计算机在精神医学计算、心脏病学、 肿瘤建模、人类大脑计划、多模态脑成像建 模等。时任美国环境保护局局长的 William F.Raub 博士在主旨演讲中提到计算医学在 当时还是一个非常小众的研究,只有一小部 分生物医学科学家在使用计算方法,开展数 学建模。 随着数据的飞速积累以及大数据的处理挖掘 方 法 不 断 成 熟, 以 深 度 学 习 为 代 表 的 人 工 智能方法在图像识别、自然语言处理等领域 取得了令人瞩目的成就。这些数据和技术领 域的革新也推动了计算医学进入快速发展周 期。在当下,计算医学通过高通量高维度特 征的海量数据计算建模,以更逼近真实的方 式理解生命机理和疾病机制,提高疾病预测、 临床诊疗和健康维护水平,使个性化决策成 为可能。 2012 年 10 月,约翰霍普金斯大学生物医 学 工 程 教 授 Raimond L.Winslow 在《 科 学 转 化 医 学 》(Science Translational Medicine)发表了一篇名为《计算医学:从 模 型 到 临 床 》(Computational Medicine: Translating Models to Clinical Care) 的 综 述性文章,指出计算医学已经从理论走向实 践,Winslow 也被公认为计算医学新领域的 创始人。 6 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 二、计算医学概念与知识体系 ( 一 ) 概念 Winslow 将通过计算建模理解疾病中生命系 统的扰动结构和功能,从建模中获得启发用 以改进疾病诊断和治疗的方法称之为“计算 医学”。这里的计算建模不仅包括分子网络 和生理过程的模型,也包括了生理功能分层 的解剖模型,其核心是使用定量模型来理解 疾病的结构和功能改变 [2]。纽约大学将计算 医 学 描 述 为“ 计 算 医 学 是 利 用 数 据 驱 动 的 分析来发现复杂动态生物系统的结构、功能 和进化”[3]。约翰霍普金斯大学的计算医学 所的定义则强调模型的构建:“计算医学是 计算机科学和医学交界的一个跨学科领域, 计算方法被开发来了解人类疾病。数学、信 息学和计算模型被应用于为疾病的机制、诊 断 和 治 疗 提 供 见 解, 并 最 终 改 善 病 人 的 护 理”[4]。虽然各自对计算医学的定义不尽相 同,但总体而言,作为一门新兴的学科,计 算医学的核心是通过应用数学、计算科学来 理解人类疾病的机理,为医学服务提供新洞 见,提高并改善疾病诊疗水平,广义上应用 计算机和计算模型来支持医疗保健服务的医 学研究的所有方面都可以被纳入到计算医学 范畴。 另一个与计算医学密切相关的学科为计算生 物学(Computational Biology)。根据美国 国家卫生研究院的定义,计算生物学是指开 发和应用数据分析及理论的方法、数学建模 和计算机仿真技术,用于生物学、行为学和 社会群体系统的研究的一门学科。计算生物 学重点以生命科学中的现象和规律作为研究 对象 , 以解决生物学问题为最终目标,研究 内容包括生物序列分析,基因鉴定,监管主 题发现,基因组组装,基因组复制和重排, 进化理论,聚类算法,无标度网络等 [5]。从 研究内容上计算医学和计算生物学有部分交 叉,例如在计算基因组学领域,但计算生物 学作为生物学的一个分支,仍然偏向于基础 科学,为医学研究提供基础支撑。而计算医 学更偏向于应用科学,关注的是人体健康与 疾病相关问题的研究。 根据文献研究显示,计算医学的研究重点大 致经历了三个阶段的演变: ● 人体仿真与计算建模研究阶段 ● 基因大数据驱动的计算医学应用 研究阶段 ● 基于人工智能的计算医学与应用 研究阶段 具体到与医学的融合,计算医学与现代医学 的 发 展 趋 势 保 持 着 相 对 的 一 致 性。 现 代 医 学在研究层次上主要向着微观和宏观发展, 从分子医学的实验方法发展到系统医学的理 论与实验方法结合并进。学科体系上,既存 在学科分立和学科之间的交叉融合。现代医 学在向微观发展的过程中,是伴随着定量化 分析技术的提升得以实现,两个过程不可分 割,因此在计算机技术与医学紧密结合的领 域出现了计算医学较早的研究内容,包括计 算基因组学、计算神经遗传学建模、计算神 经科学等。在向宏观发展方面,一种是人们 认识到人本身是一个整体;二是把人作为一 个与自然环境和社会环境密切相互作用的整 体来研究,人体建模、数字人体、精准医学 等计算医学领域研究内容则是在这一趋势下 产生。 中国科学院计算技术研究所高性能计算机研 究中心主任谭光明从四个维度清晰的阐释了 计算医学的内涵 [6]: 7 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 来源:中国科学报,白皮书团队整理 ( 二 ) 知识体系 计算医学是一门较高难度的交叉学科。需要综 合来自计算机科学、数学、统计学、生物化学、 化学工程、生物医学工程、生物物理学、分子 生物学、遗传学、生态学、解剖学等学科的知 识,见图 2。 计算医学会涉及到使用近现代的数学工具来 对生物对象进行数学建模,所以对数学的要求 会比较高,尤其是动力系统和概率。而微积分 和线性代数又是动力系统和概率的基础。其他 基础必要的知识还包括生物学基础、医学基 础、计算机基础和工程基础领域知识,见表 1。 图 2:计算医学研究理论基础 来源:各高校计算医学课程信息,白皮书团队整理分析 8 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 表 1:主要涉及学科及基础知识 理论基础 分类 学科 主要内容 微积分 函数和极限;导数和微分,面(体)积和积分,微分和积分间的关系。微分方程,常 微分方程组。 微分方程 的计算 浮点运算、算法和收敛、求根(中点法、牛顿法和割线法)、数值微分和积分以及初 值问题的数值解(龙格 - 库塔法、多步法、外推法、稳定性、隐式法和刚度)。理论主题, 如初值问题解的存在性、唯一性和稳定性,高阶 / 非自治方程到系统的转换等。 数学 相关基础 线性代数 概率 向量,向量空间(或称线性空间);线性空间里的线性相关与线性无关;线性空间的基; 矩阵和线性变换;矩阵的特征值和特征向量。 微积分水平上的概率及其应用。概率,组合概率,随机变量,分布函数,重要概率分布, 独立性,条件概率,矩,协方差和相关性,极限定理。 统计 有限总体抽样、近似方法、经典参数估计、假设检验、方差分析和回归。贝叶斯方法。 随机过程 随机过程的数学理论。重点是推导依赖关系、统计特性和样本路径行为,包括随机行走、 马尔可夫链(离散和连续时间)、泊松过程、鞅和布朗运动。 生物化学 蛋白质、核酸、脂肪、糖等生物大分子的结构、功能、代谢。 生物学 基础 分子生物学 细胞生物学 中心法则;基因、染色体与染色质、基因组;DNA 复制、重组;转录、可变剪接、信 使 RNA 的稳定性,翻译;基因调控。 细胞的形态结构、生理机能、细胞周期、细胞分裂、细胞自噬、细胞凋亡,以及各种 细胞器及信号传递通路。 医学 相关基础 人体生理学 人体解剖学 血液与循环系统、肺与呼吸系统、消化系统、肾脏与排泄、神经系统、感觉器官、内分泌、 生殖、衰老。 研究正常人体各部分形态、结构、位置、毗邻及结构与功能关系。 诊断学 诊断疾病步骤和临床思维方法、常见症状、病历内容、辅助检查。 编程语言 熟悉一门编程语言(JAVA/PYTHON/Matlab)中变量、数组、函数以及控制结构(判 断结构和循环结构)的使用,并进一步熟悉指针、动态内存分配、多态性、重载、继承、 模板、集合、异常等概念(C++)。 计算机 相关基础 数据结构 机器学习 数据结构的设计和实现。相关数据结构包括数组、堆栈、队列、链表、二叉树、堆、 平衡树(如 2-3 树、AVL 树)和图。 统计机器学习方法、概率图模型。逻辑回归、广义线性回归、主成分分析、最近邻、 支持向量机、决策树、随机森林、K- 均值聚类、高斯混合等,概率图的表示、推断、 参数和结构学习。 深度学习的常用体系结构、深度学习优化方法、深度学习编程系统以及在计算机视觉、 语音理解和机器人学中的应用。 计算机视觉 摄像机系统及其建模,双目立体、运动和光度立体计算三维几何;物体识别;边缘检 测和颜色感知;机器视觉和生物视觉。 工程类 相关基础 电气和 计算机工程 机械工程 化学和 生物分子工程 信号和系统、系统和控制、线性系统理论导论、非线性系统导论。 动力学系统,动力系统的设计和分析,运动动力学与控制。 化学与生物过程分析导论、应用与化学工程的动力学建模与控制、药代和药效动力学。 来源:各高校计算医学课程信息,白皮书团队整理分析 9 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 三、计算医学研究进展 ( 一 ) 国内外研究投入情况 搜索知领·全球科研项目库 [7] 最近 10 年题 名 或 关 键 词 包 含 计 算 医 学 相 关 的 项 目, 共 计 3417 条。(检索式:(KY=computational OR KY= 计 算 OR TI=computational OR TI= 计 算 OR KY=AI OR KY=artificial intelligence OR KY=machine learning OR KY=deep learning OR KY= 人 工 智 能 OR KY= 机 器 学 习 OR KY= 深 度 学 习 ) and (KY=medicine OR KY= 医 疗 OR KY=healthcare OR KY= 医 学 OR TI=medicine or TI= 医疗 OR TI=healthcare OR TI= 医学 OR KY=gene OR KY= 基因 ), KY= 关键词,TI= 项目名称)。 对有效数据进行统计结果显示,总体上,全 球近十年计算医学相关领域研究投入经费波 动较大,2019 年在总研发投入经费和平均 项目研发投入经费均达到了历年最高值,见 图 3。国家分布上,研发经费投入最高的前 三位国家分别为美国、比利时和英国,平均 项目研发经费投入最高的国家分别为比利 时、斯洛伐克和澳大利亚,见图 4。 研发经费投入排名前 10 的项目的开始时间 主要集中在最近 5 年,重点投入在研究中心 建设、基础设施投入、人才培养、个性化治 疗等领域,见表 2: 图 3:全球近 10 年计算医学研究投入情况 来源:知领全球科研项目库数据;白皮书团队分析 图 4:各国计算医学研发投入情况 来源:知领全球科研项目库数据;白皮书团队分析 10 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 表 2:近十年全球计算医学领域研发投入经费前十的项目情况 项目名称 资助机构 承担机构 起止时间 项目金额(美元) 多发性硬化症中遗传和非遗传因 素的多种表现与多组学加速个性 化治疗的方法 [8] 欧盟 Karolinska Institutet 2017-2021 17,085,366 深度学习和高性能计算机促进生 物医学健康应用 [9] 欧盟 Everis Spain SL 2019-2021 16,632,216 伦敦国王学院医学工程卓越研究 中心 [10] 英国 King's College London 2017-2022 12,100,395 为 DCCP 提供生物医学计算支持 服务 [11] 美国 Information Management Services 2015-2017 14,112,182 伦敦医学影像与人工智能价值医 疗中心 [12] 英国 Imperial College London 2019-2022 9,985,272 生物医学学习和学生培训 (BLaST)计划 [13] 美国 University of Alaska Fairbanks 2014-2024 12,396,907 国家智能医学成像联盟(NCIMI)[14] 英国 University of Oxford 2019-2021 9,633,794 医学生物信息学 : 个性化医学的数 据驱动发现 [15] 英国 University College London 2014-2021 11,129,560 通 过 大 数 据 分 析 和 动 态 建 模, 实 现慢性呼吸系统疾病个性化医疗 的数据驱动计算方法 [16] 欧盟 Fundacio Institut De Bioenginyeria De Catalunya 2020-2022 196,434 使用人工智能增强的社交机器人 改善儿童的医疗体验 [17] 英国 University of Glasgow 2020-2025 636,497 来源:知领全球科研项目库数据;白皮书团队分析 ( 二 ) 研究现状与趋势 本 节 内 容 以 Web of Science 核 心 合 集(1900- 至 今 ) 中 收 录 的 主 题 为 “computational medicine” 的 5257 篇 文 献数据为样本,进行计算医学领域研究可视 化分析,了解计算医学整体发展情况,重点 研究内容及演进态势等。(检索条件:主题 =Computational medicine, 检 索 时 间 截 止 至 2021 年 7 月 27 日, 文 献 类 型:all)。 本节图表来源未特别标注均为白皮书团队分 析所得。 1. 总体情况 1)时间趋势 11 文献发布时间跨度为 1980 年 -2021 年。总 体来看,全球范围内计算医学研究热度持续 上涨,尤其 2010 年前后开始出现快速上涨, 整体呈加速趋势,计算医学研究热度持续升 高。中美两国的研究趋势与全球基本保持一 致,见图 5。 2) 国家 / 地区分布 对国家分布进行分析,发文数量最高的前三 个 国 家 分 为 " 美 国 "(2154 篇)、" 中 国 " (761 篇)、" 英国 "(499 篇)。仅从发文 数量来看,中国在研究关注度上与美国相比 仍有一定差距,美国发文数量占总体文献数 的 34.24%,为中国(12.1%)的 2.83 倍, 见图 6。 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 图 5:1990-2021 年计算医学研究领域发文量时间分布比较 图 6:计算医学发文量国家分布情况 3)主要研究机构情况 从发文机构来看,美国机构占了前十中的 9 个,主要以约翰霍普金斯大学、哈佛大学医 学院、斯坦福大学、美国密歇根大学等高校 为主,中国仅有 1 家机构进入前十,为中国 科学院。国外相较国内在计算医学领域已经 形成了比较有影响力的领域研究中心,见图 7。 图 7:计算医学发文前十机构发文数量 12 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 4)主要发文期刊 5)学科领域特征 发文量排名前 10 的期刊共刊登了计算医学 文献 832 篇(15.83%),排名第一的为《医 学 物 理 学》(Medical Physics) 发 文 量 为 385 篇(7.32%),IF 最高的《生物信息学 简 报》(Briefings in Bioinformatics) 发 文 量排名第 6 位。计算医学文献发文量前十的 期刊及影像因子(IF),见表 3。 从文献学科分类统计来看,计算医学主要与 放射学、核医学和医学影像、生物化学和分 子生物学、数学与计算生物学、计算机科学 与跨学科应用、药理学与制药、生物医学工 程、生物化学研究方法学、工程、电器与电 子、多学科科学、计算机科学、人工智能等 学科密切相关。计算医学作为医学、工程与 计算机的交叉学科,是多个学科专业共同的 交叉研究领域,见图 8。 表 3:计算医学领域发文数量前十的期刊情况 排序 1 2 3 4 5 6 7 8 9 10 期刊 数量 《医学物理学》(Medical Physics) 385 《医学生物学超声》(Ultrasound in Medicine and Biology) 76 《PloS One》 68 《科学报告》(Scientific Reports) 60 《Bmc 生物信息学》(Bmc Bioinformatics) 55 《生物信息学简报》(Briefings in Bioinformatics) 50 《Plos 计算生物学》(PloS Computational Biology) 42 《计算与结构生物技术期刊》 (Computational and Structural Biotechnology Journal) 35 《生物信息学》(Bioinformatics) 31 《威利跨学科评论 - 系统生物学和医学》 (Wiley Interdisciplinary Reviews-Systems Biology and Medicine) 30 IF IF (2020) (5 年) 4.071 3.767 2.998 3.051 3.24 3.788 4.379 5.133 3.169 3.629 11.622 10.288 4.475 5.379 7.271 7.409 6.937 8.47 5.0 4.938 图 8:计算医学领域发文数量前十学科领域情况 13 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 2. 研究热点与趋势 1) 研究热点分析 ● 关键词词频分布 对 文 献 关 键 词 统 计 结 果 进 行 分 析, 排 名 前 十 的 关 键 词, 见 图 9。 可 以 看 到 计 算 医 学 领 域 排 名 前 十 的 关 键 词 分 别 为: 模 型(model)、 癌 症(cancer)、 表 达 (expression)、 预 测(prediction)、 仿 真(simulation)、识别(identification)、 系统生物学(system biology)、精准医学 (precision medicine)、系统(system)、 算法(algorithm)。 图 9:计算医学领域关键词词云 ● 关键词国家分布 各国国家计算医学关键词分布情况见图 10。可以看出,在研究领域选择上不同国 家各有侧重。中美两国的研究领域涉及面较 广,各类研究关键词均有相关文献;印度主 要侧重“药物发现(drug discovery)”, 大部分国家包括德国、加拿大、意大利等的 研 究 关 注 点 均 集 中 在 精 准 医 疗(precision medicine)、 模 型(model) 和 机 器 学 习 (machine learning)。 中 美 两 国 具 体 对 比 来 看, 中 国 的 研 究 关 键 词 排 名 前 三 的 为 药 物 发 现(drug discovery)、 精 准 医 疗 (precision medicine)、预测(prediction)。 美国研究关键词排名前三的则依次为精准医 疗((precision medicine)、模型(model) 和机器学习(machine learning),就研究 关键词的发文数量来看,中国在计算医疗技 术领域的模型构建、仿真模拟以及机器学习 研究和应用领域的精准医疗、个性化医疗等 五个方面的研究关注度与美国差距较大,见 图 11。 图 10:主要国家计算医学研究关键词分布情况 14 IMIT 白皮书 2021 年 07 月 第 21 期 文 献 ︵ 篇 ︶ 计算医学:数智时代的医学发展新范式 图 11:中美两国研究关键词发文数量比较 ● 各国研究热点变化 主要国家主题河流图显示了各个国家近 20 年来研究热点的变迁,总体来看主要是从原 有理论、模型等基础性研究向应用研究转变。 2009 年以前,各国研究主题非常多样,存 在重叠的主题主要集中在“方法(method)” 和“模型(model)”,在 2002-2009 年和 2006-2009 年分别成为日本、美国的研究热 点;2010 年以后,各国的计算医学研究热 点开始出现更多重叠,2014-2017 年“癌症 (cancer)”成为多个国家计算医学领域的 研究热点,“表达(expression)”先后成 为韩国、英国、中国在计算医学领域的研究 重点。2018 年 -2021 年“,精准医疗(precision medicine)”成为美国计算医学领域研究热 点,见图 12。 ● 研究热点时间变化 我们将 1980 年 -2021 年的 5257 篇文献按 每 5 年 1 个区间(years per slice=5),分 别选择每个区间内文献被引次数前 50 的文 献为对象(selection criteria=Top N,50), 图 12:主要国家计算医学领域研究主题河流图 15 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 进 行 关 键 词(node types=keyword) 共 现 网 络 分 析, 并 根 据 关 键 词 特 征 进 行 聚 类, 共得到了 10 个聚类类别。一般认为轮廓值 (Silhouette)S>0.5 聚类是合理的,S>0.7 意味着聚类是令人信服的。计算医学形成的 10 个聚类结构都非常清晰,见表 4。聚类序 号越小,表明聚类中包含的关键词越多,“精 准医学”的研究内容是所有聚类中最为丰富 的,其次是“机器学习”子领域,第三则为 虚拟筛选靶点发现等药物发现相关的“计算 研究”领域,同时“计算研究”也是最新的 领域方向,平均发文时间为 2013 年。 表 4:计算医学关键词聚类信息汇总表 序号 聚类名称 节点数 轮廓值 平均年份 聚类标签词(LLR 算法) 精准医疗 (precision medicine) (584.39,0.0001); 特征选择 (feature selection) (500.1,0.0001); 精准医疗 0 precision medicine 27 0.935 2000 立体定向放射治疗计划系统 (stereotactic radiosurgery treatment planning) (441.45,0.0001); 理论指导 (theoretic steering) (441.45,0.0001); coloring theory (436.95,0.0001) 机器学习 1 machine learning 机器学习 (machine learning) (969.03,0.0001); 人工智能 (artificial intelligence) (759.7,0.0001); 潜在靶点 (potential target) (706.71,0.0001); 26 0.968 2000 创伤后应激障碍 (posttraumatic stress disorder) (660.74,0.0001); 认知框架 (epistemological framework) (486.14, 0.0001) 计算研究 2 computational study 计算研究 (computational study)(1251.14,0.0001); cov-2 主要蛋白酶 (cov-2 main protease)(902.95, 0.0001); 21 0.969 2013 蛋白酶 (main protease)(873.95,0.0001); 结构虚拟筛选 (structure-based virtual screening) (851.42,0.0001); 虚拟筛选 (virtual screening)(664.72,0.0001) 实现路径 3 practical method 实现路径 (practical method) (314.6,0.0001); 散射补偿 (incorporating scatter) (314.6,0.0001); 精确散射补偿 (accurate scatter compensation) 18 0.918 1998 (314.6,0.0001); 边界元方法 (boundary element approach) (307.27, 0.0001); 蒙特卡罗模拟研究 (monte carlo modeling studies) (299.94,0.0001) 可行性研究 4 feasibility study 可行性研究 (feasibility study) (568.6,0.0001); X 线透射 (x-ray fluoroscopy) (385.91,0.0001); 消痛颗粒 (xiaotong granule) (379.96,0.0001); 16 0.955 1997 治疗骨关节炎 (treating osteoarthritis) (379.96, 0.0001); 增加噪声 (using additive noise) (374.01,0.0001) 16 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 续上表 序号 聚类名称 节点数 轮廓值 平均年份 聚类标签词(LLR 算法) 发展趋势 5 current trend 发展趋势 current trend (213.91, 0.0001); 人类基因组图 mapping human gene (213.91, 0.0001); 15 0.995 1994 发现设计原则 (discovering design principle) (205.34, 0.0001); 介观动力学模型 (mesoscopic model) (205.34, 0.0001); 食物过敏 (food allergy) (196.78, 0.0001) 基因序列 6 dna sequence 基因序列 (dna sequence) (670.85,0.0001); 组织工程学 (tissue engineering) (639.12,0.0001); 15 0.886 2003 主题发现 (discovering motif) (441.36,0.0001); 生物信息学方法 (bioinformatics method) (436.62 0.0001); 综合组学 (integrative omics) (431.87,0.0001) 血细胞比容 (varying hematocrit) (299.79, 0.0001); 血液流速剖面 (blood velocity profile) (283.77, 0.0001); 血细胞比容 7 varying hematocrit 14 0.919 1996 静脉导管进口 (ductus venosus inle) (283.77, 0.0001); 多普勒 (doppler measurement) (276.3,0.0001); 静脉导管流体动力学 (ductus venosus fluid dynamics) (276.3,0.0001) 俄歇电子发射放射性核素 (auger-electron emitting 俄歇电子发射放射 radionuclide) (219.77,0.0001); 性核素 辐射能量频谱 (radiation spectra) (219.77,0.0001); 8 auger-electron 13 0.995 1994 原模型 (source model) (209.27,0.0001); emitting 高效计算近距离放射疗法 (efficient brachytherapy radionuclide computation) (209.27,0.0001); 蒙特卡洛 (monte carlo) (209.27,0.0001) 9 非编码 RNA non-coding rna 非编码 RNA(non-coding rna) (516.1,0.0001); 系统生物学 (systems biology) (469.47,0.0001); 11 0.942 2003 系统医学 (systems medicine) (428.55,0.0001); 网络医学 (network medicine) (394.04,0.0001); 靶向蛋白质组 (targeted proteomics) (358.6,0.0001) 计算机断层扫描 11 computed tomography 计算机断层扫描 (computed tomography) (466.01, 0.0001); 计量计算 (dose calculation) (426.67,0.0001); 10 0.94 1998 CT 灌注 (perfusion ct) (425.12,0.0001); 噪声特性统一 (uniform noise properties) (371.11, 0.0001); 精准高效 (efficient accurate) (364.45,0.0001) 17 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 将聚类结果绘制成关键词聚类图谱 *(见图 13)可以更加直观的展示了计算医学的研究 热点情况及变化趋势情况。可以看到,除了 #0(精准医学)、#3(计量研究)、#4(可 行性研究)、#7(血细胞比容)外,各个子 领域间较少重叠,都是比较独立的研究方向。 大体上可分为三类: 第一类计算建模相关研究,从最早的 #8 放 射建模相关内容、到 #7 血流动力学建模、 #3 蒙特卡洛模拟、#4 射线与疾病相关研究, 最突现的关键词为模型、仿真和系统。 第二类为基因组学相关研究主要包括了 #6 基因序列研究、#9 非编码 RNA 和 #5 基因 组学应用相关研究,并向 #0 精准医疗和 #2 药物筛选研究扩展,关键节点包括了癌症、 数据库、基因表达。 第三类为基于人工智能的相关研究包括了 #1 机器学习领域和 #11 精准计算机断层扫 描应用领域。 2)研究前沿分析 ● 领域研究前沿 时间线图反映了各个研究子领域的时间变迁 (见图 14)。#1 机器学习子领域时间跨度 从 1990-2021 年,是所有聚类中时间跨度 最 大 的 子 领 域, 可 以 反 映 出 机 器 学 习 技 术 在计算医学领域应用研究的持续性。2010 年 左 右, 计 算 模 型 成 为 该 领 域 研 究 热 点, 2010-2013 计算模型与大数据高度共现,也 体现出了数据驱动的计算医疗模型构建的研 究热度提升,2016 年以后计算医学的机器 学习领域热点集中在了精准医疗领域,而最 近的研究热点则主要集中在深度学习。 ● 突现词情况 在某段时间内频次变化率高的词被称为“突 现词”,突现词往往反映了一个领域的研究 前沿。对上个关键词共现网络进行突现词分 析,获取变化率最高的前 20 个关键词,关 键词随时间的变化也反映了研究前沿的变迁 以及近期的研究前沿,见图 15。 图 13:2010-2021 年计算医学领域关键词聚类图谱 * 关键词聚类是指利用大量文献中共同出现的关键词对,有效地反映文本关键词之间的关联强度,以结构体的方式有效 地展现关键词之间的关联的分析方法。 18 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 图 14:计算医学各子领域研究 timeline 图谱 19 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 图 15:计算医学领域关键词突现情况 -TOP20 ( 三 ) 小结 计算医学研究热度持续上升,最近几年在项 目研发投入与文献发布量上增速明显,但相 较于美国,中国在计算医疗领域的研发投入 整体较少。在国外,这些高校院系也成为了 计算医学的主要研究中心。相较而言,中国 除中国科学院外,还没有形成比较集中有影 响力的计算医学领域研究中心。研究内容上, 模型研究、各类应用模式(表达、模拟、算 法、识别、预测、分类)以及癌症、系统等 为计算医学领域研究的核心。研究内容变化 上呈现:从原有的理论、模型研究向应用领 域研究发展;从数理统计算法研究向基于人 工智能技术发展;从生物、解剖数学模型构 建、到基于大数据驱动的计算基因再到精准 医疗等临床医疗应用发展。国家比较来看, 中美两国在计算医学研究领域涉及面较广, 各类研究主题均有布局;印度主要侧重在药 物发现,大部分国家包括德国、加拿大、意 大利等的研究关注点均集中在精准医疗、模 型和机器学习。中国在精准医疗应用、模型、 机器学习、个性化医疗、仿真模拟五个方面 的研究关注度与美国差距较大。当下,计算 医学已经成为精准医疗的关键实现手段。 20 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 四、计算医学主要研究内容 目前计算医学相关院校对于计算医学研究内 容的分类不尽相同,主要有两类。一种分类 方法是从医学视角出发,将计算医学划分为 计算生理学、计算解剖学、计算病理学等, 该种分类方法相当于做“+”,现有的医学 研究门类均可开展对应的计算科学门类研 究。另一种分类方法主要是从基础和临床应 用角度出发,将共性的基础性问题进行独立 的研究,主要是技术层面的内容,包括算法 研究、数学建模等,临床应用则与上述方法 分类相似,但精细度上稍弱于前者。本文结 合两个维度,并依据时间发展顺序,归纳了 计算医学的研究内容,见图 16。 ( 一 ) 以模型构建为核心的计算医 学基础研究 1. 计算解剖学 - 人体数学建模 随着影像学成像技术的不断发展,图像的质 量不再是疾病诊断的限制条件。不过,精确 识别健康个体和患病个体之间的解剖结构差 异,仍然制约着医疗水平的发展 [18]。想要了 解健康状态和疾病状态下个体解剖结构形态 之间的演变与差异,需要将人体解剖学和计 算技术以及数学理论方法相结合,计算解剖 学应运而生。计算解剖学涉及图像处理、数 字集合处理、数学建模等技术,将人体解剖 学数字化,加快了解剖学的发展脚步 。 [19] 计算解剖学将个体的解剖学数据与人群中解 剖学数据进行形态和功能的比较分析,从解 剖学的角度实现疾病的诊断、治疗评估以及 预后判断,是后续诊断治疗的基础性工作。 早在上世纪 80 年代开始的可视人计划作为 计算解剖学的典型,推动了计算解剖学的快 速发展。可视人的主要研究内容是将人体的 二维横断面切片图像,经过计算机的数字化 处理,形成人体解剖结构的数据资料。同时, 利用三维重建技术,这些数据可以构建出更 为直观的人体结构三维立体形态 [20]。因此, 可视人应用的首要前提,是得到相对完整的 人体结构数据集,美国、韩国、中国等国家 在可视人数据集的采集等方面开展了研究。 1986 年, 美 国 国 立 医 学 图 书 馆(National Library of Medicine, NLM) 开 展 了 可 视 人 计 划(The Visible Human Project, VHP), 这 是 一 项 人 体 结 构 图 像 数 据 库 开 发 的 长 期 项 目。 该 项 目 创 建 了 公 开、 完 整、 详 细 的 人 体 3D 解 剖 学 图 像 数 据。 可 视 人 男 性 数 据 集 于 1994 年 公 布 由 MRI、 CT 和 解 剖 图 像 组 成:MRI 图 像 轴 向 间 距 为 4mm, 图 像 分 辨 率 为 256×256 像 素, 12 位灰度;CT 数据轴向间距为 1mm,图 像 分 辨 率 为 512×512 像 素,12 位 灰 度; 图 15:计算医学主要研究内容 21 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 解剖图像数据轴向间距为 1mm,图像分辨 率 为 2048×1216 像 素,24 位 彩 色, 男 性 数据集大小约为 15GB。可视人女性数据 集于 1995 年公布,数据集的特征与男性数 据 集 相 似, 但 解 剖 图 像 的 轴 向 间 距 缩 小 到 0.33mm,共有 5189 张解剖图像,数据集 大小约为 40GB[21]。 1998 年,NLM 的董事会报告肯定了可视人 计划的长期目标,即产生一个将视觉形式的 知识与符号形式的知识相连接的知识结构系 统。另外,NLM 还支持有关图像数据集和 工具的研究,从而为收集新的生物医学知识 提供了潜在可能。通过美国和国际研究伙伴 的合作来开发和利用这些知识,是对世界卫 生的宝贵贡献。到 1998 年,可视人数据集 授权被全球 28 个国家的约 1000 个研究、 学术和工业团队使用。截至 2019 年 7 月, NLM 面向 66 个国家发放了大约 4000 个数 据 集 的 访 问 许 可。 另 外, 自 2019 年 起, VHP 数据集不再需要许可也可直接访问。 数据集主要用在以下几个方面:(1)人体 解剖学研究的参考;(2)用于测试医学成 像算法的公共领域数据;(3)用于构建网 络可访问图像图书馆的试验台和模型。VHP 数据集广泛应用于教育、诊断、治疗计划、 虚拟现实、艺术、数学和工业领域。 继美国的可视人计划之后,由于标本的人种 差异、解剖部位缺乏、数据集不完整等原因, 韩国于 2000 年 7 月开展了一项为期 5 年的 可视韩国人计划(Visible Korean Human, VKH),旨在制作连续的切片图像,从而对 VHP 的数据进行补充,并且希望数据能够促 进 3D 图像以及相关软件的开发。韩国人的 男性数据集包括了 MR、CT、解剖和分段图 像,共 197.5GB。MR 和 CT 图像的间距为 1mm,共 1718 张图片,每张图片分辨率为 505×276 像素,8 位灰度;解剖图像的间 距为 0.2mm,共 8590 张图片,每张图片分 辨率为 3040×2008 像素,24 位彩色 。 [22-23] 首 例 中 国 可 视 人(Chinese Visible Human, CVH)由第三军医大学历时 3 年 完成,课题组于 2002 年 8 月完成数据集采 集工作,并于 10 月完成计算机三维可视化 研 究 工 作。 该 数 据 集 的 标 本 为 男 性, 连 续 横 断 面 的 层 厚 根 据 解 剖 部 位 有 所 不 同: 头 部和颈部的厚度为 0.5mm(其中颅底部为 0.1mm),其他部位为 1.0mm,共有 2518 个横断面,数据集大小为 90.468GB,2003 年 2 月,我国完成了第一例中国女性数字 化可视人的数据采集和研究,该数据集的联 系横断面层厚为:头部 0.25mm,其他部位 0.5mm,共有 3640 个断面,数据集大小为 131.04GB[24]。 在张绍祥教授带领下,陆军军医大学数字医 学研究所目前已获取了 8 例完整的数字化人 体全身数据集和心脏、肝脏、大脑以及膝关 节等脏器的数据集,构建了男性、女性全身 脏器的分割数据集和三维重建模型。研究所 研究方向主要为数字解剖学和数字医学,主 要包括:一是基础研究,根据数字人体的发 展特点,研究数字人体相关生物数据的获取、 整合、知识表示,建立具有生物特性的中国 数字人体模型,从事生物数学和生物医学数 学建模与分析方面的研究。二是应用研究, 在数字人研究的不同阶段,根据数字人模型 的相关数据,开展数字解剖学的研究,建立 数字解剖学平台,研制能在国内外医学院校 推广使用的用于人体解剖学教学的数字解剖 学软、硬件系统;结合数字人项目进行临床 技能虚拟仿真培训系统的开发与研制、进行 虚拟外科手术及术前计划的设计等方面的研 究;研制能在计算机上模拟外科手术操作的 软、硬件系统,并将其推广应用到各大医院, 进行外科手术的仿真设计、术前手术方案讨 论和外科医生的手术培训。数字解剖学和数 字医学为计算解剖学和计算医学发展奠定了 坚实基础。 2. 计算生理医学 - 系统机制模型定量分析 22 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 计算生理医学目标是发展疾病中生物系统的 机制模型,通过建模思维将分子水平的信息 整合到细胞、组织、器官和器官系统以实现 对有机体、器官或系统的正常功能过程的定 量理解。计算生理医学通常将人体作为一个 单一的复杂系统进行多层次建模研究,使用 患者数据个性化这些模型,并将其应用于改 善疾病诊断和治疗。 当前,计算模型通常由疾病动物实验模型中 获得的数据开发,然后使用有限的人类数据 集进行转化。实验和建模以高度模块化的方 式进行,不同的生物过程被一一细化并详细 表征。基于不同的方法学,计算生理学在建 模方式上存在着几种不同的研究方向 : [25] 其一,是力学建模。从物理学的角度来看, 人体内存在着许多物理场如传输速度、压力、 物质浓度和电势,这些参数与将化学物质转 化为机械能及进一步活动的体内生化过程直 接相关。因此,通过开发适当的计算模型, 可以从理论上研究与力学耦合的质量传输和 电生理学的整体问题。开发的力学网络模型 通常采用常微分方程耦合系统的形式,其中 状态是分子的浓度,可能包括它们的修正形 式。模型方程被求解,以观察状态在相互作 用并对网络输入作出响应时是如何及时演化 的。其他建模方法也被使用,包括随机过程 或随机常微分方程,以捕获过程随机演化的 方式,以及偏微分反应 - 扩散方程和基于代 理的模型,在时间和空间中演化的过程。 另一种机械网络模型则描述了相互作用的分 子 及 其 浓 度、 作 用 速 率、 生 化 性 质、 影 响 因素,以及浓度—时间变化。在网络、通路 和细胞水平上,机械模型中的状态数量通常 小于统计模型。这是因为很难通过实验来测 量某些状态和反应速率,因此有必要对模型 中应该包括哪些生物过程和成分作出假设。 此类模型的维度相对较低,但它们的优势是 能够预测生物系统在健康和疾病中的紧急行 23 为,因为它们结合了系统组件相互作用的生 物机制。 计算生理医学的多层次建模方法可应用于癌 症、糖尿病、心脏和脑部疾病等的诊疗和疾 病预测。以下列举了几个典型的应用: 心血管生理模拟 : [26] 心血管模拟的开源软 件 SimVascular,主要用于从医学图像数据 到三维模型的构建、网格划分以及血流模拟 等。其建模主要有 3 步,首先确定顺着血管 的中心线路径,接着沿着每条路径创建 2D 分段,最后将各分段一起放样来生成几何模 型。建模完成后,可以进行血流模拟仿真, 计算时均血压,时均壁切应力,振荡剪切指 数等。 综合人体生理学模型 : [27] 美国密西西比大 学医学中心开发了一种基于 Windows 的综 合人体生理学模型 HumMod。HumMod 根 据从同行评审的生理学文献中获得的经验数 据构建,由 5000 个变量组成,描述心血管、 呼吸、肾脏、神经、内分泌、骨骼肌和代谢 的生理学过程。HumMod 提供了一个建模 环境来理解综合生理学的复杂相互作用,有 助于理解提出的生理机制和不明显的生理相 互作用,允许人们观察复杂生理系统的更高 级别的紧急特性。例如可用于分析肾脏对血 压的控制、肝脏在产生和维持胰岛素抵抗中 的核心作用,以及导致宇航员直立性低血压 的机制。用户通过交互地改变数值参数和查 看时间相关的反应来模拟不同的生理和病理 生理情况。 肝切除术中的应激反应模型 : [28] 在肝脏手 术过程中,切除会诱发肝脏应激反应,这涉 及信号通路和基因表达的调节。了解肝脏的 信号网络以及信号如何影响代谢、炎症过程 和再生对于评估切除后的整体肝脏应激反应 很重要。但由于信号通路是以非线性方式相 互连接,涉及复杂的相互作用以及前馈和反 馈回路,导致人们无法对信号网络产生直观 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 理解。此时,通过数学建模可用于解开信号 通路之间复杂的串扰,耦合信号和先天免疫 反应的计算模型的使用可大大提高对物理损 伤的即时肝脏应激反应的理解,并能够将手 术损伤程度与肝功能、炎症反应和再生能力 联系起来。应用模型能够根据手术损伤的程 度和位置,预测肝脏对手术干预的反应以及 与代谢或再生受损有关的可能的术后并发 症。 ( 二 ) 海量基因组学数据驱动的计 算基因组学研究 基因组学是一门将数据驱动作为主要研究手 段 的 学 科, 处 理 大 规 模 的 基 因 组 学 数 据 天 然地需要借助计算机技术。机器学习方法和 传统的统计学方法在基因组学中的应用一 直 都 比 较 广 泛。 人 类 基 因 组 计 划(Human Genome Project, HGP) 于 1990 年 正 式 启动,其宗旨在于测定组成人类染色体(指 单倍体)中所包含的 30 亿个碱基对的核苷 酸序列,从而绘制人类基因组图谱。通过各 国的协作,人类基因组的草图在 2001 年发 布,该草图覆盖了大约 94% 的人类基因组 [29] [30]。拿到了人类基因组这个庞大的数据后, 人和机器都无法直接读懂,需要通过人类基 因组的注释,标记和鉴定出人类基因组中的 功能区域和调控关系,才能更好地解码人类 基因组。为解码人类基因组,计算基因组学 在此背景下诞生。 早期的计算基因组学研究重点在应用相应的 数理统计算法实现对基因的注释与理解。例 如在序列比对(sequence alignment)研究 中,常用的方法为动态规划算法(Dynamic Programming,DP)。 比 如 全 局 比 对 (Global alignment) 和 局 部 对 比(Local alignment)都主要使用动态规划算法 。 [31][32] 但对于基因组来说,序列比对的方法时间复 杂度太大,需要更简便的算法模型,后续提 出的基本局部相似性比对搜索工具(Basic Local Alignment Search Tool,BLAST)是 一个启发式的局部比对算法,是一套能在序 列 数 据 库 中 进 行 相 似 性 比 较 的 分 析 工 具, 解决了这一问题 。 [33] 基于序列比对的方法 是利用单个序列中包含的特定信息来在基 因组中寻找编码蛋白序列的位置并推测其功 能。而在基因组中,编码蛋白质的序列具有 一 些 共 有 的 特 征, 比 如 都 具 有 转 录 起 始 位 点, 外 显 子, 内 含 子, 剪 切 位 点 等 结 构 特 征。可以利用这些编码蛋白质序列的共有特 征,通过统计模型来对编码蛋白质的序列进 行建模。隐马尔可夫模型(Hidden Markov Model,HMM) 在 基 因 组 注 释 中 扮 演 着 极 为重要的角色,特别是在基因预测(Gene prediction) 方 面。 在 基 因 预 测 中, 隐 马 尔 可夫模型的隐藏状态跟基因的标注相关(转 录起始点,转录终止点,剪切位点,外显子, 内含子)。在利用隐马尔可夫模型进行基因 预测时,输入的是基因组的 DNA 序列,输 出的是序列的标注信息,从而对基因组进行 注释,鉴定出相关基因组中编码蛋白质的基 因 。 [34] 研究表明,人类基因组中的绝大部分由非编 码 区 域 组 成。 计 算 基 因 组 学 的 研 究 人 员 正 致力于通过计算和统计方法的发展以及通 过 ENCODE(DNA 元素百科全书)等大型 项目来了解人类基因组中非编码区域的功 能,鉴定出基因组中的调控元件,揭示基因 间的调控关系 。 [35] 此外,为了理解复杂的 生命活动,仅理解对人类基因组中的编码或 非编码基因,以及调控元件进行标注是远远 不够的。对于人体这样一个由多种细胞组成 的生物体,基因组的注释并不能解释蛋白表 达谱不同的各种细胞类型是如何从共享的同 一套基因组中产生的问题。因此计算基因组 学研究也从对基因的注释向表观基因组、转 录组等领域发展,如路线图表观基因组计划 (Roadmap Epigenomics Project)[36]。 24 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 遗 传 变 异(Genetic variation) 是 生 物 多 样 性 的 基 础。 单 核 苷 酸 多 态 性(Single Nucleotide Polymorphism ,SNP)主要是 指在由单个核苷酸的变异所引起的 DNA 序 列 多 态 性。 它 是 人 类 可 遗 传 的 变 异 中 最 常 见的一种,占 90% 以上。国际单倍体图计 划(The International HapMap Project)和 国际千人基因组计划(The 1000 Genomes Project) 绘 制 了 详 尽 的、 具 有 巨 大 医 学 应 用价值的人类基因组遗传多态性图谱 。 [37-38] 同 时, 全 基 因 组 关 联 研 究(Genome-Wide Association Studies,GWAS)可在全基因 组范围内,通过统计学方法将遗传变异和可 观测的性状(表型)相关联,从而寻找与该 性状相关的遗传因素。人类基因组遗传多态 性图谱和全基因组关联研究极大地推动了人 们对复杂疾病遗传基础的了解,为提高疾病 的诊断和治疗打下了坚实的基础。 基因组,表观基因组、转录组等组学测量方 法的涌现带来了组学数据的激增,并进一步 对组学数据处理方法提出了挑战。组学数据 的类型多种多样,包括序列,类别信息,强 度信息和图像等,异构性较高。2015 年的 开创性研究展示了深度神经网络对 DNA 序 列数据的适用性 , [39-40] 此后,利用深度神 经 网 络 处 理 组 学 数 据 的 出 版 物 数 量 激 增。 Eraslan G 等 [41] 梳理了 168 篇相关文献, 全面地总结了目前深度学习在组学研究方面 的应用。其中介绍了四种常见的网络框架(前 馈神经网络、卷积神经网络、循环神经网络 和图卷积神经网络)以及其适用的组学数据 类型。同时也讨论了针对多种数据集成的多 任务学习和多模态学习;可跨领域应用的迁 移学习在组学中的应用;以及在组学中包括 变分自编码器和生成对抗网络生成模型的应 用。 ( 三 ) 基于人工智能技术的计算医 疗应用研究 25 人工智能(Artificial Intelligent,AI)在医学 领域的应用是计算医学领域近年来发展最快 的一个方向,显著推动了医疗模式的进步与 革新。AI 的发展依赖于海量的大数据。医 疗数据中尤其是医学影像数据,如 X 射线、 计算机断层成像(CT)、磁共振(MRI)、 分子影像 PET 等产生的海量信息,为 AI 的 发展提供有价值的科研及临床数据。AI 可 广泛应用于疾病辅助诊断与诊断、提高医学 图像质量、减低电离辐射、提供精准医疗建 议以及减少医疗成本等方面。2012 年以来, 深度卷积神经网络技术快速兴起,推动了 AI 的突破性的进展。深度学习在生物医学子领 域的应用案例丰富,一系列综述性的论文从 各个维度给出了清晰的梳理 [42-47]。大致上, AI 在生物医学中的应用可以分为三个方向: (1)作为计算机辅助诊断,帮助医生进行 有效的早期诊断;(2)加强对患者的医疗 护理,更好地进行个性化治疗;(3)改善 人类福祉,例如通过分析疾病传播和社会行 为与环境因素的关系,或实现用于控制轮椅 的脑机接口 。 [48] 以计算医学研究最为广泛的肿瘤学为例,人 工智能技术在临床肿瘤学中可应用于癌症风 险预测、筛查、诊断和治疗。算法的复杂性 通常由此类数据的数量、异质性和维数决定, 其中有用的肿瘤学数据大致包括临床表现、 肿瘤分期、组织病理学、定性成像、肿瘤基 因组学、患者基因组学、定量成像、液体活 检、电子病历、可穿戴设备来源等。不同环 节中主要使用的数据各有侧重,具体见下图。 比较经典的应用中,关于在诊断神经放射学 中使用深度学习技术对脑肿瘤或继发性病变 进行分割,已经发表了许多相关文献。例如, Charron 等人采用了现有的 3D CNN 算法 (Deep-Medic)来检测和分割正在接受立 体定向治疗的患者的 MRI 扫描中的脑肿瘤 转移情况,为在多模态 MR 图像上识别和分 割脑转移瘤提供参考 。 [50] 深度学习技术在 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 肿瘤学中另一个非常重要的应用价值点是预 测毒性、治疗反应和预后,为临床医生提供 有价值的决策支持系统。在毒性预测方面, Pella 及其同事记录了多名前列腺癌患者的 临床和剂量学数据,并对胃肠和生殖泌尿急 性毒性进行评分,由此生成的神经网络和基 于 SVM 的解决方案显示出相当的毒性预测 准确性 。 [51] ( 四 ) 面向精准医疗的计算医学研 究 精准医疗是以个体化医疗为核心的医学概念 与模式。其关键是以患者为中心,综合运用 基因组技术、生物信息技术等前沿技术手段, 精确定位患者的疾病发生发展原因,并明确 疾病治疗靶点,实现个性化的精确治疗 。 [52] 中山大学的研究团队探索了利用计算机对鼻 腔鼻窦精细化建模,并将其应用于精准手术 设计。目前,在鼻科手术领域,利用基于计 算流体力学的鼻腔全局气流分析方法,结合 三维重建技术,即可得到鼻腔内不同解剖部 位的压强、温度和湿度差异与变化,以及鼻 腔中气流的变化,从而进一步反映出鼻腔的 生理功能如嗅觉、过滤、加湿加温等与解剖 结构特点之间的关系。通过计算机建模,还 可以了解鼻腔的解剖结构改变对于鼻腔生理 功能的具体影响与作用,从而明确鼻科手术 中的禁区。在设计鼻科手术时,医生需要为 患者制定可以最大限度切除病灶,同时最大 程度保留患者鼻腔生理功能的手术方案,利 用计算医学的建模技术以及计算流体力学技 术,实现患者病灶部位的三维可视化,可以 帮助医生充分分析患者的患病情况,模拟手 术过程,推演手术预后,最终为患者筛选出 最佳的手术方案,为完成个性化精准手术创 造了良好的条件 。 [53] 在利用精准医疗手段治疗恶性肿瘤时,计算 医 学 的 方 法 也 起 到 了 至 关 重 要 的 作 用。 利 用生物信息学中基于计算机算法的方法和原 理,可以根据患者个体的具体情况和参数, 来为恶性肿瘤患者选择更有效的治疗方案, 提高患者的生存率和生活质量。将患者的基 因型数据输入预测抗癌药物作用效果的计算 模型中,模型可输出该患者对单种或多种药 物的敏感性,从而帮助医生筛选出最适合于 该肿瘤患者的治疗药物,实现肿瘤患者的精 准治疗 。 [54] 图 17:基于 AI 技术的计算肿瘤学研究路径 [49] 来源:Benjamin H. Kann, Ahmed Hosny, Hugo J.W.L. Aerts,Artificial intelligence for clinical oncology. [J]Cancer Cell,Volume 39, Issue 7,2021,Pages 916-927. 26 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 五、计算医学学科建设情况 为了应对医学范式向计算医学转变带来的挑 战,更好地推动计算医学研究,世界各国的 大学和科研机构纷纷成立计算医学相关的机 构。在国外,美国加州大学洛杉矶分校几年 前把原有的生物数学系,更名成为计算医学 系。约翰霍普金斯大学、斯坦福大学、牛津 大学等高校都开设了相关课程。在这些大学 和科研机构中,计算医学或作为一个独立的 院系,或作为院系下的一个部门而存在。在 我国,除了山东大学研究生专业出现计算医 学专业名称外,其他大学并没有开设明确的 计算医学院系或专业,计算医学研究的相关 内容仍然主要划归在生物医学工程、医学信 息学等专业或院系中,近两年新出现的智能 医学工程则是聚焦于人工智能技术为驱动的 医学研究,可以算作计算医学的一个子类。 各个学校计算医学相关机构的研究发展侧重 点也不一样,下面举例介绍中、美、英国几 所大学计算医学相关的学科建设情况。 ( 一 ) 美国 1. 约 翰 霍 普 金 斯 大 学(Johns Hopkins University) 1) 简介 约翰霍普金斯大学的计算医学研究所隶属于 生物医学工程系,其主要目标是开发人类疾 病相关的定量计算模型,并让这些模型能够 个体化应用,以改进疾病的诊断和治疗。计 算医学研究所目前共有 19 名研究员。计算 医学研究所还制定了一套体系性的计算医学 本科的授课课程。主要涉及大量计算机,应 用数学,以及工程等专业内容。整个课程设 计是顺应了计算医学“医、工、信”交叉的 特色,在培养过程中突出强调打牢学生的数 学、信息学和工程学基础,见图 18。 2) 研究方向 约翰霍普金斯计算医学只是其生物医学工程 系中的一个研究方向,主要集中于研究各个 医学领域下的模型的构建。而机器学习与云 计算、基因组学、医学图像信息处理等相关 内容则在生物医学工程系的其他研究方向中 涉及,见表 5、表 6[55]。 图 18:约翰霍普金斯大学计算医学本科专业课程网络 来源:约翰霍普金斯官网,白皮书团队整理 27 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 表 5:约翰霍普金斯计算医学研究所主要研究方向 研究方向 主要内容 计算分子医学 Computational Molecular Medicine 通过对分子网络的结构以及其如何随时间变化的深入理解,来改善临床决 策 计算生理医学 Computational Physiological Medicine 开发从分子,细胞再到组织和器官的多层次疾病模型并应用到医疗中 计算解剖学 Computational Anatomical Medicine 应用数学理论来模拟解剖结构及其在健康和疾病中的变化 计算医疗 Computational Healthcare 整合生物医学信号处理、计算建模、机器学习和医疗信息学等多个学科, 通过电子健康记录、生理状态时序数据和基因组学信息来开发个性化医疗 的新方法 来源:约翰霍普金斯官网,白皮书团队整理 表 6:约翰霍普金斯其他生物医学工程院系相关研究方向 研究方向 主要内容 生物医学数据科学 Biomedical Data science 其研究主要集中在开发新的数据分析技术来了解疾病的发病机制,以期 用更低的成本来提供更好的医疗保健。主要的研究方向有:计算科学 (Computational Science),融合计算机科学、数学和生物医学工程, 推动计算技术的进步来解决个性化医疗中的问题;机器学习与数据科学 (Machine Learning and Data Science),使用机器学习从大量数据集 中提取符号和本体信息;生物医学数据(Biomedical Data),将生物医 学数据与高性能计算相结合,使用机器学习和人工智能的工具来分析 TB 级别数据。 科学即服务(Science as a Service),基于云技术提供共享数据集和工具, 将科学解决方案集成在软件中等。 基因组学与系统生物学 Genomics & Systems Biology 通过开发新的计算和实验方法,对基因组进行系统分析,来建立跨越时 间和空间尺度的模型,并利用合成生物学设计新的生物医学系统。其研 究的主要方向有:基因组的组装(Genome Assembly)、转录组与 RNA 测序(Transcriptomics and RNA Sequencing)、个体基因组学与数据建 模(Personal Genomics and Data Modeling)、基因组和表观基因组工 程(Genomic and Epigenomic Engineering)、纳米孔测序(Nanopore Sequencing)、细胞工程(Engineering Cell Fate)、合成生物学(Synthetic Biology) 成像和医疗设备 Imaging & Medical Devices 主要研究内容包括:成像技术:光学、X 射线、CT、MRI、超声和分子成像; 图像分析:图像配准和重建;从图像数据中提取知识;新型医疗器械:由 临床需求驱动的诊断和治疗器械。 来源:约翰霍普金斯官网,白皮书团队整理 28 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 3) 主要学者 Raimond L. Winslow 个人简介:Raimond L. Winslow 是约翰霍普金斯生物医学工程教授, 1978 年在伍斯特理工学院获得电气工程学士学位,1985 年在约翰 霍普金斯大学医学院获得生物医学工程博士学位。他被公认为计算 医学新领域的创始人,该领域使用分子生物学、生理学和疾病解剖 学的创新计算模型来理解、诊断,治疗疾病,改善病人护理。他对 从定量模型的角度理解心脏病的兴趣导致了计算医学作为一门学科 的发展。 研究方向:他开发了基于实验的计算模型,并将其应用于深入了解心律失常的分子基础。 具体而言,他研究心肌细胞中细胞内信号传导、代谢和电兴奋性的计算模型;生物医学 数据表示和数据库设计;网格计算和数据共享;健康和疾病中心脏功能的综合建模;心 血管信息学。他的研究团队的众多成就之一是率先使用弥散张量磁共振成像 (DTMRI) 重建心室的几何结构和纤维结构,DTMRI 现在已成为以高空间分辨率测量心脏纤维结构 的标准方法。 个人主页:https://www.bme.jhu.edu/people/faculty/raimond-l-winslow/ Michael I. Miller 个人简介:Michael I. Miller 是约翰·霍普金斯大学生物医学工程系主 任。Michael I. Miller 于 1976 年在纽约州立大学石溪分校获得学士 学位,并分别于 1978 年和 1983 年在约翰霍普金斯大学获得生物医 学工程硕士和博士学位。Miller 博士曾在圣路易斯华盛顿大学任生物 医学工程教授,并于 1998 年加入约翰霍普金斯大学,并在随后任 影像科学中心的主任。2017 年 Michael I. Mille 被任命为生物医学工 程系主任。 研究方向:在计算医学领域,Miller 开创了众多诊断和理解神经退行性疾病的前沿技术。 Michael I. Miller 的研究集中在人类大脑在正常和疾病状态下的结构和功能特征。通过开 发分析患者脑部扫描的新工具,Miller 致力于在出现临床症状的数年前预测神经系统疾病 的发生风险。他的实验室目前正在设计基于云的方法来构建和共享与神经精神疾病相关 的大脑图像库 - 以及用于理解它们的算法。 个人主页:https://www.bme.jhu.edu/people/faculty/Michael-I.-Miller/ 29 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 2. 加 州 大 学 洛 杉 矶 分 校(University of California, Los Angele,UCLA) 1) 简介 加州大学洛杉矶分校的计算医学系作为一个 独立的院系,其前身是拥有 40 多年历史的 生物数学系。计算医学系的成立是为了应对 两次最近发生的、能改变医疗本身的科学革 命 - 基因组革命和大数据革命。基因组革命 使得收集数百万患者的基因组数据成为可 能,在数据端推动了医学的发展;大数据革 命促进人工智能等数据处理方法的发展,使 数据能被更好地利用,在工具端推动医学的 发展。计算医学系在加州大学洛杉矶分校内 部和医学院、医院以及工程学院紧密合作, 目前计算医学系共有 25 位教授(研究员)。 2) 研究方向 UCLA 的计算医学系主要分为临床科学和基 础科学两个方向,各自方向又有细分的子领 域。两个研究方向都强调机器学习方法的应 用和基于基因组数据的研究。 ● 临床科学(Clinical Science) 在临床科学中,目前主要面临的挑战是如何 利用大量的高维数据,包括各种基因组学数 据、电子健康记录、可穿戴设备监测数据、 影像学数据,来协助临床医疗。该子领域下 UCLA 设置了三个主要研究方向 : [56] ● 基础科学(Basic Science) 基础学科侧重于临床应用中的基础性共性问 题,包括医学影像基础研究、医学数据机器 学习方法等,数学建模、计算基因组学等内 容 : [57] 表 7:UCLA 计算医学系临床科学主要研究方向 研究方向 主要内容 医疗中的 AI AI in Medicine 该研究领域使用机器学习和人工智能的方法去分析医疗活动中产生的大量 数据。该研究领域中的项目开发方法识别高危病例,提高诊断速度和准确 性,预测治疗结果和副作用,以降低医疗费用。 基因组学 + 健康 Genomics + Health 该研究领域重点将病患的基因组信息与电子健康记录整合起来,开发新的 算法,将基因组学的信息应用到医疗决策中,以改善医疗的各个环节。 区块链与医学安全计算 Blockchain and Secure Computation in Medicine 主要研究利用密码学、可扩展计算、人工智能和医学方面的综合专业知识, 开发满足隐私保护和数据共享政策要求的基因组和医学数据分析技术,例 如差分隐私算法等。 来源:UCLA 计算医学官网,白皮书团队整理 表 8:UCLA 计算医学系基础科学主要研究方向 研究方向 主要内容 计算基因组学 Computational Genomics 将计算机科学和统计学中的知识和方法应用到基因组学中,用来解决基因 组学中遇到的问题。研究内容主要包括:开发方法识别与疾病相关的遗传 位点(genetic loci)、变异体(variants)和相关基因(genes)。开发 方法注释和理解非编码基因。疾病遗传学(disease genetics)、群体遗 传学(population genetics)、表观基因组学(epigenomics)、调控基 因组学(regulatory genomics)、微生物组学(microbiome)和单细胞 分析(single-cell analysis)等。 30 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 续上表 研究方向 医学影像学 Medical Imaging 医疗健康数据的机器学习 Machine Learning on Health Data 数学建模 Mathematical Modeling 主要内容 该领域研究跨越了好几个学科领域:从成像物理到三维图像的重建和处理, 再到基于机器学习和统计推断的决策。该领域的研究可提高诊断准确性, 优化医疗决策,并更好地理解疾病。该领域需要多种数学建模、估计和推 理技术,尤其是几何相关的方法。 该研究领域将人工智能、机器学习用到医疗健康数据的分析中来,用来改 进医疗。开展的相关研究包括用眼睛的医学图像来预测视网膜相关功能、 根据电子健康记录预测术后死亡率、用传感器的数据来预测抑郁症等。 该研究领域利用生物数学建模为生物学相关的问题提供理论框架,比如: 如何量化不同生理条件下的病毒感染、理解移植后干细胞的再生、深入理 解癌症的生长和治疗、量化细胞信号传导途径中不同分子因素的影响、量 化血管病变和其对组织生长及死亡的影响等。 来源:UCLA 计算医学官网,白皮书团队整理 3) 主要学者 Eleazar Eskin 个人简介:Eleazar Eskin 是加州大学洛杉矶分校计算医学系(UCLA Department of Computational Medicine)的首任主席,是计算机科 学和人类遗传学教授。Eleazar Eskin 于 1997 年在芝加哥大学获得 数学、经济学和计算机科学的学士。并分别于 2000 年和 2002 年在 哥伦比亚大学获得计算机科学硕士和博士学位。曾经在加州大学圣 迭戈分校做过博士后研究。随后在加州大学洛杉矶分校计算机科学 系工作。 研究方向:Eleazar Eskin 的研究关注于计算遗传学,即开发并应用计算机科学、统计学 和生物信息学的方法来理解遗传变异和性状之间的关系。Eleazar Eskin 的研究组开发了 一系列全基因组关联研究(GWAS)相关的工具,有助于发现疾病相关的变异位点。同时, 研究组也开发了针对人类疾病的小鼠模型的相关工具。 个人主页:https://compmed.ucla.edu/member/eskin-phd 3. 密歇根大学(The University of Michigan) 1) 简介 密歇根大学并没有独立的计算医学系,而是 设有计算医学和生物信息学系。设立该系旨 在通过开发新颖和有影响力的信息学和计算 相关的方法工具,用于基础和临床研究。该 31 系共 36 位研究员,其研究强调从基因型到 表型(Genome to Phenome)以及从表型 到基因型(Phenome to Genome),致力 于揭示致病的具体分子机制。 2) 研究方向 计算医学和生物信息学系的研究主要可分为 两个部分:一是作为基础的生物学背景研究, IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 二是相关的临床应用。基础的生物学背景研 究包括基于还原论分别针对信息存储端(基 因组,表观基因组)和执行元件端(蛋白质) 的进行分析,或基于系统论对多组学进行整 合分析。相关的临床应用主要是将生物信息 学和计算生物学的理论和方法应用到精神疾 病和其他复杂疾病中,见图 19[58]。 图 19:密歇根大学整体研究图示 来源:密歇根大学计算医学和生物信息学系官网介绍 表 9:密歇根大学计算医学和生物信息学系主要研究方向 研究方向 主要内容 基因组学、调控基因组学和表观基因组 学 研究内容主要包括:人类基因组的结构、功能和进化,以及其在生物性状 多样性和疾病中的作用。DNA 序列中的调控元件(调控基因组学)、以 及染色质和 DNA 上的化学修饰(表观基因组学)对基因活性(时间、数 量和变体)的调控。 最终的目的是揭开人类基因组如何定义种群、个体及其健康的秘密。代表 着信息储存端的研究。 蛋白质结构、蛋白质组学和可变剪接 研究内容主要包括:从氨基酸序列预测蛋白质结构,从结构预测蛋白质功 能;使用实验方法来测量,并使用模拟和数学模型来预测调控网络中的蛋 白质的相互作用;基于蛋白质结构和功能,使用信息学工具来模拟和建模, 促进药物设计和发现;利用蛋白质组学和信息学工具分析翻译后修饰;研 究差异表达的可变剪切异构体在癌症相关通路中的作用;开发计算方法来 处理和提取蛋白质组中的生物信息;代表着执行分子元件端的研究。 32 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 续上表 研究方向 主要内容 多组学的整合研究 该领域的研究整合来自基因组学、转录组学、蛋白质组学、代谢组学等学 科的知识,以求对生命活动及疾病有更全面深刻的理解。在多组学的整合 中,涉及到整合工具的开发以及数据和方法的生物学可解释性。 系统生物学与网络分析 该领域的研究包括:基于网络、系统与控制以及多元统计等理论,使用计 算和统计的方法来研究造成基因组组织动态变化的网络结构和功能基础; 在细胞命运分化、组织发育和代谢组学中的网络分析;利用分子动力学、 计算模型和科学计算来深入了解蛋白质聚集和蛋白质折叠相关疾病等。 生物医学数据科学、转化生物信息学和 药物基因组学 该领域的研究包括:开发疾病过程相关的动态遗传网络模型,并使用计算 模型来理解基因剪接;设计传感器来收集和分析生理信号和图像并分析这 些数据来支持临床决策;使用数学建模和模拟生成实验验证的昼夜节律模 型,并将机器学习算法用于临床图像数据和基因分型数据的分析等; 计算生物学中的方法学 该领域的研究包括:大规模关联分析、meta 分析和缺失值填充;分析现 代测序方法不易解析的基因组复杂区域;多组学数据的整合算法;模式识 别与基因组学数据的进化学分析;开发处理和分析复杂蛋白质组数据集的 计算方法;开发信号 / 图像处理和机器学习方法,以创建计算机辅助的临 床决策支持系统等。 在复杂遗传疾病中的应用 该领域的研究将生物信息学和计算生物学的理论和方法应用到复杂 疾病的诊断和治疗中,相关疾病包括:阿尔茨海默病(Alzheimer’s Disease)、癌症(Cancer)、糖尿病(Diabetes)、精神障碍(Mental disorders)、代谢性疾病和肥胖(Metabolic diseases and obesity)、肾 脏疾病(Renal diseases)、皮肤病(Skin diseases)、药物滥用(Substance abuse)等。 来源:密歇根大学计算医学和生物信息学系官网,白皮书团队整理 3)主要学者 个 人 简 介:Brian Athey 是 密 歇 根 大 学 医 学 院 及 医 院 系 统 计 算 医 学 和 生 物 信 息 学 系(Department ofcomputational medicine and bioinformatics in University of Michigan Health Systems)主任, 也是精神病学和内科教授。Brian Athey 于 1990 年在密歇根 大学 获得细胞和分子生物学博士学位,并接受了高分子结构生物学家的 Brian Athey 培训。Brian Athey 在密歇根大学工作了 37 年,于 1994 年加入医 学院。他是密歇根州临床与健康研究所(MICHR)的创始人,并在 该所担任生物医学信息学主任 11 年。他曾担任密歇根大学医学院及医院系统首席信息官 (2010-2012 年),也曾担任 UM 医学院学术信息学主任(2009-2011 年)。2015 年至 2018 年,他还担任了密歇根数据科学学院(MIDAS)的联合创始人和联合主任。Brian Athey 一直担任中国香港大学(CUHK-CZ)的顾问,也是深圳大数据研究所(SRIBD) 的成员。他也是美国医学信息学学院(FACMI)的当选院士。 33 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 研究方向:Brian Athey 是药物基因组学(pharmacogenomics)研究领域的领导者,也 是药物表观基因组学(pharmacoepigenomics)的创建者之一。Brian Athey 的研究通过 定义一类新的基因组特征,为药物基因组学检测提供信息。他现阶段的研究侧重于使用 生物信息学和机器学习方法,从根本上提高精神类药物的疗效——即使患者能够服用最 有效的药物来治疗疾病,并遭受最少的副作用。 个人主页:https://athey.lab.medicine.umich.edu/ ( 二 ) 英国 1. 剑桥大学(University of Cambridge) 1)简介 剑桥大学的计算医学部门隶属于剑桥大学临 床医学院的医学系。医学系共设有 12 个与 人 类 疾 病 相 关 的 部 门, 计 算 医 学 部 门 是 这 12 个部门中的一个,目前共 4 位研究员。 2)研究方向 [59] 开发统计学工具,以确定不同疾病关联的遗 传背景,然后将疾病与基因、细胞类型、激 发条件联系起来,最终确定疾病的生物学通 路。 使用统计学方法来研究与自身免疫性疾病关 联的遗传背景,目的是了解其病因,为新药 物靶点的发现提供基础。 ( 三 ) 中国 1. 山东大学 1)简介 山东大学的计算医学专业由临床医学院开设。 该专业招收三年制硕士研究生,其培养目标 是培养具有在医学和信息科学领域开展交叉 研究能力,能熟悉应用信息技术解决医学问 题、适合到科研单位与高校从事应用基础研 究或到企业开发新产品的高级专门人才。 2)研究方向 表 10:山东大学计算医学专业主要研究方向 [60] 研究方向 主要内容 三维造型与可视计算 该研究领域包括:1. 利用影像数据(MRI,CT)构造三维虚拟人体模型。2. 数字化可视人 体的应用研究,建立能反映人体解剖、物理、生理和生化特性的数字人 计算神经科学 该研究领域利用计算机算法和数学分析的方法,对包括宏观和微观水平的神经系统的解剖 学和影像学海量数据进行分析处理,研究和解决神经科学领域的问题。 虚拟手术 该研究领域利用计算机图形学与虚拟现实等计算机技术,来模拟、指导医学手术所涉及的 各种过程。 智能医学信息处理 该研究领域在医院管理信息系统、医学影像储存与通信系统和远程医学等的平台和基础上, 基于机器学习和数据挖掘等理论和技术开展深层次的智能医学数据分析与处理,为临床诊 疗和医学研究提供技术和方法支持。 来源:山东大学官网,白皮书团队整理 34 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 2. 浙江树人大学 浙江树人大学树兰国际医学院在临床本科阶 段开设了计算医学课程,在国内属于较早地 将计算医学内容引入到临床医学本科教学中 来的院校。该课程的授课教师团队具有多学 科背景,分别来自树兰医疗集团、浙江数字 医疗卫生技术研究院以及浙江树人大学树兰 国际医学院和信息科技学院。课程设置基于 临床医学本科教育的知识体系,紧扣计算医 学的发展趋势,以人工智能技术、计算基因 组学、医疗信息学等为主要内容。该课程的 开设贯彻了浙江树人大学打造“医工信”平 台的建设目标。 ( 四 ) 小结 为了应对医学范式向计算医学转变带来的挑 战, 世 界 各 国 的 大 学 和 科 研 机 构 纷 纷 成 立 计算医学相关的机构,大多数计算医学院系 前身为计算生物、生物数学系,生物医学工 程系等,学科建设仍在持续发展过程中。尽 管各个学校将建立的院系或开设的专业冠以 “计算医学”之名,但其研究的内容和侧重 点各不相同。加州大学洛杉矶分校的计算医 学系强调机器学习和基因组学,即利用机器 学习的方法去分析医疗相关的大数据或基于 基因组的信息辅助诊断和治疗。除此以外, 计算医学系的研究方法还涉及到影像学和对 生物问题的数学建模。密歇根大学的计算医 学和生物信息学系与生物学结合的更加紧 密,强调在对生物医学研究问题深刻理解的 情况下,使用计算的方法来解决问题。因此, 密歇根大学的计算医学和生物信息学系的研 究主要是基于基础生物学问题的研究(信息 储存端的基因组,执行元件端的蛋白质,以 及多组学整合分析和系统生物学),并利用 计算生物学的方法,将相关的生物学知识应 用到疾病中诊断和治疗中。约翰霍普金斯大 学的计算医学只是生物医学工程系的一个研 35 究方向,主要关注的是使用数学建模的手段 来开发疾病相关的模型、模拟解剖结构等。 而将机器学习相关的内容归类于生物医学数 据科学方向,与基因组学的相关内容归类于 基因组学与系统生物学方向,和医学影像学 相关的内容归类于成像和医疗设备方向。剑 桥大学的计算医学部门隶属于剑桥大学临床 医学院的医学系,规模比较小,主要是基于 生物学背景知识,开发统计学工具,并应用 到疾病分子机制鉴定以及药物开发中。山东 大学开设的计算医学专业主要是基于解剖学 和影像学的数据,利用计算机图像、图形学 知识来进行建模,以协助医学教学、疾病的 诊断和治疗。综合来看,目前各高校计算医 学的学科建设主要涵盖了三个方向: ● 基于生物学背景知识(特别是组 学知识),开发计算工具(特别 是统计学方法),揭示疾病的分 子机制,辅助疾病的诊断、治疗 以及新药的开发。 ● 在医疗相关数据快速积累的情况 下,利用机器学习的方法加速疾 病的诊断和治疗。 ● 对人体或者生物系统进行数学建 模(动力学模型,几何相关的三 维模型)。 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 六、计算医学发展展望 计算医学的发展有望实现关于健康、疾病的 量化理解,带来医学发展范式的变革,但与 主流学术领域相比仍处于边缘的位置。作为 多学科交叉的新兴学科,其研究门槛较高, 通常需要数学专家、计算机专家和医学学者 共同参与,人才培养周期长。为推动计算医 学研究与人才培养应重视并加强计算医学研 究院学科建设。现有的模型对现实情况的模 拟仍然是不充分的,在找到能够定义虚拟世 界与经验世界之间联系的工具,尤其是计算 机仿真模型的有效性仍然是困难。随着基因 组学、医学成像、诊断技术和转化医学方面 的不断发展,人工智能的深度融合,共性服 务、共性平台、公共设施的不断完善,将为 我们开发癌症、遗传疾病和传染性疾病的诊 断工具和新疗法创造了可能性。计算医学作 为关键的融合手段,将构建人体“数字孪生”, 实现精准健康维护,让个性化医疗照进现实。 36 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 参考文献 [1] Bukowski R , Schulz K , Gaither K , et al. Computational Medicine, Present and the Future:Obstetrics and Gynecology Perspective[J]. American Journal of Obstetrics and Gynecology, 2020, 224(1). [2] Winslow, Raimond L., et al. "Computational medicine: translating models to clinical care." Science translational medicine 4.158 (2012): 158rv11-158rv11. [3] https://med.nyu.edu/departments-institutes/computational-medicine/[EB/OL]. [4] Zhi Xie, “Computational Medicine”, Current Molecular Medicine 2020; 20(6) . [5] https://iiis.tsinghua.edu.cn/show-3241-1.html [6] 张思玮 . 计算医学:跑在超算上的医学 [N]. 中国科学报 ,2020-03-02(003). [7] http://gsp.ckcest.cn/[EB/OL]. [8] https://cordis.europa.eu/project/id/733161 [9] https://cordis.europa.eu/project/id/825111[EB/OL]. [10] https://app.dimensions.ai/details/grant/grant.7158985[EB/OL]. [11] http://projectreporter.nih.gov/project_info_description.cfm?aid=9484172[EB/OL]. [12] http://gtr.rcuk.ac.uk/project/58247AB2-5469-42E7-9AA4-A2371737FB85[EB/OL]. [13] http://projectreporter.nih.gov/project_info_description.cfm?aid=9885552[EB/OL]. [14] http://gtr.rcuk.ac.uk/project/5EB25D84-92E1-47A9-B31B-A8CBC98DD105[EB/OL]. [15] https://gtr.ukri.org/projects?ref=MR/L016311/1[EB/OL]. [16] https://cordis.europa.eu/project/id/846636[EB/OL]. [17] https://gtr.ukri.org/projects?ref=ES/T012986/1[EB/OL]. [18] Winslow R, Trayanova N, Geman D, et al.Computational Medicine: Translating Models to Clinical Care[J]. Science translational medicine,2012, 4: 158rv11. [19] 吴仲乐 . 数字脑—计算解剖学方法及 GPU 技术应用的研究 [D]. 东南大学 ,2005. [20] 吕婷 . 数字人体研究及其应用 [J]. 中国组织工程研究 ,2010, 014 (048): 9041-9045. [21] National Library of Medicine.The Visible Human Project[EB/OL].https://www.nlm.nih.gov/research/visible/visible_ human.html. [22] Kim J Y, Chung M S, Hwang W S, et al. Visible Korean human: another trial for making serially sectioned images[C].Medical Imaging: Visualization, Image-guided Procedures, & Display,2002. [23] Jin S P, Min S C, Hwang S B, et al.Visible Korean human: improved serially sectioned images of the entire body[J].IEEE Transactions on Medical Imaging,2005, 24 (3): 352-360. [24] 张绍祥 . 中国数字化可视人体研究进展 [J]. 中国科学基金 ,2003, 17 (001): 4-7. [25] Raimond L. Winslow et al. Computational Medicine: Translating Models to Clinical Care .[J]Sci Transl Med 4, 158rv11 (2012). [26] http://simvascular.github.io/[EB/OL]. [27] Hester R, Brown A, Husband L, et al. HumMod: A Modeling Environment for the Simulation of Integrative Human Physiology[J]. Frontiers in Physiology, 2011,2:12. [28] Christ B, Dahmen U, Herrmann K-H, König M, Reichenbach JR, Ricken T, Schleicher J, Schwen LO, Vlaic S and Waschinsky N.Computational Modeling in Liver Surgery.[J] Front. Physiol. 2017:(8:906). 37 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 [29] Lander E S, Linton L M, Birren B, et al. Initial sequencing and analysis of the human genome[J]. 2001. [30] Venter J C, Adams M D, Myers E W, et al. The sequence of the human genome[J]. science, 2001, 291(5507): 1304-1351. [31] Needleman S B, Wunsch C D. A general method applicable to the search for similarities in the amino acid sequence of two proteins[J]. Journal of molecular biology, 1970, 48(3): 443-453. [32] Smith T F, Waterman M S. Identification of common molecular subsequences[J]. Journal of molecular biology, 1981, 147(1): 195-197. [33] Altschul S F, Gish W, Miller W, et al. Basic local alignment search tool[J]. Journal of molecular biology, 1990, 215(3): 403-410. [34] Stanke M, Waack S. Gene prediction with a hidden Markov model and a new intron submodel[J]. Bioinformatics, 2003, 19(suppl_2): ii215-ii225. [35] Snyder M P, Gingeras T R, Moore J E, et al. Perspectives on ENCODE[J]. Nature, 2020, 583(7818): 693-698. [36] Bernstein B E, Stamatoyannopoulos J A, Costello J F, et al. The NIH roadmap epigenomics mapping consortium[J]. Nature biotechnology, 2010, 28(10): 1045-1048. [37] International HapMap 3 Consortium. Integrating common and rare genetic variation in diverse human populations[J]. Nature, 2010, 467(7311): 52. [38] 1000 Genomes Project Consortium. A global reference for human genetic variation[J]. Nature, 2015, 526(7571): 68. [39] Alipanahi, B., Delong, A., Weirauch, M. T. & Frey, B. J. Predicting the sequence specificities of DNA- and RNAbinding proteins by deep learning. Nat. Biotechnol. 33, 831–838 (2015). [40] Zhou, J. & Troyanskaya, O. G. Predicting effects of noncoding variants with deep learning-based sequence model. Nat. Methods 12, 931–934(2015). [41] Eraslan G , Ž Avsec, Gagneur J , et al. Deep learning: new computational modelling techniques for genomics[J]. Nature Reviews Genetics, 2019. [42] Mahmud, M.; Kaiser, M.; Hussain, A.; Vassanelli, S. Applications of Deep Learning and Reinforcement Learning to Biological Data. IEEE Trans. Neural Netw. Learn. Syst. 2018, 29, 2063–2079. [43] Cao, C.; Liu, F.; Tan, H.; Song, D.; Shu, W.; Li, W.; Zhou, Y.; Bo, X.; Xie, Z. Deep Learning and Its Applications in Biomedicine. Genom. Proteom. Bioinform. 2018, 16, 17–32. [44] Ravì, D.; Wong, C.; Deligianni, F.; Berthelot, M.; Andreu-Perez, J.; Lo, B.; Yang, G.Z. Deep Learning for Health Informatics. IEEE J. Biomed. Health Inform. 2017, 21, 4–21. [45] Jones, W.; Alasoo, K.; Fishman, D.; Parts, L. Computational biology: Deep learning. Emerg. Top. Life Sci. 2017, 1, 257–274. [46] Angermueller, C.; Pärnamaa, T.; Parts, L.; Stegle, O. Deep learning for computational biology. Mol. Syst. Biol. 2016, 12, 878. [47] Min, S.; Lee, B.; Yoon, S. Deep Learning in Bioinformatics. Brief. Bioinform. 2016, 18, 851–869. [48] Alvarado-Díaz, W.; Lima, P.; Meneses-Claudio, B.; Roman-Gonzalez, A. Implementation of a brain-machine interface for controlling a wheelchair. In Proceedings of the 2017 CHILEAN Conference on Electrical, 4 Electronics Engineering, Information and Communication Technologies (CHILECON), Pucon, Chile, 18–20 October 2017; pp. 1–6. [49] Benjamin H. Kann, Ahmed Hosny, Hugo J.W.L. Aerts,Artificial intelligence for clinical oncology.[J]Cancer Cell,Volume 39, Issue 7,2021,Pages 916-927. [50] Charron O, Lallement A, Jarnet D, Noblet V, Clavier JB, Meyer P. Automatic detection and segmentation of brain metastases on multimodal MR images with a deep convolutional neural network. Comput Biol Med. (2018) 95:43–54. doi: 10.1016/j.compbiomed.2018.02.004 38 IMIT 白皮书 2021 年 07 月 第 21 期 计算医学:数智时代的医学发展新范式 [51] Pella A, Cambria R, Riboldi M, Jereczek-Fossa BA, Fodor C, Zerini D, et al. Use of machine learning methods for prediction of acute toxicity in organs at risk following prostate radiotherapy. Med Phys. (2011) 38:2859–67. doi: 10.1118/1.3582947 [52] 赖丽娜 , 周小青 , 郑彩杏 . 精准医学影响下的中医计量诊断模型探讨 [J]. 环球中医药 ,2021, 14 (7): 1263-1266. [53] 吴硕 , 王培基 , 谢迭来 , et al. 鼻腔鼻窦精细化建模及其在精准手术设计中的应用展望 [J]. 临床耳鼻咽喉头颈外科 杂志 ,2020, 34 (10): 952-954. [54] 顾兆伟 , 张立忠 , 刘晓峰 , et al. 抗癌药物作用预测计算方法的研究现状与展望 [J]. 生物信息学 ,2020, 18 (01): 1621. [55] https://www.bme.jhu.edu/research/research-areas/[EB/OL]. [56] https://compmed.ucla.edu/clinical-science[EB/OL]. [57] https://compmed.ucla.edu/basic-science[EB/OL]. [58] https://www.medicine.umich.edu/dept/computational-medicine-bioinformatics[EB/OL]. [59] https://www.med.cam.ac.uk/computational-medicine/[EB/OL]. [60] https://www.medicine.sdu.edu.cn/info/1090/5393.htm[EB/OL]. 39