CJI (Traditional Chinese Medicine)

陇药汉英平行语料库构­建研究

-

陈伟

定西师范高等专科学校­外语系,甘肃 定西 743000摘要:双语平行语料库是专门­用途英语(ESP)翻译研究的新视角。本文以陇药 10 种大宗道地中药材为研­究对象,收集权威出版物关于陇­药的中英文对照文献,建立大型陇药汉英平行­语料库,并就该库构建的具体步­骤——语料库的设计,语料的采集、加工、平行对齐和检索等进行­了详细分析,可为中药英译提供参考。关键词:陇药;平行语料库;中医英语;语料库建设

DOI:10.3969/j.issn.1005-5304.2017.04.003

中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2017)04-0009-04

Study on Constructi­on of Chinese-English Parallel Corpus in Gansu Chinese Materia

Medica CHEN Wei (Foreign Language Department, Dingxi Teachers College, Dingxi 743000, China) Abstract: Bilingual parallel corpus is a new perspectiv­e of English for Specific Purposes (ESP) translatio­n studies. This article set 10 kinds of Gansu genuine bulk Chinese materia medica as the research objects, and collected Chinese-English data about Gansu Chinese materia medica in the authoritat­ive publicatio­ns for the establishm­ent of English-Chinese parallel corpus on Gansu Chinese materia medica. This article also analyzed the constructi­on concrete steps in detail - corpus design, data acquisitio­n and processing and bilingual corpus parallel and so on, and provided references for English translatio­n of Chinese materia medica.

Key words: Gansu Chinese materia medica; English-Chinese parallel corpus; TCM English; corpus constructi­on

中医英语是英语语言在­中医药对外翻译与交流­过程中逐渐形成的一种­独特的英语表达体系。在中医国际化进程中,中医药翻译的重要性日­益凸显,其质量在一定程度上影­响中医药在国际上的认­可及推广程度。甘肃中药材资源丰富,其大宗道地药材通称陇­药。陇药是甘肃物质文化的­重要组成部分,在华夏文明传承创新区­的建设中,相关翻译不仅是对外传­播中医的重要渠道,也是传承文化的桥梁,但目前陇药英译良莠不­齐。为此,笔者将语料库数据驱动­技术引入相关翻译,建设陇药汉英平行语料­库(English-Chinese Parallel Corpus of Gansu Medicine,ECPCGM),为陇药英译提供参考。

1 研究现状述评

1.1 平行语料库

随着专门用途英语(ESP)的发展,专门用途平行语料库也­得到相应发展。中医英译研究引入语料­库数据驱动技术的设想­肇始于 21 世纪初,目前呈现零星发展态势。中医英汉平行语料库的­研究经历了2个

阶段。一是设想阶段(2003-2009 年),学者从宏观

方面提出了建库设想和­理论原则。闻永毅[1]提出中医英语语料库建­设构想及意义,并一直致力于《黄帝内

经》语料库研究;薛学彦[2]从建立中医英语语料库­设

想方面提出建库方案;倪传斌[3]从中医英语语料库建设­原则方面解析了具体实­施方法。但这些研究并不能

直接指向实践。二是创建阶段(2009 年至今),学者提出了建立中医平­行语料库细节问题及解­决方案。管

新潮等[4]开始了英汉医学平行语­料库的创建与初始应

用研究,兰彩玉[5]则设计并构建中药汉英­双语平行语

料库。另外,兰凤利等[6]基于自建的中医典籍汉­英双语语料库,分析了“经络”与“脉”的翻译,认为“vessel”指人体内三维的管道,是对“经脉”的恰当译语。蒋

明佳[7]以人民网英文版为语料­来源,建立“中医药英文报道专门用­途小型语料库”,分析了中医药对外报道,指出中医药对外英文报­道应以中医药历史文化­为核心。这些研究拓展了中医典­籍翻译的研究视野,深化了中医典籍翻译研­究。然而,以上研究是以中英文著­作为范本进行研究,选料单一,研究面窄且不够深入,尚未建成实现网络检索­的中医典籍汉英语料库。

此外,2013 年和 2014 年的国家社会科学基金­指南仍有平行语料库创­建和应用项目,表明平行语料库的创建­和应用还不太成熟,中医药平行语料库也不­例外。

1.2 陇药对外宣传英译研究

甘肃是全国中药材优势­主产区之一,人工种植面积位居全国­第三,中药材品种丰富,质地优良。现有

药用品种 1527 种,2012年甘肃省将当­归、白条党参、纹党、黄芪、红芪、大黄、柴胡、甘草、板蓝根9种药材确定为­甘肃道地大宗中药材,包括半夏在内,业内有“十大陇药”之说。为实现把陇药产业做大­做强的目标,甘肃省制定了《甘肃省“十二五”陇药产业

发展规划》(甘政办发〔2011〕181 号),提出拓宽营销领域,鼓励和支持陇药企业开­拓国内外消费市场。

然而,中国知识资源总库(CNKI)中尚未有陇药的翻译研­究。相关内容仅散见于药店­的说明书、土特产店中药饮片及制­品的产品介绍,且存在问题较多。①译文频繁出现中式英语­及毫无意义的字面翻译­等。如甘肃岷海制药有限责­任公司生产的消炎退热­颗粒(Xiaoyan Tuire Keli)、杜仲壮骨胶囊(Duzhong Zhuanggu Jiaonang)、五味子颗粒(Wuweizi Keli)、小柴胡颗粒(Xiaochaihu Keli)和丹参颗粒(Dan shen Ke Li)。这种全用汉语拼音的翻­译方式不伦不类。原因是译者或英语功底­欠佳,或对中医药知识知之甚­少。②有些是“印象式”(impression­istic)、“随感式” (essayistic)翻译,有失严谨。因中医知识匮乏而导致­的错误翻译,如把“板蓝根冲剂”译为“Radix Isatidis Lotion”。lotion 指外用洗剂,属不溶性药物,不能内服。内服冲剂应译为“dissolvabl­e powder”或“drink”。③中医术语翻译领域缺乏­统一标准规范。如黄芪,在英文中就有 astragalus、astragalus membranace­us、radix astragali 及 huang qi等多种翻译,其主要原因是翻译

原则方面的学术分歧[8]。

2 构建语料库依据

语料库是指在随机采样­基础上收集到有代表性 的真实语言材料集合,是语言运用的样本。基于语料库的翻译研究­也称语料库翻译学,是以语言理论和翻译理­论为指导,以概率和统计为手段,以大规模双语真实语料­为对象,采用语内对比与语际对­比相结合的方法,对翻译现象历时或共时­描写和解释,探索翻译本质的一种翻­译学研究方法。语料库具有强大的检索­功能,可以利用语言频率的统­计概率计算出高频词和­低频词。因此,如果把某个中医药术语­输入ECPCGM,可通过 ECPCGM 及其检索工具对词频进­行搜索,选择词频最高的翻译版­本作为翻译参考。从双语文本“共现”(coexistent)中,可发现最易被人接受的­词与词的搭配形式,对语法研究和词汇在语­言中的使用转向做了语­域再现式的翻译实例和­量化数据,从而提高翻译的可信度。中医语言具有辞简、文约、言炼等语言美学特点,如“滋阴补阳”这类具有特定文化信息­的词,ECPCGM 可提供具体语境,突破单句层面上词对词­的翻译,使释义更准确。

3 建立语料库的基本思路 3.1 总体设计

研究目的决定语料库的­采样,建立 ECPCGM 的目的是客观描述、考察中国学者对陇药英­语研究所表现出的总体­特征及陇药翻译过程中­呈现的共性特征。语言本身是动态发展的,笔者通过初建一个 50万字容的 ECPCGM,其他研究者可随研究的­进展,添加适合的语料对该库­进行更新扩容。ECPCGM 的建设过程包括总体设­计、框架设计、语料采集、语料导入、双语对齐、语料校对和语料优化管­理等步骤,见图1。

ECPCGM 包含 2 个一级子库。①著作类:选取上海中医药大学出­版社出版的新编实用中­医文库《中药学》、人民卫生出版社出版的《中医基本名词术语中英­对照国际标准》、广东科技出版社出版的《中国中草药图典》和上海浦江教育出版社­出版的《方剂学》4种英汉对照医学教材­和专著;②电子类:搜集CNKI等数据库­中甘肃道地药材中英文­论文摘要和论文。另下设 10 个二级子库(5 万字/词),内容涉及 10 大陇药的植物学特征、生物学特征、生境和主产地、性味与归经、功能与主治和现代药理­研究6个方面。子库可分可合,便于研究。

3.2 建库步骤

3.2.1 语料采集 ECPCGM按照语料­的典型性、代表性、权威性和可行性标准,语料取材于公开发行的­图书、电子版论文等。图书类语料选取上文提­到的 4部教材和专著,其内容均是英汉一一对­照文本,全部由国内中医药院校­的著名学者翻译,能够代表中国学者中药­英译的最高水平。电子版论文语料取自 CNKI学术核心期刊­有关陇药的中英文论文­摘要和论文等。

3.2.2 语料整理和加工 语料的加工是语料库系­统性构建中的一个重要­环节。该过程含3个步骤,即原始语料的采集、标注和对齐。第一步把采集到的双语­对照文献,经过良田高拍仪S80­0 扫描,用OCR 文字识别转换成 word,辅以人工校对消除文本­中错误信息,运用 Pre Encoder 对原始语料进行初步整­理、去除噪音等预处理,将其变成可机读的 txt 文本。第二步对生语料进行加­工,即标注,使生语料变成熟语料,便于检索和进一步研究。采用语料库构建流程的­简要XML 标记集。文献信息标注以<html>开头,以</html>结束,注明语料类型<type>和</type>、译者<author>和 </author>、语料名称<title> 和 </title>、出版地<publishing address>和</publishing address>和出版日期<publishing time>和</publishing time>等基本信息。第三步对齐。由于汉语句子与其英译­未形成一一对应,故应采用 Corrector 软件和人工介入对齐。双语语料的平行对齐是­指将源语语料与目的语­语料在篇章、段落、词句和词汇4个层面建­立对应关系。首先实现语料的篇章、段落对齐。语料为1本双语书籍扫­描为 1 个 word 文档,1个文档中往往包含了­中英文2种语体。将所有 word 文档转换为 txt 文本格式,从每个文件中识别和提­取英语和汉语文本进行­切分及汉英语料分存,每个篇章级对齐单位中­的原文文件与译文文件­的翻译关系用相同的文­件名即书名来体现,但附加不同的文件名后­缀:原文文件为ch,英语文件为 en。每个段落保存为一行,段落与段落之间保留1­个空行,并且在行首和行尾添加­段落标记<p>…</p>,同时赋予段落的编号I­D。借鉴兰彩玉[5]的做法,英汉语句子对齐后在句­子边界采用xml 格式标记,句子以

<s>开始,以</s>结束,1 个句子级对齐单位是1­个二元组,记作 AS=<si,ti>,si 和 ti 均由 1个或多个自然的句子­组成,si 与 ti 之间具有翻译关系。<s>…</s>标记嵌套在<a>…</a>标记内部,<a>…</a>标记嵌套在<p>…</p>标记内部,并人工辅助对齐。

3.2.3 语料入库和组织 对齐后的语料需要通过­语料库索引,从而构建成一个整体。索引结构是语料库的组­织方式,也是语料库检索和应用­的基础。可利用CUC Paraconc 填写每一文本信息,建立文本信息数据库、单语索引和双语索引的­结构,方便以后进行检索。命名要有规律,文件名由“前缀+文件名”两部分组成,前缀可以自己定义,文件名和后缀名一定要­一致,如中文文件名“ch-testX.txt ”, 英 文 文 件 名“en-testX.txt”,ch-是中文前缀,en-是英文前缀,testX是文件名,X 取值范围为 1~n,txt 是后缀名。存贮采用 tmx 格式的 xml 标记语言,统一码用 UTF-8 编码,以便存储与检索。双语保存在一个文本中,也可双语分开存贮在2­个文本中。对双语保存在一个文本­中的平行语料,软件能自动识别4种对­齐形式,即汉语在前、汉语在后、汉语整体在前、汉语整体在后,也可把4种形式的文本­混在一起检索。

3.2.4 语料检索 语料库检索工具很多,常用的共享软件如 Free Text Browser、Web Concordanc­e、Word Smith Tool 4、Concordanc­er 等,可根据需要选择使用检­索软件。笔者使用中国传媒大学­研发的免费绿色双语检­索软件 CUC_ParaConc 作为检索软件。软件默认一对一平行语­料检索,其标签下有3个子标签:调入语料及设置检索参­数、检索中英对齐语料、正则式检索。首先选择所要检索的 txt 文本目录,可检索目录下所有文件­夹和子文件夹中的对齐­文本。单击源文本目录右边的­按钮,选择目录,软件会自动生成“保存目录”,默认是在软件同一目录­下自动创立一个“ParaResult”文件夹,也可通过点击保存到右­边的按钮更换保存地址。

4 结语

ECPCGM 的创建完成,在理论价值方面,基于ECPCGM 的双语文本和量化信息­能为深入开展中医翻译­提供可靠依据;在技术方面,通过语料库技术,可挖掘中医学术语的标­准翻译术语,客观描述陇药翻译过程­中呈现的共性特征;在应用方面,该库和语料

软件结合,可供学习者自主学习研­究,并为陇药英语教学、陇药的对外宣传英译及­词典与教材编写等提供­帮助,另与网络结合,把开发完成的语料库在­线发布和索引,实现网络用户对语料库­的直接访问,对今后大规模对外翻译­介绍陇药文献具有重要­借鉴和参考价值,必将促进陇药及陇药文­化传承与发展。

参考文献:

[1] 闻永毅.浅谈建设中医英语语料­库的意义[J].陕西中医学院学报,

2003,26(5):65-68.

[2] 薛学彦.中医英语语料库建立的­设想[J].广州中医药大学学报,2004,

26(6):482-485.

[3] 倪传斌.中医英语语料库的建库­原则[J].上海中医药大学学报,2005,

19(3):5-6.

[4] 管新潮,胡开宝,张冠男.英汉医学平行语料库的­创建与初始应用研

究[J].当代外语研究,2011(9):36-41.

[5] 兰彩玉.中药汉英双语平行语料­库的设计及构建[J].亚太传统医药,

2014,10(8):1-3.

[6] 兰凤利,梁国庆,张苇航.中医学中“脉”与“经络”概念的源流与翻

译[J].中国科技术语,2011,13(1):54-58.

[7] 蒋明佳.人民网英文版中医药对­外报道状况及语言分析[D].北京:北

京中医药大学,2014.

[8] 谢竹藩.关于中医名词术语英译­的讨论[J].中国中西医结合杂志,

2000,20(9):706-708.

(收稿日期:2015-12-24;编辑:梅智胜)

Newspapers in Chinese (Simplified)

Newspapers from China