工作会议讲话稿语料库构建浅谈
□邵建国柳新华
领导讲话的重要性不言而喻。哪里有会议和公共礼仪活动,哪里就有领导讲话。领导讲话稿是领导讲话的底稿,是一种为读而写的话语,语言上兼有书面语和口语的特点。目前,关于领导讲话稿尚无一个公认的分类标准。由于行政机关经常用到的领导讲话稿是工作会议讲话稿,所以应该加大此类讲话稿的研究力度。
语料库顾名思义就是存储语言材料的仓库,通常是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。工作会议讲话稿语料库是公文语料库讲话稿子库的一个子库。本语料库重点研究工作会议讲话稿当前的语言特点,并不关注其历史变迁和发展变化。因此,本语料库是一个静态的共时语料库。
运用构建语料库的方法,分析研究工作会议讲话稿的语言特点,既是讲话稿研究领域的新课题,也是对公文语言本体研究的补充,具有一定的理论价值和现实意义。
第一,有助于揭示工作会议讲话稿的语言特点。借助构建语料库的方法,能够对工作会议讲话稿所使用的词语、句型、句式、句类、修辞格等进行量化,便于写作人员参考和选用。
第二,有助于扩大公文学研究视野,有利于构建公文学学科框架,有益于公文学学科的完善。基于语料库的研究,可以促进讲话稿乃至所有公文语言特点的细化研究,最终实现领导讲话学的建立。
第三,有助于发挥公文的管理工具作用。领导的工作就是实施领导,包括利用会议讲话来部署安排工作。好的讲话稿有助于会议进行和工作开展,从而提高会议质量和工作效率。
第四,有助于工作会议讲话稿的写作。借助语料库这个参考平台,写作人员可从中发现讲话稿遣词、造句、修辞的一些规律。
第五,有助于讲话稿写作教学。高职、高专类院校在讲话稿写作教学过程中,可以此为参照编写教材、教案,使教学活动更加科学合理。
另外,还有助于讲话稿词典、句典的编纂。
为使本语料库更加科学合理,能够如实反映所有工作会议讲话稿的语言共性,在建库过程中,应严格遵守代表性和平衡性两条原则。
(一)代表性
工作会议讲话稿语料库的代表性,就是建立在该语料库基础上的统计分析结果能够概括、体现工作会议讲话稿语言的整体特性。为使工作会议讲话稿语料库具有一定的代表性,要注意以下两点:1.语料库的规模。基于上述认识,语料库在规模上不宜贪大求全,追求海量语料。目前我们正在建设的语料库拟收入工作会议讲话稿300篇,约180万字,涵盖经济工作、安全工作、农村工作等领域。180万字的规模,应该可以代表工作会议讲话稿语言的整体面貌。
2.语料的真实性。要保证语料库的代表性,最根本的要求就是语料真实。这主要依赖于以下四个方面:第一,所用语料必须是公开发布的。本语料库所收讲话稿均来自国务院及其各部委、各省市政府网站,以及公报、专著、《人民日报》和人民网等权威媒体。
第二,收集符合本语料库要求的文本。所谓符合本语料库的要求,就是要明确本语料库是一个反映当前工作会议讲话稿语言特点的共时语料库。
第三,采用随机抽取的方法选取语料,从收集到的500篇讲话稿中随机抽取300篇作为语料。
第四,每一个文本都必须是完整的。工作会议讲话稿有其相对固定统一的格式和风格,如果只截取一部分,其整体面貌必然被破坏,从而影响语料库的客观性,无法反映工作会议讲话稿语言的真实情况。
(二)平衡性
尽管这是一个专门性的语料库,但其内部各部分的平衡也不能忽略。
1.纵向的平衡。本语料库收录从高层领导到基层领导的工作会议讲话稿,即包括国务院总理、部委首长、省长(含自治区主席、直辖市市长)、市长(含副省级城市市长、省会城市市长、地级市市长)等的工作会议讲话稿。
2.横向的平衡。本语料库是关注当前工作会议讲话稿语言特点,真实反映当前工作会议讲话稿语言使用状况的共时语料库。因此本语料库选取的都是2000年至2010年的讲话稿,选取比例如下:2001 2002 2003 2004 2005 2006 2007 2008 2009 201024 24 24 24 30 30 30 30 30 30200024年份篇数总理讲话省、部长讲话市长讲话合计样本数100篇120篇80篇300篇字数60万72万48万180万比例33.33%40.00%26.67%100%构建原则构建本语料库大体有以下六个步骤:
(一)确定结构纵向按讲话者身份划分出正副总理,正副省、部长,正副市长三个层级;横向按讲话稿内容划分为经济工作、安全工作、农村工作、卫生工作、教育工作、建设工作、民政工作、优抚工作、就业工作、交通工作等工作领域。
(二)收集语料
根据语料库结构收集语料,基本目标是500篇。
(三)整理语料
首先,按照工作会议讲话稿语料库的要求将合格文本抽取出来,剔除不合格文本。其次,在合格文本中随机抽取适量文本,所谓适量就是符合上文所述的平衡性原则,并最终确定工作会议讲话稿语料库的构成。再次,对选定的文本进行校对。最后,由于这些文本都是WORD文档,为方便后续的分词和词性标注工作,须将WORD文档转换成TEXT文本。完成这四步,一个未经加工的工作会议讲话稿生语料库就建成了。
(四)分词和词性标注
利用分词和词性标注工具进行机器自动分词和词性标注。
(五)校对和句法、修辞方式标注机器自动分词和词性标注后,由人工校对。
在校对第四步分词和词性标注结果的同时,人工标注惯用表达格式、句型、句式、句类、修辞方式等属性信息。
(六)校对
对上述标注信息再次校对。校对后,一个工作会议讲话稿熟语料库就建成了。
基于工作会议讲话稿语料库,重点考察分析工作会议讲话稿在词汇、句子、修辞等方面的特点。
(一)词汇的统计分析
利用词频统计工具,统计常用词语、固定词语(包括成语和惯用语)、缩略语、口语词语的频度和频率,得出工作会议讲话稿语料库的频度词表。然后由人工对词表进行校改,得到一个工作会议讲话稿词表。将其与日常用语词表进行比对,总结工作会议讲话稿词汇的特点,并提取出工作会议讲话稿专用词汇和常用词汇。
从中分别抽取动词、副词、连词、介词等,制作常用动词频度频率表、副词频度频率表、连词频度频率表、介词频度频率表等。另外,提取工作会议讲话稿惯用表达格式,如“下面,我就……工作讲几点意见”,并对其进行分析,制作工作会议讲话稿惯用表达格式表。
(二)句子的统计分析
一是统计句型如主谓句、非主谓句、联合复句、偏正复句等的频度和频率,制作工作会议讲话稿句型使用频率表。根据统计结果,从历史、政治、文化、功能、语言等方面解释某些句型使用频率高的原因。
二是统计句类如陈述句、祈使句、感叹句等的频度和频率。预计得出以下结论:祈使句和陈述句使用频率高,感叹句次之,基本上无疑问句。然后从历史、政治、文化、功能、语言等方面分析祈使句和陈述句使用频率高的原因。
三是统计句式如把字句、将字句、是字句等的频度和频率,从句法、语法、语义等方面分析各种特殊句式在工作会议讲话稿中的作用。
四是统计句长。
(三)修辞格的统计分析
统计工作会议讲话稿修辞格如排比、对偶、引用、比喻等的频度和频率,并分析它们的特点和功能。
(鲁东大学)
职称评定要求要发表论文,论文发表要注意哪些事情。有哪些期刊可以选择,欢迎在本站查阅可以在本站了解一下评职的具体要求哦,也可以咨询我们。