时间:2022-08-20 09:44:26
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇c语言论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
论文致谢是什么?论文致谢就是将本篇论文有所帮助的人为之答谢,那么论文致谢应该怎么写?下面是学术参考网小编为朋友们搜集整理的论文致谢和结论的格式,希望可以帮到你~
什么是论文致谢信
在论文完成之际,我要特别感谢我的指导老师XX老师的热情关怀和悉心指导。在我撰写论文的过程中,X老师倾注了大量的心血和汗水,无论是在论文的选题、构思和资料的收集方面,还是在论文的研究方法以及成文定稿方面,我都得到了X老师悉心细致的教诲和无私的帮助,特别是他广博的学识、深厚的学术素养、严谨的治学精神和一丝不苟的工作作风使我终生受益,在此表示真诚地感谢和深深的谢意。
在论文的写作过程中,也得到了许多同学的宝贵建议,同时还到许多在工作过程中许多同事的支持和帮助,在此一并致以诚挚的谢意。
感谢所有关心、支持、帮助过我的良师益友。
最后,向在百忙中抽出时间对本文进行评审并提出宝贵意见的各位专家表示衷心地感谢!
论文致谢信怎么写
在硕士学位论文即将完成之际,我想向曾经给我帮助和支持的人们表示衷心的感谢。首先要感谢我的导师曹计昌教授,他在学习和科研方面给了我大量的指导,并为我们提供了良好的科研环境,让我学到了知识,掌握了科研的方法,也获得了实践锻炼的机会。他严谨的治学态度、对我的严格要求以及为人处世的坦荡将使我终身受益。除此之外,他对我生活的关心和照顾也使得我得以顺利完成研究生的学业。在此祝愿他身体健康,全家幸福!
感谢我已经毕业的师兄徐日东、张凡、周志坚、段云涌和夏志远,他们曾经给了我无私的帮助和鼓励,让我学到很多。感谢汪健和程诗猛两位师兄,他们丰富的工作经验对于本文的硬件设计提供了很大的帮助。感谢同届的张斌、李纯和张登宝,他们是我学习、工作和生活上的伙伴,也是面对困难和挑战时的战友。感谢我的师妹邓祯,师弟冯国平、古明生、周建琼、杨帆、舒林、周宇杰、朱圣健、吴喧辉和张泽,从他们身上,我学到很多东西,和他们在一起的日子是读研期间快乐的时光。
感谢在广东普信公司实习时的同事们,他们在我第一次参加实际项目开发的过程中给了我莫大的帮助和鼓励。特别要感谢我的项目经理李旭和黄润怀,是他们的信任给了我很多锻炼的机会,也一直对他们给予我的生活上的照顾心存感激。和他们一起为广州项目奋战的一年多是我人生中一段难忘的经历。
一、“饱含着东方人的智慧卓见”
学者王元化也被推重为“时代的思者”①。虽然作为学者或思想者,王元化都难以完全纳入“比较文学”论域,后者却可能是感触前者独特风貌的一个有效视角,而前者也可能为后者提示“中国气派”的启示。就王元化学术方面而言,一位前辈文艺学者将之梳理概括为八个方面后写道:“20世纪上半叶,中国出了不少学术大师,如王国维、梁启超、陈寅恪、鲁迅、、郭沫若等”。而及至21世纪,“王元化作为一代学术大师的意义和价值,似乎还不曾被更多的人所认识和揭示”②。在改革开放以后形成的“比较文学”学科领域中,着名法国文学研究者钱林森《缅怀远去的智者———王元化先生与〈跨文化对话〉二三事》中写道:“国际双语论丛《跨文化对话》自1998年创刊至今,已迈过10年历程了。……不久前离世的王元化先生,他为《跨文化对话》留下的思考和文字,更值得我们珍惜、怀念”③。王元化被推重为“比较文学”研究领域开拓者的代表作是1979年出版的《文心雕龙创作论》。该书在全国首届(1979~1989)比较文学图书评奖活动中获“荣誉奖”④。学者赵毅衡当年评论:“一九七九年或许是我国比较文学研究进入‘自觉期’的一年:钱钟书《旧文四篇》、《管锥篇》前四卷、杨绛《春泥集》、范存忠《英国文学语言论文集》、王元化《文心雕龙创作论》,这些解放后出版物中中西比较文学内容最集中的书籍,都出现于一九七九年。”①季羡林先生在更早的1981年写道:“应该把中国文艺理论同欧洲的文艺理论比较一下,进行深入的探讨,一定能把中国文艺理论的许多术语用明确的科学语言表达出来。做到这一点真是功德无量。
你在这方面着了先鞭。”②王元化另一部代表作《思辨随笔》于1995年获第二届中国国家图书奖。着名翻译家萧乾先生在《〈思辨随笔〉不可不读》中写道:“这里论述的真是从中至外,从古至今:从孔子、刘勰到鲁迅、,从莎士比亚到普希金,没有冗长引句,更不见老生常谈,全是作者的思绪和心得。他对莎剧有些评论如译出来传到国外,估计必会赢得西方莎学家们的赞赏,因为其中饱含着东方人的智慧卓见。”③如果说萧乾评语中对“东方人智慧”的强调在中国比较文学研究界是先着一鞭,那么其所思所见与王元化本人同时期关于中西文化比较的主导思想之强调是不谋而合:研究中国文化,不可避免地需要以西学作为比较的参照系,但又不可以西学为主体,用中国文化去比附。恕我再一次借用正在受人指摘的余英时的直率说法:“今天的文化危机特别表现在知识分子的浮躁心理上,仰慕西方而不知西方文化的底蕴,憎恨传统文化又不知传统文化为何物。”④并非偶然的是,十年后日本学者将《思辨随笔》作为《王元化着作集》之一而完整译介⑤。《思辨随笔》于2004年增补修订为《思辨录》⑥。有的高校教师开始将之作为“大学本科生和研究生入学时必读的教科书”⑦。最近一位承担国家社科基金项目的年轻学者在《王元化〈思辨录〉的方法论意义》专题论文中提出:“《思辨录》体大思精虑全、圆融中外古今,对其展开全面研究是一门大学问。”⑧笔者初步考察统计,《思辨录》全书出现的外国作家与文学人物姓名不下三百之数。如果以外国文学作为“比较文学”参照系,则该书内涵之丰富也可见一斑。
王元化学术中的“比较文学”因素还可追溯到其历年乃至早期着述中。例如文艺评论集《向着真实》初版于1952年,其中所及的外国文学家不仅有契诃夫、车尔尼雪夫斯基、别林斯基、罗曼?罗兰、果戈理、卓别林,还包括法国作家左拉、美国作家考德威尔、捷克作家伏契克,以及委内瑞拉诗人等。该书再版后记回顾道:“我写下了对自己所喜爱的某些作家的一些感受。其中有些看法现在虽然已有所变化,但对于这些引导我认识生活和怎样对待文学事业的先驱,我始终怀着青年时代的崇敬心情。今天重读这些文字,我的心中仍激起当年的感情波澜。”⑨一位年长学者回忆八十年代末读到《向着真实》与《文心雕龙创作论》二书时的心情:“那时,我在一些前辈鼓励下,正起步于比较文学教学与研究,并开始招收比较文学方向的研究生。相遇王先生这两部着作,对我而言,真是不期而遇的‘机缘’。《向着真实》这部处处充满真知灼见的评论文集中,最引起我注意和兴趣、且对我产生影响的,是他评论罗曼?罗兰《约翰?克利斯朵夫》的两篇文章,先生对罗兰作品认识独到,见解高远,我不仅在自己的论作中加以征引,也在对研究生授课中多次介绍过。”①王元化青年时代最初论文是1939年发表的《鲁迅与尼采》。他晚年自述该文“受到了由日文转译过来的苏联文艺理论影响”,其中有“机械论的痕迹”②。然而在中国现代文学思想史叙事中,迄今它依然不失为“三十年代关于鲁迅的最有分量的论文之一”③。《鲁迅与尼采》的标题与今天“比较文学”研究的通常模式相契。该文作为王元化最初发表而产生影响的论文,意味着其学术生涯中的某种潜在基质。如果说这种基质与后来引进的“比较文学”研究视阈和方法不谋而合,那么王元化自1939年迄至去世的2008年,在近七十年中先后出版的四十余种着述中,都可能包含“中国比较文学”研究的独特因素和资源。
二、“比较文学方法”与“综合研究法”
原初意义上的“比较文学”基于两个要素:一为文学对象,二为外文研译。前者是比较文学的特定对象,后者是赖以成立的前提。就此而言,王元化学术至少包含若干原初意义的“比较文学”因素。例如他的莎士比亚研究包括对西方莎剧论文的译介。他的《文心雕龙》研究,前期成果之一是对西方“文学风格”代表性论文的译介,后者成书为《文学风格论》④。此外,王元化还与父亲王维周教授合译过《革命亲历记》⑤。然而在中国语境中,比较文学研究通常也以中译本为对象。即便在这一场合,研究者是否自觉意识到外文原文与中文译文之间可能存在意味差异乃至歧义,这无疑会影响到他所作判断和所下结论是否中肯合理。这种差异乃至歧义尤其表现在一些专门术语上。因此,至少就中外文艺理论的比较研究而言,对中外术语意味之差异的清醒认识,以及基于这种认识的追溯考辨斟酌等,理应是研究者的必要条件和基本素质。王元化学术中的“比较文学”因素也蕴含于他对汉译西方着作的研读和阐释中。这方面他所提供的启示之一是,对于西方着作中的一些关键性理论术语,必须结合外文语源和语境而尽可能充分辨析、追溯和考量。例如他的《读黑格尔》中多处研讨了黑格尔术语的中译问题。诸如:“情志”、“情致”、“”三者相对于黑格尔原着中古希腊词“”何者更为恰当;“知性”较之于旧译“悟性”或“理解力”为什么更能妥切传达德文原着“Verstand”之旨;“总念”、“概念”之于德文“Begriff”的孰所优劣;中国古典美学“气韵生动”、“生气灌注”与黑格尔美学“beseelt”的汉译关系;被英译为“sense”(感觉)的德文“sinn”是否可以译为“艺术敏感”;为什么应该用“宁静”来替代中文旧译的“静穆”,等等⑥。这里我们以《读黑格尔》用“情志”翻译“”的一例观之。
后者在黑格尔德文原着中就是一个源于古希腊的外来词,并且黑格尔本人认为它在德文中很难找到确切译词。而据《读黑格尔》对“”词的考察:它在英文中译作“Pathos”(意为悲哀,哀愁,动情力,悲怆性等),在拉丁语中译作“Qual”(意指本原的痛苦),在恩格斯着作中被解释为“苦闷”,在中文旧译中转成“情致绵绵”。这些译词相互歧异,究竟如何汉译为恰?王元化考辨的结论是:“”这个词不仅涉及情感方面,也潜在“志”的意蕴,它指谓的是一种“合理的情绪方面的力量”;中文旧译“情致绵绵”未能传达该词的“志”意,英译“Pathos”(悲怆情感)也遗漏了该词的伦理意味①。这个例子至少表明,王元化对黑格尔术语的把握是经过多方考究和反复斟酌的。一方面,其结合黑格尔理论体系背景而辨析的方法是超出了一般语言翻译家的关注所及;另一方面,其对该词语源的尽可能追根溯源,亦足为重思想而轻学术的年轻后辈有所借鉴。就外来的“比较文学”方法而言,通常认为主要有“平行研究”与“影响研究”两种。而这两种方法在王元化着述中多处可见。这里仅就平行研究方面管窥一斑:在我读过的剧作中,我把具有这种特点的剧本称作是“散文性戏剧”,将它与“传奇性戏剧”相区别。……我对散文性戏剧和传奇性戏剧所作的比较说明,在我过去所写的文字中曾留下了痕迹。②王元化以“散文性戏剧”与“传奇性戏剧”来概括契诃夫与莎士比亚作品的不同特点,这显然可纳入“平行比较”。据考察,我国建国初戏剧界关于戏剧结构的分类,有开放式、闭锁式、人物展览式的三类型说;至上世纪80年代有纯戏剧式、史诗式、散文式、诗式、电影式的五类型说,其中将莎士比亚戏剧作为史诗式结构的典型,契诃夫戏剧作为散文式结构的典型;同期又有论者以“非戏剧化倾向”来指谓契诃夫戏剧的特征。由此回瞻,王元化五十年代对契诃夫戏剧与莎士比亚戏剧之异同的概括至少可谓先着一鞭③。比较文学界通常所谓“平行研究”主要限于将A与B两个不同国别的文学对象加以比较(例如阿Q与唐?吉诃德之比较)。
这一方法无疑来自国外。相对于此,王元化的方法另有其独特之处:即比较的对象常常不限于A与B,而是A、B、C乃至更多。例如在被评赞为中国比较文学“开拓”之着的《文心雕龙创作论》中,比较所及的外国文论包括马克思、黑格尔、歌德、威克纳格、契诃夫、别林斯基等;其所涉国别则包括德国、英国、法国与俄罗斯等。这种比较显然超出了通常以两个国别文学为对象的“平行比较”模式。这种不拘常套的“平行研究”在王元化着述中多处可见,下面是另一例:《雷雨》充满浓重的传奇色彩,《北京人》只是生活的散文:平凡、朴素,好比一幅水墨画,……我不想判断传奇的悲剧好,还是散文的悲剧好。莎士比亚式的悲剧我喜欢,契诃夫式的悲剧我也喜欢。不过,传奇的悲剧容易渲染过分,以致往往有失真之弊。雨果的《钟楼怪人》是伟大的作品,可是我个人的口味更喜欢史坦培克在《人鼠之间》中所写的莱尼。这是一个力大、粗鲁、丑陋的壮汉,在粗糙的灵魂中同样充满了人性和柔情。他更平凡,也更使我觉得亲切。以上这些就是我当时的看法,其中许多观点,我至今未变。但是任何一种正确观点,如果固执地推到极端,作为审美标准的极致,就会产生片面化,从而使自己的眼界狭窄起来。……前人所谓尺有所短,寸有所长,万物并育而不相害的话,确实是有道理的。④其中比较所及对象除了莎士比亚与契诃夫外,还包括的《雷雨》、《北京人》,雨果的《钟楼怪人》、史坦培克的《人鼠之间》。英文中,两个对象之间的比较与三个以上对象之间的比较,在语言表述上需要分别使用不同的介词,即“between”与“among”。其差异表述如下:(1)totelldeferencebetweenAandB.(比较A与B两个对象的差异)toshowsimilaritybetweenAandB.(比较A与B两个对象的相通)(2)totelldeferenceamongA,B,C.(比较A、B、C三个对象的差异)toshowsimilarityamongA,B,C.(比较A、B、C三个的对象相通)如果将上述两种比较分别称为“between型”与“am
〔关键词〕法律学术论文;英汉对比;引言;体裁;语步
〔中图分类号〕H05〔文献标识码〕A〔文章编号〕1000-4769(2013)02-0203-06
一、 引言
随着对外开放的领域拓展和程度加深,中国与国际法律界的交流与日俱增,相应地,学术论文也成为中外法律界探讨各种热点问题、交流信息、完善法律制度、解决法律争端的重要途径。就一定层面来看,要让我国法律研究走向世界,得到国际学术界同行的认可并占有一席之地,当务之急是在国际重要的学术刊物发表高水平学术论文。因此,了解中英文法律论文的写作差异,掌握英文法律学术论文写作规范是法律研究工作者的当务之急。
引言作为论文的开局部分,以简短的篇幅介绍论文的写作背景和目的、目前的研究热点、存在的问题及文章的研究意义,从而引出本文的主题并激发读者对本篇论文的兴趣。因此,引言对正文起到提纲挈领和激发阅读兴趣的作用,在整篇学术论文中具有十分重要的地位功能。目前法学界对法律类学术论文中引言的研究则尚显不足,而从英汉对比的角度探讨英文法律学术论文中引言的体裁特征的研究更是极其稀缺。鉴于此,本研究采用语料库方法,选取30篇中外法律权威学术论文,修正了体裁分析的框架,对比分析英汉法律类学术论文引言,旨在准确地描述英文法律学术论文中引言的体裁特征,并探讨差异背后的社会文化原因,借此唤起国内法律研究者对英文论文中引言写作的规范意识,促进我国法律学者在国外权威法学期刊上发表高水平的学术论文。
二、理论依据
体裁是以交际目的为导向的交际事件,具有其话语社团公认和遵守的图示结构,并且对语篇的内容和形式起着制约作用。〔1〕它不是一般的交际事件,而是一种内部结构特征鲜明、高度约定俗成的可辨认的交际事件。在建构语篇时,人们必须遵循某种特定体裁所需要的惯例。 〔2〕而体裁分析方法是多学科交叉研究的产物,它综合了语言学、社会学和心理学的研究方法,将交际目的与策略技巧紧密联系在一起,把语篇分析从描述扩展到解释,不仅考虑社会文化因素,而且考虑心理语言因素。〔3〕
引言也是一种具有特定框架的体裁。为了分析引言的体裁结构,Swales提出了CARS(Create A Research Space)模型。该模型包含三个必需的语步(Move),而每个语步包含若干可选择的步骤(Step)来实现语篇的交际功能,如语步一(Move 1)中包含三个步骤:指出研究重要性 (claiming centrality) ,概述主题(making topic generalizations)、评述以往研究(Reviewing previous re-search)。虽然CARS模式是分析论文引言结构的有效模式,但学术论文的多样性必然导致引言的体裁多样性,例如软件工程学科论文引言的某些新语步,如定义术语、举例说明等,无法在CARS模型中找到对应。〔4〕而在不同学科的论文引言里,某些特定的语步,具有独特的语篇功能和位置。〔5〕
笔者在分析英文法律学术论文中的引言语料时发现,英文法律学术论文中的引言在回顾文献、通报当前研究和介绍论文结构这三大语步的写作规范有很大的差异。因此为了更深层次的讨论,本研究将它们作为单独的语步列出。同时,笔者也发现英文引言中的一些步骤,如定义关键术语,陈述当前研究,陈述主要计划,概述研究目的,研究问题/假说和研究价值等,在CARS模型中找不到对应。因此,本研究将新步骤加入了CARS模型里,结合英文法律学术论文中引言特有的语步,以及CARS模型里缺少的语步和步骤,修正了CARS模型,提出了英文法律类学术论文类CARS模型(见表1)。
三、研究现状
在当今国际学术界,体裁分析已被广泛应用于许多领域,其中包括对某一特定学科的英汉论文体裁对比研究,发现某些特定学科论文引言里包含了CARS模式没有的一些重要步骤,如定义术语等;〔6〕一些学者从修辞策略的角度,对某一特定学科的跨文化跨语言论文引言进行对比研究;使用体裁分析理论比较同一学科不同领域的论文的引言结构也是语言学家们关注的焦点。〔7〕这些研究丰富了体裁分析理论,完善了CARS模式,也揭示了不同交际目的下引言写作的多样性。
在国内, ESP教学,写作和翻译研究,〔8〕以及学术语类语篇的模块标注〔9〕等领域是体裁理论研究的焦点。与法律学术论文的相关问题也引起了学者的广泛探讨,其中有对法学论文各部分写译规范化的探讨,〔10〕也有对当前法学论文现状和存在问题和解决方案的研究,〔11〕以及对英汉法律语篇和语言差异的研究〔12〕等等。这些探索性研究对体裁分析的应用与拓展起到了积极作用,同时有助于对国内法学研究的反思并推动其发展。
纵观以上研究,虽然它们从不同方面对法学论了广泛而深入的探讨,但多数是从理论论证,没有进行大量实例验证,缺乏有力的数据支撑。而且这些研究多集中于中文法学论文,对比中英文法学论文的研究涉及甚少,对于帮助国内法学学者了解国际法学刊物的写作规范作用有限。
四、研究方法
本研究从国内外法律权威学术期刊共选取语料30篇,创建共计30240字数的小型英汉法律学术论文引言语料库。英文期刊包括Harvard International Law Journal, International Review of Law and Economics,Computer Law and Security Review等。中文期刊包括《法学研究》、《现代法学》。运用英文法律类学术论文CARS模型,对30篇英汉法律论文引言中的语步步骤进行人工标注,用AntConc软件提取,归纳各语步及步骤频率分布特征,总结英汉法律论文中的引言语步分布以及实现形式差异,并深入探讨其产生的深层次原因,力求从对比分析的角度更全面、客观地把握英文法律学术类论文中引言的体裁特征,帮助中国法律学者写出高质量的英语法律学术论文。
五、结果分析与讨论
基于以上研究方法,我们得到英汉法律学术论文中引言的宏观语步和微观步骤分布特征(见表2),我们将逐一分析它们的异同,并探讨其背后深层次的社会文化原因。
1.英汉法律论文中引言的宏观语步分布特征
(1)由表2可见,中英文法律论文中的引言语步特征呈线性分布:确立研究领域开篇-阐述前期研究成果-设置研究空间-通报当前研究-填补研究空间-介绍论文结构。但英汉法律学术论文引言的宏观整体结构有较大不同,在语步的顺序和分布上具有明显差异,主要体现在语步1(确立研究领域)、语步5(填补研究空间)和语步6 (介绍论文结构)。
(2)相比中文法律学术论文引言,英文法律论文引言更注重详尽、全面地介绍研究领域。引言开篇采用介绍研究领域,研究背景这一语步,可以让读者能够迅速进入研究情景,了解必要的背景知识以便更好地理解作者的文章论证及观点。所有30篇英文法律论文中的引言十分详细具体地介绍了研究领域,涵盖了相关领域的方方面面,所占篇幅较大,有的达到数千字(由于篇幅有限,作者不再举例说明)。虽然86%的中文法律论文中的引言介绍了研究领域,但篇幅在整个引言中较短,寥寥数语,甚至有2篇引言未介绍研究领域而直接进入了“设置研究空间”这一语步。
英汉法律论文中引言对于介绍研究领域的显著差异主要源于国内外不同的学术写作习惯。国外学者通常采用作者负责型写作方法,这种方法要求作者详细阐述观点,展示逻辑推理的过程和事物的具体性,这使得文章条理清楚,目的明确,也大大减轻了读者的负担;而中国学者则倾向于采用传统的读者负责型写作方法。这种写作方法倾向于含蓄概括,思维委婉跳跃,作者只是提出模糊的意向和帮助理解的材料,大量背景知识需由读者自行查找,作者的观点深意也要由读者从文章叙述中得出, 读者的主观理解发挥了极大的作用。所以在例1中,作者在第一句中就直接切入研究焦点:教育权,第二句高度概括了造成不同理解的原因,并没有展开此话题,给读者留下了更多的想象空间,以待在下文中寻求答案。
例1.现代法律一般都承认受教育权是一项基本人权,但各国的立法表述上不同,导致人们对受教育权性质的含义有多种不同的理解……(《从国际法角度看受教育权的权利性质》)
(3)英文法律论文更倾向在引言里通报其填补研究空间的结果,而中文法律论文引言涉及极少。“通报研究空间”这一语步的主要功能是直接说明研究成果,并指出其在研究领域的理论和实践上的意义和价值,同时也强调当前研究的贡献。
由表2可见,英文法律论文作者一般在引言里直接提出其研究结果,解决方案,观点看法等,80%的英文法律学术论文都在引言里通报了填补研究空间的结果,这使得读者在一开始就对文章的立场清晰理解(见例2、例3)。在例2中,作者提出了一种常识性理论,这种理论可以很好的解决前文提出的艺术品诉讼法庭争议的问题。在例3中,作者直接表明了自己的立场和文章的结论:修订法不能根本改变被告的权利,从而回答了一直备受关注的问题。
例2.In contrast to the work of such scholars, this Article, written on the verge of a possible dramatic reworking of the rules governing international jurisdictional conflicts and judgments, posits a simple common sense theory: courts should defer to the forum exercising in rem jurisdiction will have the most control over the ultimate disposition of the chattel.(〈Crossroads in the Great Race: Moving Beyond the International Race to Judgment in Disputes over Artwork and Other Chattels〉)
例3. This Comment concludes that the amended rules are not likely to change substantially the rights of criminal defendants with respect to the introduction of prior act evidence.(〈COMMENT: Oregons New Character Evidence Rules〉)
相比之下,中文法律学术论文极少在引言中直接揭示其观点立场或解决方案等,只有20%在引言里指出了研究结果,解决方案等。由此可反映出中英学者不同的论文写作习惯:外国学者写作直接清晰,开门见山,而中国学者写作委婉曲折,倾向于缓慢推进写作进程。
(4)大部分英文法律论文会在引言里介绍论文结构,而中文法律论文引言都缺少这一语步。介绍论文结构能帮助读者掌握文章脉络,更好地理解作者的思路,从而更深刻地掌握作者论证的方法过程。此外,论文结构可以使读者更有针对地阅读文章,有选择、有重点地研究自己感兴趣的部分,在阅读引言时就能够确定自己阅读的重点(见例4)。表2表明70%以上的英文法律论文都在引言里介绍了论文结构,不仅使得文章逻辑严密,条理清晰,还使得读者有了整体的概念,也方便读者快速阅读感兴趣的部分。在例4中,作者用主题句、特点的语法结构,清楚地呈现了整个篇章结构,使读者能迅速地把握文章脉络,选取自己的兴趣点。
例4. The structure of this Article is as follows: In Part I, I briefly survey……In Part II, I analyze……I demonstrate that (a)…… (b)……(c)…… I then turn in Part III to a description of……In Part IV, I examine…… In Part V, I put forward the basic tenets of an IL approach. In this model, (〈Integrative Linkage: Combining Public and Private Regulatory Approaches in th Design of Trade and Labor Regimes〉)
而中文法律论文引言几乎都没有包括这一语步,中国学者更倾向引起读者兴趣,使其继续阅读,自己探寻文章脉络。
2. 英汉法律论文中引言的微观步骤对比
(1)确立研究领域选用的步骤不同。英文法律论文引言大多通过概括论题内容,介绍相关背景知识来引领读者进入研究领域,而中文法律论文则更多的介绍论题重要性来确立研究领域(见表3)。
55%的英文法律学术论文作者采用概括论题内容来确立该论文的研究领域,由此可见,国外学者重视逻辑思维和严密分析,通过一步步的概括和阐述论题内容,由点及面,由个体到整体的描绘出整个研究领域,引导读者轻松进入研究情境。而近一半的中国学者倾向使用“介绍论题重要性”,是为了吸引读者。在信息时代,高效率的读者会首先通过阅读引言了解文章大致内容是否与自己的研究息息相关或是否具有重要意义来决定是否继续阅读文章。因此,“介绍论题重要性”就发挥了强调当前研究、吸引潜在读者的作用。在例5中,作者通过用一些阐明论题重要性的短语,如“议论的热点”,“热门话题”等,突出了该话题的重要性和时效性,以达到迅速吸引读者的眼球,并促使他们继续往下读的效果。
例5.近年来,随着社会生活领域各种基本规范的确立,我国法治建设的中心已逐步从“立法”转向“司法”,与司法相关的话题也逐渐成为实务界和学界议论的热点。“法律原则如何适用”即是其中的一个热门话题。(《法律原则适用与程序制度保障———以民事法为中心的分析》)
(2)在回顾前期研究成果步骤中,大多数英文法律论文引言都会采用回顾前期研究成果,而中文法律论文引言较少涉及(见表4)。回顾前期研究成果这一语步,主要是通过大范围讨论先前研究从而自然地引入当前研究来实现的,它将当前研究与以往研究联系到一起,既可以体现当前研究的重要性和贡献,又可以为设置研究空间提供依据。然而,回顾前期研究成果并不是单纯为了回顾,而是帮助作者:(1)将论题缩小到当前研究的一个具体点上;(2)找到前期研究的局限性和问题;(3)通过回顾前期研究成果,尤其是知名研究,并提出问题使得文章更具学术性,更使人信服。因此,回顾前期研究成果兼具交流和说服的作用。
中英法律论文引言在此步骤上的不同与中外的研究传统紧密相关。西方国家个人主义根深蒂固,倡导消极礼貌策略,强调个人价值,〔13〕因此体现在学术写作上就是回顾前期研究成果和指出研究差距,既强调他人贡献,又指出缺陷突出本研究的必要性。 如例6中,作者在讨论先前研究时,明确地指出了每一个观点的作者,如Cary和Winter,体现了西方国家强调个人价值的价值观。
例6. Noting that a large part of Delaware’s revenue was derived from the incorporation business, Cary (1974) opined that Delaware bent over backward to offer a corporation law that appealed to corporate managers. In response, Winter (1977) noted that if Delaware corporations did in fact do poorly, one would expect that their cost of capital would increase to reflect the diminished returns. Winter noted that there was no evidence that this was the case.(〈The role of interjurisdictional competition in shaping Canadian corporate law〉)
然而,中国文化深受集体主义价值观的影响,提倡积极礼貌策略,折射在学术尤其是社会科学研究上,〔16〕回顾前期研究成果的方式十分随意模糊,尽量避免评价他人成果。
在例7中,作者在回顾前期研究成果时,并未明确地指出是哪位或哪些学者提出了这些观点,而是笼统地用“学者们”概括,这就体现了集体主义的价值观。另外一方面,尽管作者指出前期研究得出“与西方社会相比,中国社会法制观念淡漠,中国公民缺乏权利意识和法律信仰”的结论,但却没有明确指出得出这些结论的文献和作者,这也会让读者疑惑是前人做出的这些结论,还是作者的主观推断。所以,相比之下,英文法律学术论文引言在回顾前期研究成果时,非常明确地指出了作者及文献,这使得引用更具客观性,真实性和说服性。
例7. 学者们普遍认识到,法律的有效实施,除了必须具备一些体制内的“硬件”(包括足够的执法力度、完善的监督机制以及高素质的法律职业群体等等)之外,还需要社会环境的支持。如果环境不利,法律就难免在其实施过程中被扭曲变形,甚至形同虚设。然而,让人头疼的问题是,中国社会的“水土”究竟有哪些成分不适合“现代法律制度”的运行? 对此,学者们普遍认为,与西方社会相比,中国社会法治观念淡漠,中国公民缺乏权利意识和法律信仰,归根到底,中国本土的“法律文化”与来自西方的现代法律制度之间存在深刻的裂痕,甚至在某些地方格格不入。(《法治及其社会资源———兼评苏力“本土资源”说》)
(3)在通报当前研究这一语步的实现形式上,英汉法律学术论文引言采用的步骤相差较大(见表5)。在这一语步中,中文法律论文中引言采用的四个步骤比例较均衡,而一半以上英文法律论文中引言主要采用“陈述论文主要计划”这一步骤。更值得注意的是,中文法律论文中比例较高的“陈述研究价值”步骤,在英文法律论文中却几乎没有。
例8. This Article examines the awarding of punitive damages in international commercial arbitrations in light of Mastrobuono. It determines that, because special considerations are due in international disputes…… The Article concludes by proposing a framework for analyzing claims for punitive damages in international arbitrations……(〈Awarding Punitive Damages in International Commercial Arbitrations in the Wake of Mastrobuono v.Shearson Lehman Hutton, Inc.〉)
相比之下,中文法律论文引言较多地采用了陈述研究价值这一步骤。国内学者倾向于首先吸引读者关注研究,至于具体的研究过程及问题假说则由读者在正文中自行探索(见例9)。而且,陈述研究价值具有推销性的特征。作者引言中采用“本研究具有重要的价值……”,“本研究为……作了重要贡献”,“本研究对……提供了独特的视野和指导”等结构,既使得读者了解了研究意义,同时又间接推销了文章。
例9.了解和研究这些保留和解释性声明,不仅对我国提出相关的保留或解释性声明有借鉴意义,而且对今后解释和适用《公约》,完善我国的相关立法有重要参考价值。(《公民权利和政治权利国际公约》的保留和解释性声明)
六、结语
从以上讨论,我们可以看出英汉法律类学术论文中的引言在语步和步骤的使用频率、顺序和分布上存在显著差异,究其原因,可归纳为以下三方面:
1.写作方法的不同。国外学者倾向使用作者负责型的写作方法。为了减轻读者负担,让他们更轻松进入话题,作者详细阐述观点,展示推理过程,使文章观点明确、条理清楚。而国内学者多采用读者负责型的写作方法,旨在给读者更多的发挥空间,并激发读者兴趣。在确定研究领域,通报前期成果和介绍论文结构等方面都较含糊笼统,让读者自行归纳,理清脉络。
2.价值观差异。西方个人主义价值观所倡导的消极礼貌策略充分体现在英语法律学术论文中关于引言的前期研究回顾步骤中。国外作者在法律学术论文中既强调他人贡献,又指出其缺陷,并突出本研究的必要性;相反,东方集体主义价值观深深影响国内作者,他们在论文写作时采取积极礼貌策略,在前期研究回顾中为了顾及他人面子,尽量避免评价他人成果。
3.思维方式和写作习惯差异。国外学者倾向于直接清晰、开门见山的写作方式,更重视逻辑严密,条理清晰。而国内学者写作委婉曲折,倾向于缓慢推进的过程,给读者留出更大的主观空间,同时也很重视推销自己的文章。
英汉法律学术论文引言中所展现在宏观语步结构上的不同取向以及微观步骤上的选择差异,反映了中西方学者潜意识中的不同的心理、写作习惯和社会文化观念。国内法律学者在撰写英文法律学术论文时,必须把握英汉法律学术论文引言在体裁结构方面存有的显著差异及其深层次原因,进而谙熟英文法律学术论文引言的体裁结构,遵循系统规范的英文引言写作要求,从而提高英文论文引言的写作质量。
〔参考文献〕
〔1〕Swales,J.M.Genre Analysis: English in Academic and Research Settings. Cambridge University Press, 1990.
〔2〕〔3〕Bhatia,V.K.Analyzing Aenre: Language Use in Professional Settings.London: Longman, 1993,pp.16-22.
〔4〕Anthony,L.,Writing Research Article Introductions in Software Engineering: How Accurate Is A Standard Model?IEEE Transactions on Professional Communication,1999,42.pp.38-46.
〔5〕〔6〕〔7〕Samra,J.B.Introductions in Research Articles: Variations Across Disciplines.English for Specific Purposes, 2002,21.pp.1-17.
〔8〕韩金龙,秦秀白. 体裁分析与体裁教学法〔J〕.外语界,2000,(1);李俊.体裁分析法与写作产出〔J〕.广东工业大学学报(社会科学版),2006,(3);秦秀白.体裁教学法述评〔J〕.外语教学与研究,2000,(1).
〔9〕黄萍,沈燕.学术语类语篇模块标注的理论整合探索〔J〕.重庆大学学报(社会科学版),2010,(6).
〔10〕邓勇.法学论文中文摘要规范化探析〔J〕.当代法学,2005,(3);诚.略评法学论文篇目之英译〔J〕.云南大学学报法学版,2004,(4);张少瑜.谈谈法学论文的学术规格〔J〕.法学评论,2000,(3).
〔11〕周珏,周昱彤.法学专业学生毕业论文存在的问题及其对策〔J〕.云南财经大学学报,2009,(6);涂四益.浅谈法学研究生的论文写作〔J〕.法制与经济,2011,(8).
关键词:计算机应用;中文信息处理;基本块;部分分析;语料库标注;词汇知识获取
中图分类号:TP391
文献标识码:A
1 引言
块(Chunk)分析是自然语言处理研究中的一个重要技术,它通过对完整分析问题的合理任务分解,大大降低了自动分析的处理难度,在信息抽取、问答系统、文本挖掘等NLP应用系统研究中发挥了重要作用。在英语方面,Abney(1991)把块定义为句子中一组相邻的属于同一个s-投射的词语的集合,建立了块与管辖约束理论的X-bar系统的内在联系,从而奠定了这个块描述体系比较坚实的理论基础[1]。在此基础上,CoNLL国际会议在2000到2005年间连续推出了几项块分析相关的共享任务,包括块分析[2]、子句识别[3]、语义角色标注[4]等,通过建立统一的训练测试数据,大大促进了各种机器学习技术在块分析相关问题上的应用研究。但这些研究更注重对块作为一个整体在句子中表现出的不同句法语义功能的分析识别,并不关心不同块的内部描述特点。
近年来,多词表达(Multiword Expression,MWE)问题逐渐受到理论语言学家和计算语言学家的重视。它主要研究不同层次的语言分析中可以形成一个完整描述单位的若干词语组合,包括固定或半固定搭配、复合词、成语、短语动词等。目前关注的焦点是MWE的词汇语义组合性(Composi-tionality)评估问题。Sag等则对目前MWE的分析难点和可用技术进行了全面的综述,提出了对不同的MWE需要使用不同资源和不同方法进行分析的基本设想[5]。这些研究通过引入块内部词汇语义分析和描述技术,为块分析问题探索注入了新的活力。
我们认为,目前的块分析和MWE研究具有很强的互补性,它们分别从不同角度对块的句法分布和语义内容进行深入研究。如果能设计一种新的块描述形式,将块的外部句法分布和内部词汇关系描述结合起来成为一个有机整体,就可以把目前还相对独立的块分析和MWE研究很好地联系起来,达到互动提高的处理效果。这种内外结合的块描述形式,针对类似汉语这种缺乏形态变化的语言,可能更为有效。在这些方面,前人已进行了大量研究。徐通锵深入分析了汉字编码“比类取象”和“援物比类”的两点论思维特点,提出了一套以“向心”、“离心”结构为基础的汉语语义构词法,初步建立了汉语“字一词”的语义描述基础[6]。董振东对汉语6000多个常用汉字的不同义项进行了深入分析,从中提取了约1500个概念义原。并以此为基础,对汉语中最常用的约5万多词语进行了语义概念描述,形成了一个比较完整的汉语语义知识库――知网(How-Net),初步建立了汉语“字词”的语义计算基础[7]。在此基础上进行的中文信息结构库研究[8],又对汉语“字词基本块”的语义内容聚合方法进行了初步的探索,取得了许多有价值的研究成果。
吸收这些前贤的研究成果,我们对前几年提出的汉语基本短语描述体系[9]和相应的自动分析方法探索[10]叩进行了反思,提出了一套新的基于拓扑结构的汉语多词块描述体系,希望通过引入新的词汇关联分析和相关描述资源,使目前完全基于句法分布信息的基本短语分析技术向形式和意义相结合的方向更往前推进一步。在下面的几节中,第2节介绍了多词块描述体系的主要设计思想。第3节分析了从中引申出的基本块的具体标注体系。第4节介绍了基本块标注语料库的构建思路。第5节给出了一些初步的实验结果,并对目前描述体系下基本块的主要分析难点进行了初步分析。最后的第6节对相关研究进行了简要评述,并对全文内容和今后发展进行了简单小结和展望。
2 多词块描述体系
简单地说,多词块(Muhiword Chunk,MWC)是由2个或2个以上的词语按照一定的关联关系组合形成的信息描述单位。这里的处理关键是寻找一种合适的MWC内聚性判断标准,以此确定句子中哪些词语组合可以形成一个多词块,哪些不能。这种判定标准应具有以下特点:
・可操作性:可以帮助标注人员快速准确地确定句子中的各个合理的MWC;
・可计算性:使自动分析器能充分利用各种有效资源完成MWC的边界识别和关系分析;
・完备性:能覆盖各种MWC的信息描述。
Abney体系的过人之处,就在于他从形式上找到了适合英语描述特点的MWC内聚性判断标准,建立了MWC与管辖约束理论的X-bar系统的内在联系。由于其具有很好的可操作性、可计算性和信息完备性,因此在英语自然语言处理的不同领域都得到了广泛应用。
与英语相比,汉语描述的形式标记较少,各个成分单元之间的意合性很强。这些描述差异现象使我们不能把Abney的体系完全照搬到汉语中,需要针对汉语的描述特点,另辟蹊径,寻找符合汉语特点的MWC内聚性判断标准。在这些方面,理论语言学家进行的以向心、离心结构为基础的汉语语义构词法研究[6]和依存关系描述体系在汉语句子结构分析中的成功应用给了我们许多有益的启示。经过反复研究和探索,我们逐步形成了一套基于拓扑结构的汉语MWC描述体系,其描述核心是以下三种基本拓扑结构:
1)左角中心结构(LCC):块中的所有词语直接依存到左角中心词,形成一个左向中心依存结构;基本模式为:H C[1]…C[n],依存关系为:C[1]H,…,C[0]H。H为整个MWC的句法语义中心词,C[1],…,C[n]为限制词。
2)右角中心结构(RCC):块中的所有词语直接依存到右角中心词,形成一个右向中心依存结构。基本模式为:A[1]…A[n]H,依存关系为:A[1]H,…,A[n]H。H为整个MWC的句法语义中心词, A[1],…,A[n]为修饰词。
3)链式关联结构(CHC):块中的各个词语依次依存到其直接右相邻的词语,形成一个自左向右排列的多中心依存关系链。基本模式为:H。H[1]…H[n],依存关系为:H[0]H[1],…,H[n-1]H[n],H[i]成为不同层次的语义聚合中心,H[n]为整个MWC的句法语义中心词。
图1显示了这三种拓扑结构的基本形状。我们通过在MWC描述中引入词汇关联信息,可以形成了以下针对汉语的MWC内聚性判断准则:
・每个MWC只能形成上面三种拓扑结构中的一种结构组合,如果发生结构关系冲突现象,一般优先选择左角中心结构,从而保证了该体系的可操作性;
・通过词汇关联关系建立真实文本的MWC描述实例与词汇关联知识库之间的内在联系,利用词汇关联知识描述确定待分析组合是否为一个合理的结构组合,从而保证了该体系的可计算性;
・由于可以选择汉语字、词、块等不同层面的处理单元作为拓扑结构描述体,因此可以方便地适应汉语“字词块”连续变化的描述特点,很好地保证了该体系的信息完备性。
至此,我们可以形成下面的MWC形式定义:
定义:句子中两个或多个词语能形成一个多词块的充要条件是它们的内部词汇关联能形成以上三种拓扑结构中的一种结构组合形式。
在此基础上,通过对一个MWC给出下面不同的句法形式和语义内容描述,我们可以形成针对一个MWC的完整信息描述,即:MWC=基本拓扑结构+句法形式描述+语义内容描述。
1)句法形式:主要描述该MWC的句法成分标记(如:名词块、动词块等)和内部关系标记、组成该MWC的词类标记序列和句法中心词等信息;
2)语义内容:主要描述该MWC作为一个整体体现出的语义类信息,以及内部语义聚合关系,即通过不同语义关系将MWC中的各个词语聚合在一起,形成一个完整的语义内容表现。
图2显示了我们目前设计的MWC描述体系的总体框架。它以词汇关联信息作为基础支撑,一方面可以确定不同的基本拓扑结构,形成了很好的MWC内聚性判定准则;另一方面也方便地建立起MWC的句法形式与语义内容的有机联系桥梁。
3 基本块标注体系
我们目前定义的基本块主要描述句子中直接相邻的、以名词、动词、形容词等实词为中心聚合形成具有特定语义内容的词语序列,其中一般不包括各种功能词,包括连词、叹词、语气词、助词、标点符号等。它们一般由1―3个词语组成,通过不同的外部句法表现和内部词汇关系形成各自特殊的概念内容描述体,成为汉语的字、词进入组块成句过程的基础和出发点。
按照基本块包含的词语数目的不同,我们把它们分成两大类:1)多词语基本块,包含两个和两个以上的词语;2)单词语基本块,只包含一个词语。从上节定义的多词块出发,通过增加内部词语的必要限制条件,如只能包含实词和部分特殊功能词等,我们可以方便地确定各个合理的基本块,从而建立起完整的基本块内聚性描述体系。增加这些内容限制的目的是使我们目前能集中精力进行汉语真实文本中一些组合紧密的概念描述单元的自动识别处理,为进一步进行汉语MWE分析研究打下基础。
下面我们按照基本块的不同内容表现,把它们分成两大类:体词性基本块和谓词性基本块,分别加以说明:
1)体词性基本块 其下又可进一步细分为名词块、时间块、空间块和数量块等四小类,它们一般以句子中的名词、时间词、处所词和量词为中心,分别描述“实体”、“时间”、“空间”和“数量”等基本信息单元。其中最复杂的是名词块。我们按照四个世界的语义内容划分原则,对此进行了进一步细分,包括物质世界的‘自然物’和‘人工物’,精神世界的‘精神’和‘意识’,人际社会的‘人’、‘机构’和‘事件’,符号世界的‘信息’、‘信息载体’和‘属性’等,形成对客观世界基本内容的完整描述体系。
体词块的优势拓扑结构是右角中心结构和链式关联结构,具体实例有:“大红灯笼”,“高跟鞋”,“电视机生产厂”等。主要覆盖了定中和并列两种句法关联关系。
2)谓词性基本块 主要包括动词块和形容词块两小类,它们一般以句子中的动词、形容词和状态词为中心,分别描述“动作”、“状态”、“关系”和“属性”等基本信息单元。其优势拓扑结构为左角中心结构和右角中心结构。其中主要覆盖了述宾、述补和状中三种句法关联关系。
在左角中心结构中,各右部限制词主要描述该中心的直接支配成分,包括:(1)紧密联系的宾语成分,主要有:“v v”、“v n”、“v a”等组合形式;(2)时制(Aspect)信息,包括助词:了、着、过;(3)紧密联系的补语成分,主要形式为:“v|a v|a|p”。
在右角中心结构中,各左部修饰成分主要包括:(1)动词的被动形式:主要包括‘被’、‘给’等;(2)否定和程度限制:对形容词中心,主要是程度限制,如:“很”,“非常”等;对动词中心,主要是否定限制,如:“不”、“没”等;(3)情态描述:主要包括情态动词(vM);(4)方式和工具限制:主要包括形容词(大喊)、名词(电话联系)和紧密联系的副词(逐步推进)等,一般情况下,前面只能包含一个修饰词。
这些前后聚合词语从不同角度,包括时间、空间、实现结果、动作方式、使用工具、否定、情态、程度等,对中心词所描述的具有连续性内涵的动作和性状进行离散化处理[4],使之能方便地与句子中的其他成分相结合形成更大的句法单位。
对每个基本块,我们使用两个标记的组合:句法标记和关系标记,对它们的外部句法表现和内部词汇关系进行完整描述。表1列出我们目前所用的主要句法标记和关系标记。
4 基本块标注语料库
构建大规模的基本块标注语料库是一项庞大的语言工程项目,需要投入大量的人力和物力。但是,通过充分发挥目前积累的各种语言资源的描述潜力,我们可以寻找到一个简单有效的处理方法,快速构建出一个大规模的基本块标注语料库。基本处理策略是:从拓扑结构定义出发,利用汉语句法树库TCT[11]中提供的丰富的句法成分和语法关系标注信息,分析不同词语组合的拓扑结构聚合方式,发现并确定句子中各个基本块的准确边界,提取相应的成分标记和关系标记,形成完整的基本块标注语料库。具体的提取过程如下:
・提取一个TCT标注句子;
・通过自顶向下的分析树遍历,发现句子中所 有处于中心位置的实词(动词、名词、形容词等),它们可能形成各个基本块的聚合中心;
・从这些可能的基本块聚合中心出发,自底向上遍历分析树,发现最大的拓扑结构组合,提取TCT中相应的句法成分标注信息,形成一个完整的多词语基本块;
・将句子中没有被这些多词语基本块覆盖的实词直接上升为单词语基本块;
・将所有基本块信息输出形成一个完整的基本块标注序列。
下面给出一个具体的处理实例:
输入:TCT标注句子;
[zj-XX[fj-ZZ[tp-FW长期/t以来/f],/,[fj-LG[dj-ZW他/rN[vp-ZZ[pp-JB为/p[np-DZ[vp-PO维护/v[np-DZ世界/n和平/n]]的/u[np-DZ崇高/a事业/n]]][vp-PO倾注/v心血/n]]],/,[vp-ZZ四处/d奔走/v],/,[vp-PO[vp-AD作出/v了/u][np-DZ卓越/a的/u贡献/vN]]]]。/。]
输出:基本块标注句子;
[tp-ZX长期/t以来/f],/,[np―SG他/rN]为/p[vp-SG维护/v][np―ZX世界/n和平/n]的/u[np-ZX崇高/a事业/n][vp-PO倾注/v心血/n],/, [vp―ZX四处/d奔走/v],/,[vp-AD作出/v了/u][ap-SG卓越/a]的/u[np-SG贡献/vN]。/。
目前,从TCT中选择所有的新闻类文本,利用上面介绍的方法自动生成了一个汉语基本块标注语料库,其基本统计数据是:文件数185,汉字总数325 806,词语项总数207 372,句子总数8 137,平均长度为25.49词/句。
为了检查目前的自动提取_丁具的处理效果,我们从自动生成的185个文件中随机挑选了4个文件,基本数据为:句子数269,词语总数6561,约占库词语总数的3%。对它们进行人工检查和校对,发现并改正所有错误情况,得到4个正确的基本块信息标注库。然后,将自动提取结果与正确结果进行自动比较,我们发现两者的信息一致率达到99%以上。其中绝大部分差异情况是原来TCT中遗留的一些标注错误,主要是vp和np的并列结构关系标注错误。这表明目前的基于拓扑结构分析的基本块提取算法可以准确反映树库中不同基本块的客观分布情况,因此达到了很好的自动提取效果。同时,也反映出从基本块内聚性角度进行分析,可以使许多TCT标注错误突显出来,从而对我们进一步提高TCT的标注质量是有帮助的。
5 基本块分布分析
为了能准确地把握对我们目前定义的基本块进行自动分析的处理难点和从句法描述向语义内容过渡的知识需求瓶颈,我们从不同角度对上面自动抽取的20万词规模的新闻类基本块标注库进行了统计分析。
表2和表3列出了一些基本的长度分布数据,从中可以看出,真实文本句子中描述实体内容的名词基本块(np)和描述动作状态的动词基本块(vp)占了大多数,它们分别占单词语块总数的9l%和多词语块总数77%的,是我们研究的重点。相对而言,动词块的平均长度较短。在多词语块中,只包含2个词语的块占了93%以上;而在np多词语块中,包含2个词语的块只占了71%左右,约30%的名词块长度超过了3个。因此,基本名词块的内部描述复杂度更高,进行自动准确分析的难度也更大。
表4和表5列出了具有不同长度的基本名词块和动词块的内部结构关系分布数据。从中可以看出,基本名词块的优势结构为右角中心结构(ZX)和链式关联结构(LN)(包括并列结构),它们占了总频度的96%以上,其他结构包括标号对结构(BH)(如:[np-BH“五四”]运动)和无中心的构词结构(NH)(如:[np-NH孩子们])。由于2词块占了大多数,使右角中心结构显示出一种突显分布错觉。事实上,在3词以上基本块中,两种结构的分布差异并不太明显,比例大体上是3:2,表明在真实文本的复杂名词块描述串中,各种结构组合都有可能出现,依据不同词汇关联知识确定其准确的内部结构关系是对这些组合进行语义内容分析的基础和关键技术。
在基本动词块中,优势结构为左角中心和右角中心结构,它们占了总频度的94%以上,其他结构包括:链式关联结构(如:[vp-LN不能去],[vp-LH改革开放])、重叠结构(CD)和标号对结构。在两类优势结构中,左角中心结构(又可细分为述宾、述补和附加关系)又占了大多数,约为77%左右,显示出汉语中具有连续性内涵的动作和性状动词通过紧密相连的后接成分达到离散化的描述特点。其中最重要的是对述宾结构(PO)关系的准确分析,因为它们包含了汉语句子所描述的事件内容的主体信息。而在真实文本中,它们又会与其他结构组合形成许多更复杂的歧义结构,如:“v n n”,“v n的n”等,成为基本动词块分析中的最大处理难点。
表6列出了目前基本块标注库中出现频度最高的5种实词结构组合(不包括数量组合和vp附加结构)。从中可以看出,汉语的典型实词组合一般都会形成几种不同的内部聚合关系,这对我们希望进行的基本块语义分析和内容解释研究提出了很大的挑战。对此,我们的初步设想是:以词汇关联信息作为研究切入点,通过基本块分析器与词汇关联知识库互动提高的双向进化过程自动从大规模真实文本中获取大量有效的词汇关联对信息,作为对这些基本块内部词汇语义关系进行准确分析的支撑知识库。其中需要特别注意的是由多个名词组成的复杂结构“n*n”,虽然它们在真实文本中出现的绝对数量不是特别大,但由于其中涉及的名词语义分类和语义关系描述是目前研究的最薄弱环节,因此可能会成为后续处理最大的处理难点。下面是一些具体的描述实例:
・np-ZX北京/nS人民/n艺术/n剧院/n
・np-LN前线/nO话剧团/n团长/n张泽易/nP
・np-LH郭述申/nP陈先瑞/nP王诚汉/nP张池明/nP
6 相关研究分析与展望
近几年来,随着汉语切词和词性标注技术的逐步成熟,在此基础上进行的块分析技术研究越来越受到重视。许多研究人员从不同研究目的出发,提出了各自不同的块描述体系。其中比较典型的有清华[9]和哈工大[12]基本短语描述体系、微软的块描述体系[13]和北大的实语块描述体系[14]等。这些体系的共同点在于它们都是从句法层面上来定义和描述块信息,主要侧重块边界确定和句法成分标注问题,不太关心各个块的内部关系分析。
其中前三个体系的处理对象与本文定义的基本块层次相当,其处理难点在于解决一些复杂名词和 动词块的边界确定和内容取舍问题,即哪些块组合应纳人体系描述中,哪些应排除在外。对此,不同体系设计者提出了自己的解决方案,包括清华的“扩展的粘合式定中结构”确定策略、哈工大的允许内部嵌套策略等。但在具体操作时还是存在许多不确定性,需要在各自的规范中给出详细定义和说明。另外,考虑到汉语述宾结构组合的描述复杂性,这些体系都没有把它纳入现有的块描述体系中。
相对而言,实语块的定义则比较明确,其处理目标是确定句子中任意一个实词序列中不同层次的合法短语。但由于引进了不同类型短语之间复杂的层次关系,大大提高了相应的自动分析任务的处理难度。
与以上研究工作相比,本文提出的基于拓扑结构的基本块描述体系具有以下特点:
1)通过引入词汇关联信息确定基本拓扑结构,形成了很好的基本块内聚性判定准则,建立了句法形式与语义内容的有机联系桥梁;
2)以拓扑结构为基础确定不同基本块的内部关系标记,建立了大规模真实文本中的基本块描述实例与词汇关联知识库之间的天然内在联系;
3)将紧密结合的述宾结构关系纳入基本块描述体系中,使之基本覆盖了汉语中所有实词之间的重要词汇关联关系,包括:名―名、动―名、形―名、副―动、副―形、动―动、动―形等,而链式关联结构的明确定义,又扩大了这些关系互相组合的可能性,为在基本块层面上进行汉语词汇关系的自动获取研究打下了很好的基础。
在以后的研究中,我们希望通过以下几方面的深入探索,进一步改进和完善目前的基本块描述体系:(1)在现有基本块标注语料库和词汇关联知识库支持下,开发高质量的汉语基本块分析器,通过对大规模的不同体裁、不同形式的汉语真实文本的自动分析,发现一些新的语言现象,补充现有块体系描述的不足;(2)启动基本块分析器与词汇关联知识库互动提高的双向进化过程,加强对基本块中不同层次的语义描述内容的深入探索,实现“句法形式吾义内容”的平稳过渡。
收稿日期:2006-10-27定稿日期:2007-01-29
基金项目:国家自然科学基金资助项目(60573185,60520130299)
作者简介:(1967―),男,博士,副研究员,主要研究方向为计算语言学、词汇语义学、机器学习。
参考文献:
[1]Steven Abney.Parsing by Chunks[A].In:Robert Berwick.Steven Abney and Carol Tenny(eds.)Prin―ciple-Based Parsing[C].Kluwer Academic Publish ers,1991.
[2] Erik F.rrjong Kim Sang and Sabine Buchholz.Intro duction to CoNLL-2000 Shared Task:Chunking[A].In:Proceedings of CoNLL-2000 and LLL-2000[C].Lisbon,Portugal,127-132.
[3]Sang T K and D jean H.Introduction to the CoNLL-2001 Shared Task:Clause Identification[A].In:Proc.of CoNLL-2001 [C].Toulouse,France,53-57.
[4]Carreras X.and Marquez,L.Introduction to the con-ll-2005 shared tasks:Semantic role labeling[A].In:Proc.of CoNLL-2005[C].
[5]Ivan A.Sag,Timothy Baldwin,Francis Bond,Ann Copestake,and Dan Flickinger.Muhiword Expres sions:A Pain in the Neck for NLP[A].In:Proc.Third International Conference of Computational Lin guistcs and Intelligent Text Processing(CICLing 2002)[C].Mexico City,Mexico,February 2002.17-23.
[6]徐通锵.语言论[M],东北师范大学出版社,1997.
[7]董振东.语义关系的表达和知识系统的建造[J],语言文字应用,1998,(3):76―82.
[8]董振东,董强.关于知网一中文信息结构库[A],http://www./,2000.
[9]汉语基本短语标注规范[R].清华大学计算机系智能技术与系统国家重点实验室,技术资料,2002年2月.
[10]张昱琪,.汉语基本短语的自动识别[J].中文信息学报,2002,16(6):1-8.
[11].汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8.
[12]Tiejun Zhao,Muyun Yang et al.Statistics Based Hy-brid Approach to Chinese Base Phrase Identification[A].In:Proc.of the Second Chinese Language Processing[C].ACI2000,Hong Kong.