时间:2023-05-30 10:45:33
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇高频词汇,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
1. As the noises are______of big cities, some people prefer to live in the countryside.
A. characteristic B. particular
C. familiar D. special
2. These days, I tend to accept any idea______by experts on TV.
A. brought out B. brought about
C. put out D. put forward
3. Shortly after I settled in Chicago, I had a physical problem and had to go to hospital for a thorough .
A. observation B. inspection
C. examination D. investigation
4. From my previous experience I’ve that I can’t count on a man like George to keep his words.
A. included B. concluded
C. conducted D. combined
5. No difficulty could______this brave man since he is so confident and capable in this special field.
A. attack B. defeat
C. win D. overcome
6. Usually, on Sunday mornings, when I didn’t have to______school, I would take full advantage of the time.
A. join B. watch
C. repeat D. attend
7. We’re looking for ways to______him of the disease, and progress has been made so far.
A. cure B. remind
C. inform D. advise
8. When you fly the kite, take hold of the line that______the direction the kite goes.
A. delivers B. functions
C. controls D. performs
9. Glasses are easy to break and must be______with great care.
A. controlled B. handled
C. pumped D. linked
10.______learning the basic skills in the game, you are also expected to learn to cooperate as a whole team.
A. In preparation for B. In case of
C. Except for D. In addition to
11. You’re supposed to take the medicine as as this is important to your health.
A. instructed B. constructed
C. written D. presented
12. Ever since I entered senior high school, I regularly______the school magazine, which benefited my later career a lot.
A. made for B. came for
C. appealed to D. contributed to
13. Luckily, everything seemed to be going as scheduled______it that the bus arrived late.
A. in addition to B. apart from
C. instead of D. as well as
14. You should not only copy others, or you’ll never make any difference. Learn to be more .
A. available B. positive
C. co-operative D. creative
15. Misunderstanding may arise from the lack of communication, and______serious problems.
A. lead to B. devote to
C. take up D. add up
16. His lecture is so difficult that I can hardly make any______of it at all.
A. note B. difference
C. sense D. impression
17. He is so______about the project and works on it with great interest.
A. persuasive B. cautious
C. enthusiastic D. positive
18. I know that such people like Smith always stick to their , even if it means that they may get into trouble.
A. scenery B. views
C. marks D. senses
19. I found that the parcel______two long narrow boxes wrapped in paper, and began to doubt if it consisted with what I ordered online.
A. made of B. consisted of
C. consisted in D. cut in
20. We hope that you can______the present situation to us. Anyhow, we don’t want to be kept in the dark.
A. classify B. simplify
C. terrify D. clarify
21. I would appreciate it if you could give me a reply at your earliest .
A. influence B. convenience
C. consideration D. interruption
22. I have no idea exactly how much money I’ll get in my new job, but I think it will cover my major expenses.
A. royally______ B. roughly
C. consistently D. urgently
23. Niagara Falls is a great tourist , drawing millions of visitors every year.
A. attention B. collection
C. construction D. attraction
24. When you check the composition, I advise you to______anything unnecessary or misleading.
A. drop out______B. let out
C. work out______D. leave out
25. I haven’t finished my essay because the computer______when I was downloading the required data last night.
A. broke out B. broke up
C. broke down D. broke off
26. Tickets for the sports event will be
on our website until one day before it starts.
A. available______ B. acceptable
C. accessible______D. appropriate
27. Huanghelou was______constructed in the 3rd century and was rebuilt in 1981.
A. originally B. historically
C. potentially D. formally
Ⅱ. 完成句子
28. Unfortunately, he______ a deadly disease and wasn’t expected to survive long. (infect)
不幸的是,他感染了一种致命的疾病,活不了多久。
29. Whether you are old or young,______
once a year is a way to keep healthy. (examine)
无论你是老人还是年轻人,每年体检一次是保证身体健康的一种方式。
30. We have discussed the issue for several times, but______ . (conclusion)
我们就这个问题讨论了好几次,但是没有得出结论。
31. He______ the book and didn’t notice me when I entered. (absorb)
他在埋头看书,我进去的时候他没注意到。
32. It’s clear that Tom rather than anyone else______ the accident, though he tries to put the blame on others. (blame)
显然,Tom该为这起事故负责,尽管他试图归咎于别人。
33.______ in today’s paper, a new culture center is to go up where stood the old temple. (announce)
就像今天的报纸所说的那样,在原先那座寺庙所在地将竖起一个新的文化中心。
34. You can never imagine how sorrowful he felt to______ once again by the company. (reject)
你难以想象,他再次被那家公司拒绝,心里有多么难受。
35.______ why he hasn’t written to me for long. (puzzle)
他为什么好长时间不给我写信,我对此觉得困惑。
36. There are occasions______but am turned down. (suggestion)
有时候我提出一个建议,却被否决了。
参考解析
1. A。这里用be characteristic of表示“……是某人/物的特色”。
2. D。句意:如今,我总是接受电视里的专家提出的建议。put forward提出(要求、建议、事实等)。A“出版;使显出;激起”;B“导致,引起”;C“关(灯);出版,;伸出”。
3. C。语境表示去做身体检查,用examination。
4. B。语境表示从先前的经历中得出结论,用conclude表示“得出结论,下结论”。
5. B。这里用defeat表示“打败”:没有什么困难能打败这个勇敢的人。
6. D。用attend表示“列席,出席”:星期天早上我不上课。
7. A。语境表示“我们”还在寻找治疗疾病的办法,用cureof a disease。
8. C。语境表示抓紧控制风筝飞翔的方向的那根绳子,用control表示“控制”。
9. B。语境表示玻璃杯很容易破碎,使用的时候必须小心。用handle表示“处理,操纵”。
10. D。语境表示“除了学会基本的技巧之外”,用in addition to表示“除了……(还)”。
11. A。语境表示按照说明的那样服用药品,用instruct表示“命令;指示;教导”。
12. D。句意:自从我进高中之后就经常给校刊投稿,这对我后来的职业生涯很有帮助。这里用contribute to表示“投稿”。
13. B。句意:好在除了公交车来晚了之外,其他一切都是按我们计划的那样顺利进行。这里用apart from表示“除了”,可表示besides或except的含义。
14. D。与前面的“只是模仿别人”呼应,这里用creative表示“有创造力的;创造性的;独创的”。A“可以得到的”;B“积极的,肯定的”;C“合作的”。
15. A。语境表示缺乏交流会引起误解,并导致严重问题。这里用lead to表示“通向;导致”。
16. C。句意:他的讲座太难了,我几乎听不懂。这里用make sense of表示“理解,明白”。
17. C。与后面的with great interest呼应,语境表示他对这个项目非常热心,选C表示“热情的;热心的”。
18. B。语境表示这种人总是固执己见,用view或point of view表示“观点,看法”。
19. B。语境表示这个包裹里面有两个长而窄的盒子,用consist of表示“由……组成”。consist in“在于,存在于”;consistent with“一致;相符”。
20. D。与句中的kept in the dark呼应,说话人表示希望对方阐述当前的局面,用clarify表示“澄清;阐明”。
21. B。 这里表示“在你方便的最早时间”,用at your convenience表示“在你方便的时候”。
22. B。这里说不知道准确的收入,但是应该差不多能支付每个月的开支,用roughly表示“粗略地,大略地”。
23. D。这里用tourist attraction表示“旅游景点”,用attraction表示“吸引人的事物”。
24. D。语境表示把不必要的或者误导的信息删除,因此选D表示“省去;遗漏;不考虑”。
25. C。这里用break down表示“(机器)损坏;破坏”:电脑坏了。
26. A。这里用available表示“可以得到的,可以利用的”:可以在我们的网站买票。
27. A。后文说在1981年重新建造,因此本空表示黄鹤楼最初是在公元3世纪修建,选A表示“最初”。
28. was infected with。infect是使役动词,用系表结构be infected with表示“感染”。
29. being examined。用动名词的被动语态作主语表示一般性的描述。
30. haven’t reached/come to/drawn any/a conclusion。这里用reach/draw/come to a conclusion表示“得出结论”。
31. was absorbed in。absorb是使役动词,用be absorbed in表示“入迷,埋头做某事”。
32. is to blame for。表示“某事该怪某人”用sb be to blame for sth,用put the blame on sb表示“把某事归咎于某人”。
33. As is announced。这里用announce的一般现在时被动语态,用as引导非限制性定语从句。
34. have been rejected。句中reject这个动作已经发生,而且表示被动含义。
关键词:语料库;高频词;科技英语;use
中图分类号:H31文献标识码:A文章编号:1009-0118(2012)05-0301-02
一、语料库及研究方法
本次研究以科技英语语料库JDEST中的大约100万词次的科技英语文章为研究对象。笔者对JDEST进行词形还原处理(Lemmatization),并得出词形还原后的类型符21295,及其在语料库中出现的频率。与前人研究结果一致,不同语料库中排在最前头的高频词都是功能词,此次研究的科技英语语料库JDEST也不例外。由于数量有限的功能词或者说虚词无法代表科技英语语域特殊性,本次研究去掉了高频词中的前10个功能词。研究对象成为高频词表中表意丰富的实词。通过使用AntConc中Keyword list,将JDEST与BNC(普通英语语料库)进行对比,发现JDEST中明显高于BNC的单词有3755个。然后运用语言统计软件SPSS对还原后的词汇类型符及其频率进行统计描述和标准化得分计算,统计标准分大于1.96的单词共124个,从而得出科技英语语料库里面出现最高频率的实词124个,出于文章篇幅的限制,本文列出此高频词表中最具代表性的前20个高频词,并针对出现频率最高的实词use进行细致研究分析,从而得出其各方面语言学特点,以此抛砖引玉,以期促进科技英语词汇的教与学。
二、统计结果与分析
(一)词形分布
‘Use’,作为此次研究中出现频率最高的实词,在科技英语语料库中的用法也比较广泛。Use在字典中具有名词和动词两种词性。此次研究过程中,通过Treetagger赋码软件对语料库进行词性赋码,并通过Concordance软件索引出use的所有曲折变化形式,得出use及其各类词形的出现频次共为3801次,其具体分布情况如下面4个表所示:
从上表可以看出,use的词形变化较多,应用也比较广泛。总体来看,在所有use的词形中,使用频率最高的是used作为VVN,也就是实义动词的过去分词。进一步研究随机抽取used作为VVN的句子,发现used在语料库中多数存在于被动语态和后置定语中。这说明use,作为科技英语中的高频词,其用法完全符合前人的理论,即进一步证明了较多使用被动语态和后置定语是科技英语的重要特点。从表1可以看出,use作为NN,即普通名词,在use所有出现的频数中占有最大的比例,这也部分地证明了前人的观点:大量使用名词是科技英语的又一特点,此处可以补充说明,部分具有动词词性的词在科技英语中可以更经常被用作名词使用。
(二)类连接和修饰动词use的高频副词语义韵
1、be+(adv.)+used to+Verb.
(be)+adv.+used+prep.
Noun+used+prep.
Noun+used to+Verb.
Noun+used+Verb.
Adv.+adv.+used
Used在JDEST语料库中出现频率最高,其类联接形式也最丰富。从上面的类联接形式可以看出,used经常用于被动语态之中,较少用于后置定语。而且,经统计发现几乎都表示事物的名词作主语,而非人作主语。其中be 动词出现频率高低依次为动词原形be(107次), 现在时态be(is100次,are60次),和过去时态be(20次).这说明科技英语中多用被动语态,现在时态以及第三人称来表达客观事实。而下面use其它词形的类联接形式则相对简单并且数量较少。
2、Prep.+using+noun
Noun+using+noun
Adv.+using+noun
3、Article+use+prep
To use+noun
Prep.+use+(prep)
4、Relative pronoun+uses+noun
Adv.+uses+noun
2010年全国十个省份或地区英语高考卷中完形填空考查内容分布图:
从以上表格中不难看出:高考英语的完形填空中重点考查的是名词、动词、形容词及副词,其中又以动词为主,几乎占到近一半的比重。因此,动词是复习的重点。
据不完全统计,在《普通高中英语课程标准》3500词汇表中,名词占了一半,动词只有近500个,动词兼名词近300个。因此我们复习时不妨以动词及动词兼名词的800个为复习重点。以2010全国卷Ⅰ为例,完形填空中考查的动词有:tell, look at, turn up, need, recognize, realize, make等7个,都是大家所熟知的常见动词。
当然,名词的复习也不容忽视。上文提及,3500个高考词汇中,名词占了一半,近2000个。名词的用法学习起来很容易,但是要每个都牢记却相当不易。其实,有个名词学习的诀窍:对于绝大多数名词,只需认得,不需拼写。也就是说,看到它知道什么意思就够了。远远没有动词复杂,因为要记动词的搭配、用法。
二、以高频词为重点
所谓高频词,就是经常见到的单词。而这些高频词大多在初中就已经学习。据有关专家统计,高考英语中出现的词汇三分之二属于初中应该掌握的2000个词汇范畴。以2010年全国卷Ⅱ完形填空为例,选项中涉及到的词汇有如下80个:
名词(词组)(20个):record, promise, friendship, secret, brother, child, fellow, classmate, transport, phone, relative, habit, choice, method, plan, an example, a lesson, an experience, a talk, mail service。
动词(词组)(32个) receive, rewrite, return, reread, deepen, start, express, settle, tour, reach, lose, need, think, write, enjoy, read, drive, beat, surprise, honor, realize, judge, think, expect, believe, decide, argue, forget , stop over, move to, keep in, get in,。
形容词、副词(24个)normal, necessary, pleasant, possible, never, seldom, sometimes, once, well, often, much, soon, later, anyhow, too, again, poor, easy, popular, busy, through, together, along, away。
代词(4个):us, anyone else, someone, my。
一眼可以看出,这些都是属于考生皆知的词汇,都是初中就学过的词汇。
三、以不带星号的词汇为主攻对象
课标所要求的3500词汇有不少是打了星号的,这些都属于较难词汇,不常考到,但在阅读理解里面出现的可能性大些。因此,要想在短期内提高英语水平,只能抓主要矛盾,不能眉毛胡子一把抓。
当然,上面总结的三个规律有交叉的。尤其是二、三大多雷同。如果将3500词的重要性分类,我们不妨以星号的多少为标志。星号越多,就表示越重要。
初中学过的动词及短语;
初中学过的形容词,副词及名词;
3500词汇表中不带星号的动词、形容词、副词、名词;
虽然应试教育的弊端近年来被学者、专家广为诟病,但考试依旧是考察学生在各个阶段学习水平和能力的主要手段。对于非英语专业的大学生来说,大学英语四、六级考试(CET-4 and CET-6)是大学英语教学阶段最为重要的英语水平能力测试。目前的语料库多为研究连贯的篇章,而对于考试题这种很多单句、填空、选择形式的内容则研究不多。
目前,国内尚未发现正规的、具备规模的、公开的题库型语料库,只有一些语料库学者自建了一些小规模的四六级阅读或完形填空语料作为实验语料库,但收录题型并不完整,规模也不大。因此,本研究基于计算机、依据语料库的研究方法建立大学英语四级、六级题库型语料库,统称为“渤海大学英语四六级语料库”。
旨在帮助非英语专业的学生利用语料库的方式更准确、快速的总结出两大考试题中的词表(Word List)、搭配(Collocation)、类联接(Colligation)和考题规律等相关信息,并且将四六级语料库引入大学英语教学,改变以往传统、主观的教学模式,把实证研究引入课堂教学。本研究对于我国大学生迅速提高英语水平、顺利通过大学英语四六级考试有无法估量的优势和作用,将会为我国大学英语教学注入新的元素。
二、具体研究内容
渤海大学英语四六级语料库下设大学英语四级、六级两大子库,各自独立,又合而为一。建设原则是,收录1990-2011年所有题型,基于XML的基本模式建设本套语料库,填空式答案用X标记、并填于原题空缺处,以此来补全篇章。“听力部分”做了听力语音转写,把音频中的语音都转写成可阅读的文字,从而帮助学生研究听力中的高频词汇和搭配。本库每隔5年系统、全面的更新一次,为可更新的动态语料库。建库完毕后,将自建语料库引入课堂教学,实验对象为渤海大学2014级A班学生,具体研究内容如下:
1.高频词表。语料库语言学对传统语言学的研究方法提出了挑战,传统的词汇研究强调“广而全”,而基于语料库的词汇研究强调研究高频和语篇覆盖率广的词汇。因此,基于语料库的题库首先要研究的是高频词表。即得出大学英语四级、六级的两个高频词表。词表源于真实考题,学生首先应该掌握在历年考试题中多次出现的高频词汇。本词表基于语料库统计软件Wordsmtih或Antconc,通过设定Stop list去除功能词,从而得到考题中高频出现的实意词汇。
2.高频搭配。不同等级的考题必然有其规律和特点,在固定搭配的考察上有其明显规律。本研究基于此题库型语料库研究其词语共现的规律(Co-occurrence),通过跨距调整(Span)和Cluster功能来统计两大英语考试中的两词、三词及四词搭配。所有搭配在统计出其生频数的基础上再计算其搭配强度,最后得出两套搭配词表——生频数搭配词表和按搭配强度高低排列的搭配词表。
3.词语和搭配的题型覆盖率。本研究的一大特色是不仅统计考试中的高频词汇和短语,同时统计其在题型中的覆盖广度。即某一词汇在近20年的考题中出现了多少频数,这些频数又是如何分布在各个题型中的。如:较多的出现在听力中,还是较多的出现在阅读中,分别是多少频数。
通过对词语和搭配在不同题型中的分布研究,可以精准的发现词汇和短语的语域分布特点。题型大体可以分为:听力、词汇与语法、完形填空(或十五选十)、阅读、翻译等几大类。学生可以通过掌握词汇和搭配在不同题型中的分布规律,有的放矢的掌握该题型中的高频词汇与短语,从而迅速提高应试能力。
4.统计类联接。本研究的层面不仅局限于文字表面,由于本套语料库采用了词性标注,因此可研究和总结出高于词语层面的类联接信息,即某词较多的与哪类词性的词汇进行搭配。通过更高一级的概括总结考题中词语的运用规律,搭配是从“横向”的角度研究词语的共现,类链接是从“纵向”的角度总结词类之间的搭配特点。最终可以统计出考试中的高频词主要与哪些词性的词进行搭配。
5.语义韵研究。语义韵(semantic prosody)是以通常搭配形式出现的词项展示出与其它词项的联系、自身的含义以及蕴涵的假设,其大体可以分为积极、中性和消极三类。两大等级考试在考察词汇的时候,语义韵规律的考察也是非常明显的。如:某个词在多年的考题中多与消极含义的词汇搭配。到此,对于考题规律的总结可以说基本上可以满足应试的需要。学生用基于语料库的方式从更加纵深的角度掌握了四级、六级的应试规律。
三、基于题库语料库的自主学习
以渤海大学分级教学A班为实验对象,培养学生掌握语料库语言学的基本概念和基本操作,可以使学生自主利用四六级语料库进行基本检索和学习;教师可以将基于语料库的数据变成大学英语课堂教学的一部分,从而改变以往的教学模式,这是本研究的一个最重要的目的。因为,在目前的大学英语课堂教学中,教学内容里不可避免地参杂了授课教师的主观信息,有些是基于经验,缺乏一定的条理性和规范性,甚至可能是谬误。这一现象使得授课教师对于两大英语等级考试的考试重点、高频词表和短语等重要信息的分析还存在大量不客观的因素。
同时学生自主学习的积极性还存在一定问题,因而会常常反映课堂所学与考试结合不好或所学的东西无用。本研究的目标是在教学方面进一步帮助教师完整和规范教学内容,同时鼓励学生提高自主学习能力,学会独立使用语料库进行基本的检索、提取信息和学习;为大学英语课堂教学注入新的元素——语料库。同时将这一主题扩展为数据驱动学习,引导学生利用电脑或移动设备进行课下自主学习。
学生自主学习是在教师的指导下,学生根据自己的学习内容、方向和基础等问题自觉的制定学习目标和计划,选择适合自己的学习方式和学习材料;激发内心学习的欲望,把外界逼迫我学习转变为我要学习。其中自主学习的精髓强调的是兴趣和内在驱动。相关理论很多,这里不多熬述,但自主学习如何和基于语料库的数据驱动学习相结合?如何把语料库和具体的英语课堂教学结合起来?具体实施步骤如下:
1.培养学生对语料库的兴趣。语料库是基于计算机平台的产物,其特点就是精度高、速度快。很多疑难问题都可以在语料库中得到答案。首先在大学英语教材中挑选一些具有争议性的知识点,让学生讨论。然后在教师的示范和指导下利用英语本族语者语料库BNC和COCA帮助学生找到答案,同时用自建的大学英语四六级语料库提取本知识点的相关考试信息,通过语料库的对比研究,从英语实际语用和考试考点两方面共同研究某一知识点。这样便可激发学生对新兴事物(语料库)的兴趣。学生会发现语料库给出的数据远远比老师给出的答案要更加翔实、客观,从而认识到语料库的作用和意义。
2.培训学生学会使用语料库。语料库的使用需要具备一定的技能,比如检索、制作词表等技能。应用多媒体教室或机房给学生做生动、直观的演示,在培训过程中应用大量真实地道的例子,通过教师演示不但可教会学生使用语料库,更能进一步激发学生对语料库的浓厚兴趣。
3.教会学生自主使用语料库。当学生大致了解语料库以后,教师需要给学生明确使用语料库的方向性。计划参加大学英语四级、六级的同学,如何在明确自己的学习方向后,自主使用自建的四六级语料库。通过本库自主提取高频词表、搭配等和英语等级考试有关的信息。通过语料库提供的大量客观翔实的参照数据驱动学生自主学习英语,掌握考试的考点和核心词汇,从而真正转变学生的学习动因和教师的主导地位,把自主学习和语料库数据驱动学习完美的结合起来。
4.将语料库与英语课堂教学结合起来。把英语课堂教学和语料库数据提取有机的结合起来,课堂知识的输入主体由教师转变为语料库。将基于语料库的四六级相关信息引入课堂教学,使之成为课堂教学的一个部分,彻底改变传统英语课堂教学中以教师输入为主的模式。
四、结语
基于语料库的研究要多样化,不应只集中在某一个领域。语料库建设方面要避免低层次的重复,最大限度的实现资源共享,同时注重技术方法培训,是我国语料库语言学今后发展中需要重点解决的问题。本研究开创性的建设了具备规模的、全面的等级英语考试语料库,并与实践教学相结合,既有理论高度,又有具有实际意义。语料库、数据驱动学习、自主学习、学习共同体、移动学习等诸多概念同属一个超学科范畴,相信在未来会有更多研究者在本领域取得更大的成就。
关键词:基于语料库;词语搭配;高频名词;对外汉语教学
一、词语搭配研究的背景与内容
20世纪中叶以来,语言研究理论与方法突飞猛进地发展,这不但使得语言学成为一门领先的科学,而且也催生了词语搭配研究的日益精密化,这不但表现在理论的革新上,还表现在研究方法与手段的信息化与现代化上。词语搭配是当今语料库语言学最为活跃的领域,在语言学研究领域中处于中心地位。那么如何界定词语搭配?被称作词语搭配行为之父的Firth把搭配定义为:“习惯一起出现的词语。”(洪荣丰,2009年)但这一定义太笼统,似乎只能靠语言学家本身的语感和直觉,缺乏真实的数据来验证其想法。Sinclair(1991)将其定义为:“两个或两个以上的词在文本中短距离内的共现。”这个定义比较宽泛,适用于基于大型语料库的词汇搭配研究。卫乃兴(2002)则认为:“词语搭配是在文本中为实现一定的意义从而以一定的语法形式因循组合使用的一个词语序列,构成该序列的词语相互预期,以大于偶然的几率共现。”从一般的语言教学与研究角度看,他提出的搭配概念更具可操作性。
关于词语搭配研究,传统的方法多基于直觉,主要的研究思路和方法包括新弗斯学派的词语学方法,米切尔等人的综合法,韩礼德和哈桑的篇章衔接概念,博林杰等人的惯例化搭配研究。这些靠语言学家个人直觉进行的词语搭配描述,其效度、深度、广度都往往有限。因此,随着语料库语言学在中国的发展以及语料库知识的日渐普及,越来越多的学者开始利用语料库来做研究。语料库研究,就其主要本质特征来说,是基于定量分析的研究,在定量研究的基础上进行定性研究,从而对词语搭配进行语言学描述,提高理论抽象度。这种基于语料库的词语搭配研究所采用的语料库方法是很客观的,具有重要的语言学意义及现实意义。
本文试图利用语料库来研究词语搭配。在这项研究中,我们使用的是北大CCL语料库,其丰富的资源给笔者提供了详实的证据,此外,其数据来自真实语言交际活动,体现了语言使用的真实规律,使我们能对关键词的搭配情况和特点进行较为扎实的概括,不必求助于个人直觉,使研究结果有较高的可靠性。在这项研究中,我们以现代汉语高频名词“家”和“人”为例来具体阐释关于词语搭配的问题。(“家”和“人”是《中国语言生活状况调查(2011)》中统计出的高频词语表中的高频名词)之所以选取高频名词主要考虑到两方面:首先,名词在汉语中所占比重很大,除了在数量上占据优势,名词的功能也众多,它可以充当主语、宾语、有时充当定语、谓语(名词谓语句),有些情况还可充当状语,可见名词在日常生活中是我们广泛接触的词类。其次,研究高频词比较有代表性。在生活中与他人交流或撰写论文时会经常用到这些高频词,这样如何正确使用它就显得格外重要。除了母语学习者,这一研究对外国人学习本土语言也有极大帮助,外国人学习中文要接触大量词汇,首先学习的就是高频词汇,这与我们学习外语是一个道理,在背英语单词时我们总是先背高频词汇,并了解与之经常出现的搭配,有利于更快地掌握一门语言。因此,我们认为研究高频名词的搭配是很有价值的。
二、高频名词“家”与“人”的相关搭配
以“家”、“人”这两个高频名词为例,我们从北大CCL语料库中得到500条该关键词的句子,并对这两个关键词出现的条件做了细致的统计与分析,结果如下表格所示。
1、高频名词“家”的相关搭配
家作为汉语高频名词,能与其搭配的词类有很多,经统计,与其搭配的对象可以是代词、动词、数词、名词、介词、助词、区别词、副词以及形容词,而且各个搭配对象出现的频数是不同的,如上表所示,代词与“家”搭配出现的频数最高,其次是动词,数词、名词与家搭配出现的频数相差无几,助词与介词则少得多,至于区别词、副词与形容词几乎不出现。由于代词出现的几率很高,笔者对其也做了细致的分类与统计。如下表所示。
由上表可知,人称代词出现的频数最高,指示代词次之,疑问代词与其它代词出现频数较少。人称代词中最常出现的是第一人称复数“我们”,高达37次,其单数形式“我”出现12次,其它人称代词如“自己”、“咱们”、“他们”、“她”、“你们”等出现频数相当,在此不一一详述。代词与中心语搭配一般作定语,两者是修饰限制关系。再看与“家”搭配的动词。最常见的是与动词“回”搭配,比如“一年难得回家探亲几次”,这个动词共出现24次,其次是“在”,“在”这个词比较特殊,在与“家”搭配的介词中,“在”出现的频数也是最高的,达12次。介词“在”是由动词虚化而来,与“家”搭配通常在句中作状语位于动词之前。“家”有时与介词搭配作补语,(如:走到家、死在家)这类例子出现频率则较低。“家”与名词、数词搭配出现的频数相当,出现的名词多为姓氏,例如:贺家一门世代有习武之风。这类名词共出现15次,以及方位名词“里”出现18次,方位词有定位性,总放在词语之后,与实词语组成方位短语,表示空间位置。与“家”搭配的数词主要是基数词“一”,出现34次,此时“家”是作为量词与之搭配,两者构成数量短语,通常修饰名词。例如:女记者请我们去村子里最好的一家饭店吃了一顿饭。关于“家”作为量词,这里再做一补充,“家”有时会出现重叠的情况,这时“家”是一个单音量词,重叠后单独充当主语,表示“每一”的意思。有时“家”出现在动词之后,如:找家饭馆。此时“家”前面省略了数词“一”。至于其它词与“家”搭配的几率小而且不稳定,笔者不一一赘述。以上所说的搭配是实词与实词或实词与虚词的搭配,即是将“家”作为一个词来分析其出现的条件。而在所选取的500条数据中还有一些特殊情况,就是“家”作为一个语素与其它语素共同构成一个词。比如:与语素“人”构成代词“人家”,共出现55次,与语素“大”构成代词“人家”,共出现35次,与“国”构成“国家”这个名词,共出现33次,还有一些是人名或地名,像是“张家口”、“张家界”、“沙家店”等,共出现62次,还有一些词属于职业或是在某一方面有天赋的人,例如:军事家、科学家、艺术家、作家等,共出现102次。有个别情况是出现在固定短语中(保家卫国、挨家挨户)此外与“家”这个语素构成的词出现频率低,故不作详述。
2、高频名词“人”的相关搭配
由上表可知,“人”作为高频名词,出现的环境也很复杂。“人”可以与名词、助词、形容词、动词、介词、代词、指量短语等搭配出现。其中数词出现的频率是最高的,数词“一”出现了11次,其它数词出现的几率则是不稳定的。其次是名词,出现在“人”之前的名词多为兼属专有名词与处所名词的词。例如:北京人、天津人、河北人、浙江人、中国人。这些名词与“人”搭配,表示一个人的籍贯,出现的频数为59次。还有个别名词是时间名词(现在)。再者出现频率较高的便是动词,例如:有、找、没、当等,这些动词中数“有”出现频率最高,共10 次,值得注意的是与“有”搭配时,“人”后面往往会出现其它动词,构成一个兼语短语。如:“有人告诉我”,“有人不赞成”。此外,与关键词搭配较多的是助词“的”,“的”之前的成分作“人”的定语。数量短语与“人”搭配的几率也比较高,在关键词前出现的数量短语多为“一个”。据统计,“一个”出现的频数为17次,剩余的数量短语出现频数不等。至于介词、代词、指量短语等出现几率很小,介词与“人”搭配时多位于动词前作状语,如:“受人欺压”、“给人帮着拉车”。出现的代词有“这”、“那些”等。指量短语共出现三个,“每个”(6次)、“那个”(2次)和“这个”(4次)。出现的形容词个人觉得不代表性,不一一赘述。与之前的高频名词“家”类似,以上所说的搭配是实词与实词或实词与虚词的搭配,即是将“人”作为一个词来分析其出现的条件。而根据语料库所得到的数据中还有一些语素是与“人”共同构成一个词出现。其中一类是表示族类,像“满人”、“汉人”、“回族人”、“旗人”、“波斯人”等,出现的频数为37次,一类则是日常生活中常见的名词,“人民”出现95次,“敌人”出现63次,“爱人”出现23次,“工人”出现19次,“老人”出现16次,以及代词“别人”出现17次,“人家”出现31次。以上所列举的搭配出现频率较高,至于其它词像“举人”、“佣人”、“人员”、“人口”出现频数小,在此不再列举其频数。同“家”一样,“人”也会出现在一些固定短语中,“沁人心脾”、“人之初,性本善”,虽仅出现一次,因在所选取的数据中出现故做一说明。
三、词语搭配研究的意义
语料库所提供的详实的数据便于我们对这两个词做定量及定性的研究,从而进行扎实的概括,使得我们对两个高频名词的常见搭配有初步的认识。笔者认为本文最大的意义在于两方面:第一,它可以弥补基于语料库研究汉语搭配的不足,语料库虽提供了详实的数据,但未做科学的系统分析与统计,人们很难通过直观了解到这些高频名词出现的环境,通过这个研究,人们可以根据表格所提供的可靠的数据,即与关键词搭配的各个词出现的频数,对关键词的常见搭配有一个更直观的了解,并结合母语文化,更好地运用高频词。第二:由于汉语在形态上缺乏变化,词与词搭配起来没有语法形式的约束,自由灵活,使得搭配结果非常丰富,因此,无论汉语作为母语还是作为第二语言的习得中,关于词语搭配的教学都极其重要。这里着重总结对于对外汉语教学的意义。对外汉语教学的对象主要是留学生,方艳(2002年)提出了这些第二语言学习者是带着基于母语文化的感知框架去感知、接受、理解第二语言,容易发生信息模糊与错位现象,随着词汇量的增多及其意义用法的多样化,词语搭配不当会成为其汉语学习中的常见错误。通过这项研究,在具体教学过程中,可以将那些结合比较紧密的词语组成板块直接交给他们,使他们在看到某个高频词时可以大致猜测该词可能搭配的对象,这有利于留学生在新的文化背景下更快地习得这门语言并灵活运用。此外,这项研究或许能为更多学者进行深入研究提供直观的数据,能为他们的研究提供一个新的思路与方向。因而,在今后的语言学研究中我们要充分利用语料库,推动我国语言学研究事业的发展进程。(作者单位:黑龙江大学)
参考文献
[1]卫乃兴.基于语料库和语料库驱动的词语搭配研究.《当代语言学》,2002年第4卷 第2期
[2]洪荣丰.基于语料库的词语搭配研究评述.四川教育学院学报,2009年1月
[3]孙丽丽.基于语料库的词语搭配和类联接研究.湖南工程学院学报,2009年6月第19卷第2期
[4]陈贺.基于语料库的词语搭配实证研究.考试周刊,2009年第30期(上卷)
[5]甄天元,任秋兰,尹海良.词语搭配的界定与研究概况.莱阳农学院学报(社会科学版),2006年3月第18卷第一期
[6]高凤英.语料库语言学在词汇和话语研究中的运用.山西大同大学学报(社会科学版),2010年8月第24卷第4期
[7]林杏光.论词语搭配及其研究.语言教学与研究,1994年第4期
[8]方艳.论词语搭配与对外汉语教学.连云港职业技术学院学报,2002年9月
关键词多义词,多义性效应,词汇判断,反馈模型。
分类号B842.1
1引言
多义词的识别问题是认知心理学中争论较多的一个问题。这一问题的探讨对于建立心理词典中语义的提取机制、形成多义词识别的模型,解决智能机器翻译的一个难点――多义词的翻译问题具有重要的理论意义。研究发现,对多义词的识别快于单义词或少义词[1~5]。这就是多义词识别的优势效应。
在拼音文字中,研究多义性(意义数)效应最常用的是词汇判断任务。研究发现,在合法非词(legal nonword)和同音假词(pseudohomophones)作填充词的条件下,有多义词效应;而在不合法非词(illegal nonword)条件下则没有多义词效应[5]。用合乎正字法规则的假词作填充材料,观察到了多义词优势效应;而用不合乎正字法规则的非词作填充材料,没有发现多义词识别的优势效应[2]。由此可见,多义词优势效应发生在语义水平上,而不是发生在正字法水平上。研究还发现,词的多义性和词频之间没有交互作用,即高、低频词都产生了多义词识别的优势效应[3]。
汉语多义词不同于拼音文字中的多义词。汉字是表意文字,不存在拼音文字中的形音对应规则;汉语双字多义词是由两个词素构成的,词素的特点可能会影响到整词的通达;每个词的意义数比英语词少得多。因此,用词汇判断任务研究在语义水平上是否存在汉语词汇识别的多义性效应,不能照搬拼音文字中常用的同音假词,而应当用2个真字随机混合产生的假词(在形、音上都不与任何真词相似,如:铄钮),或与源真词形似的假词(形似、但发音不与任何真词相同,如:予盾),或与源真词音同(或音近)、且形似的假词(如:优郁)。同音假词(与源真词不同形,也不形似)不能使被试通达源真词的语义,因而不会影响被试的词汇判断策略。而形似假词(假词与源真词形似)将会影响被试的词汇判断策略。使用形似假词比使用非形似假词时,被试对真词的反应将更慢。
基于上面的讨论,本研究要考察的问题是:在不同的假词条件下(实验一采用2个真字任意组合产生的假词,实验二采用与源真词形似同音的假词),被试在词汇判断任务中是否存在多义词识别的优势效应?这种效应可能的机制是什么?
2实验研究
2.1实验准备
2.1.1刺激词的初步选择
采用与Kellas[1]、Hino[3]、陈宝国等[6]人类似的方法来确定多义词。首先,从《现代汉语词典》[7]中选择出多义词;然后,参照《现代汉语多义词词典》[8],删除在词典定义中有争议的多义词;最后,根据《现代汉语频率词典》[9],从《现代汉语词典》中与每个多义词逐一配对选择首字声母的发音相同,词频、具体性、首字频、首字笔画数、末字频、末字笔画数相当的单义词。初步选定180对多义词和单义词。
2.1.2对刺激词的主观评定
为确信所选的词具有心理上的有效性,分3次请被试评定了词的多义性、熟悉性和具体性。将360个词编成问卷,请20名北京师范大学的本科生对每个词的意义数进行5点量表的主观评定,将评定为多义词的人数比例超过80%,且所有被试评定的词的平均意义数超过1.8的词作为“多义词”,将评定为多义词的人数比例小于20%,且所有被试评定的词的平均意义数小于1.5的词作为“单义词”。结果得到96对多义词和单义词。其次,先后各请20名北京师范大学的本科生对上述96对多义词和单义词的熟悉性、具体性进行7点量表的主观评定。在评定词的具体性时,由于多义词可能同时具有具体的和抽象的意义项,被试以自己最先想起的那个意义项来确定这个词的具体性,而不必将几个意义项的具体性的评估值平均化。
2.1.3对刺激词的统计处理和匹配
从96对多义词和单义词中选择80个词,平均分成4组,4组词的特征数据见表1。2个实验的自变量为词频和多义性,因变量为反应时和错误率。
为确信4组词的实验条件得到严格的匹配。用2(高频、低频)×2(多义、单义)的方差分析对词频、首字频、首字笔画、末字频、末字笔画、熟悉性、具体性、平均意义数进行了统计处理。对词频分析的结果表明,频率主效应显著,F(1,19)=39.971,p<0.001(此处及以后的分析之显著性水平设置为0.05);多义性主效应不显著,F(1,19)=0.274,p>0.1;二者的交互作用不显著,F(1,19)=0.174,p>0.1。对熟悉性的评估值的分析表明,频率主效应显著,F(1,19)=22.606,p<0.001;多义性主效应不显著,F(1,19)=0.076,p>0.1;交互作用不显著,F(1,19)=0.594,p>0.1。对具体性的分析结果表明,频率主效应不显著,F(1,19)=0.032,p>0.1;多义性主效应不显著,F(1,19)=0.006,p>0.1;交互作用不显著,F(1,19)=0.006,p>0.1。对多义性的评估值的分析结果表明,多义性主效应显著,F(1,19)=392.565,p<0.001;频率主效应不显著,F(1,19)=4.129,p>0.06,交互作用不显著,F(1,19)=0.241,p>0.1。在其它无关变量(首字频、首字笔画、末字频、末字笔画)的方差分析上没有发现有意义的差异。这说明,材料的匹配符合实验要求,即实验材料的高低频率、意义数(多义和单义)存在显著差异,其它无关变量得到了控制。
2.2实验一
考察用2个真字任意组合构成的假词为填充词时,词汇判断任务中是否存在多义词识别的优势效应。
2.2.1被试
29名北京师范大学的本科生,母语均为汉语,视力或矫正视力正常,被试参加实验获得少量报酬。
2.2.2实验设计与材料
采用2(高频、低频)×2(多义、单义)被试内设计。实验材料为40对多―单义词,其中20对为高频词,20对为低频词。80个填充词是用2个真字任意组合构造的双字假词,如“镜社”。各个双字词在实验中随机呈现。
2.2.3实验程序
被试坐在微机屏幕前,眼睛距离屏幕约50厘米,将右手的食指放在“是”键上,左手的食指放在“否”键上,要求被试尽量快而准确地判断屏幕中心出现的2个字符是不是词。是词,按“是”键,不是按“否”键。实验开始时,首先在屏幕中央出现一个“十”字形的注视点,持续时间约500毫秒,“十”字消失后立即呈现刺激项目,被试按键反应使刺激消失。计算机记录下刺激开始呈现到被试开始反应之间时间。正式实验前,被试进行10个项目的练习并得到反馈结果;正式实验后,被试不再得到反馈。
2.2.4结果与分析
数据处理中,当反应时小于300ms或大于1500ms时,当作错误处理。总计有8个数据(0.345%)被当作错误从反应时的数据中去掉。然后,去除平均数加减3个标准差以外的数据,总计有39个数据(3.48%)被去除。实验结果见表2。
对反应时数据进行两因素(多义性、词频)重复测量的方差分析,结果表明:词频主效应以被试为随机变量的方差分析显著,F1(1,28)=62.34,p<0.001;以项目为随机变量的方差分析显著,F2(1,19)=21.72,p<0.001。多义性主效应的被试分析不显著,F1(1,28)=0.08,p>0.1;项目分析不显著,F2(1,19)=0.164,p>0.1。词频与多义性的交互作用均不显著,F1(1,28)=0.507,p>0.1;F2(1,19)=0.07,p>0.1。
对错误率进行两因素重复测量的方差分析,结果表明:词频主效应被试分析显著,F1(1,28)=18.738,p<0.001;项目分析不显著,F2(1,19)=3.940,p<0.08。多义性主效应被试分析显著,F1(1,28)=23.256,p<0.001;项目分析不显著,F2(1,19)=4.189,p<0.06。词频和多义性的交互作用不显著,F1(1,28)=0.043,p>0.1;F2(1,19)=0.006,p>0.1。
实验一的结果表明:在词汇判断任务中,中文双字词的识别存在显著的频率效应,但多义词识别的优势效应仅仅存在于错误率中; 频率和多义性之间没有交互作用。
实验一用真字假词作填充词,被试在词汇判断中可能会形成某种策略,如可以根据构词规则、词形或音的熟悉性等做出真假词判断,不一定要通达真词的语义,因而在词汇判断中没有充分激活多义词的语义,多义词识别的优势效应在反应时中不明显。为了促使被试更大程度地通达语义,实验二改用了与源真词形似音同的假词为填充词。
2.3实验二
用与源真词形似音同的假词为填充词,进一步考察词汇判断中是否存在多义词识别的优势效应。
2.3.1被试
北京师范大学的29名本科生,母语均为汉语,其视力或矫正视力正常,被试参加实验获得少量报酬。
2.3.2实验设计与实验材料
实验设计、实验刺激材料与实验一完全相同。80个填充词为形似同音假词(由真字组成的、发音与某个真词相同,并且,通过至少改变源真词中的一个形似字使词形与源真词相似。如:冲烽,拉圾),80个假词按所对应的真词的频率和多义性也分为4组。各个双字词在实验中随机呈现。
2.3.3实验程序
同实验一完全相同。
2.3.4结果与分析
数据处理中,当反应时小于300ms或大于1500ms时,当作错误处理。总计有17个数据(0.733%)被当作错误反应从反应时数据中去掉。然后,去除平均数加减3个标准差以外的数据,总计有34个数据(1.47%)被去除。实验结果见表3。
对反应时数据进行两因素(多义性、词频)重复测量的方差分析,结果表明:词频主效应显著,F1(1,28)=56.5,p<0.001;F2(1,19)=12.25,p<0.05。多义性主效应显著,F1(1,28)=12.888,p<0.001;F2(1,19)=7.494,p<0.05。两者交互作用的被试分析临界显著,F1(1,28)=2.965,p<0.1;项目分析不显著,F2(1,19)=0.178,p>0.1。进一步的简单效应检验表明,多义性主效应在高频词中被试分析不显著,F1(1,28)=3.26,p=0.08,项目分析不显著,F2(1,19)=1.58,p>0.1;在低频词中被试分析显著,F1(1,28)=10.23,p<0.05;项目分析临界显著,F2(1,19)=3.45,p>0.05。
对错误率数据进行两因素重复测量的方差分析,结果表明:词频主效应显著,F1(1,28)=60.826,p<0.0001;F2(1,19)=5.974,p<0.05。多义性主效显著,F1(1,28)=56.901,p<0.0001;F2(1,19)=10.137,p<0.01。两者交互作用的被试分析显著,F1(1,28)=19.016,p<0.0001;项目分析不显著,F2(1,19)=2.102,p>0.1。进一步简单效应检验表明,多义性主效应在高频词上的被试分析显著,F1(1,28)=4.55,p<0.05,项目分析不显著,F2(1,19)=0.92,p>0.1;在低频词上均显著,F1(1,28)=62.40,p<0.0001,F2(1,19)=6.65,p<0.05。
实验二反应时和错误率的分析结果表明了显著的多义词识别的优势效应,且主要表现在低频词上,高频词上效应很微弱。与实验一相比,实验二在与源真词形似音同的假词条件下,被试难以从词形和词音上做出真假词判断,不得不更多地通达词的语义,并利用语义的反馈作用对词的形、音进行校对。词的语义在词汇判断中的作用或权重增加了,在这种条件下出现了显著的多义词效应。
3综合讨论
实验一发现了显著的词频效应,但多义词识别的优势效应仅仅存在于错误率中。这一结果与前人的研究结果基本一致[6]。当填充词是由真字构成的假词时,如“叉婷”,被试可以凭借字形或字音的“熟悉性”判断它为假词,不一定要通达真词的语义,因而词汇判断中语义激活的程度可能不高。
实验二发现,多义词识别的优势效应主要表现在低频词中,高频词中效应很微弱。这和汉语中多义词识别的优势效应的有关研究结果[6]基本一致,而和Hino等的研究结果[3]不完全一致。原因可能是,在两者的实验材料中,高、低频率的切分标准存在差异。在Hino的材料中,高低频的切分值是10/300万,高、低频词的平均频率分别为38.60、3.12;而在我们的实验材料中,高低频的切分值是30/131万,高、低频词的平均频率分别为103.50,10.85。前者的高频词的频率明显偏低,这可能是高频词也存在多义词识别的优势效应的原因。
在拼音文字中,有关多义性效应的理论模型主要有两类:局部表征模型和分布表征模型。局部表征模型假定,词汇信息被表征在与单个词汇对应的特定单元里,多义词识别的优势效应是因为多义词得益于心理词典中的多个词条(entries)。分布表征模型[4]假定了词的形、音、义3种水平的单元,每个水平都包含有分布表征,不同单元通过隐单元互相联结。例如,Hino和Luper提出反馈模型(the feedback accounts),认为多义词产生较多的语义激活,语义激活又反馈到语音单元和正字法单元,导致多义词在正字法单元更高水平的激活,词汇判断主要基于正字法单元的激活[3]。按照这种解释,当用不合法的非词或假词作填充词(如实验一)时,词汇判断较容易,反馈没有多大影响;而当用形似假词或同音形似假词作填充词时(如实验二),被试难以从语音和词形上做出真假词判断,不得不更多地通达词的语义,在迅速激活源真词的语义表征后,利用语义的反馈作用对词的形音进行校对,语义激活的增加使从语义到正字法或语音的反馈激活增加,因而引起了更显著的多义词识别的优势效应。
为什么多义词识别的优势效应只发生在低频词中?我们认为,高频词形、音的联结较强,它倾向于独立表征、整词通达[10],词形很熟悉,识别很迅速。词的语义的反馈激活来不及发挥作用,真假词判断就已经完成了。相比之下,低频词是分解表征和通达的[10],词形不熟悉,形、音间的联结较弱,仅仅根据形、音难以完成判断任务,语义反馈激活充分发挥了作用,故显示了较强的多义词识别的优势效应。
实验后发现,本研究没有控制意义项间的相关性[11],也没有控制词素的语义数和语义透明度。这些因素都可能影响到词汇判断的反应时。为了进一步分析本实验材料意义项间的相关性,我们把多义词的所有意义分别进行两两配对,然后请北京师范大学的28名大学生进行了七点量表的意义联系程度的主观评定(1代表意义联系程度很低,7代表意义联系程度很高)。最后算出各配对评定等级的平均数,作为意义间联系程度的指标。结果表明,高、低频多义词的意义联系程度评定值分别是3.77和4.39,两者差异显著,t=-2.725,p<0.05,因此,低频词中的多义性效应也可能是低频词中语义相关性更强引起的,或者多义性与语义相关互作用的结果。
4结论
(1)在词汇判断任务中,当用2个真字任意组合构造的假词作为填充词时,发现多义词识别的优势效应仅仅存在于错误率中。
(2)当用与源真词形似同音的假词作为填充词时,发现了很强的多义词识别的优势效应,且主要表现在低频词中,多义性和词频存在交互作用。
参考文献
1 Kellas G, Ferraro F R, Simpson G B. Lexical ambiguity and the time course of attentional allocation in word recognition. Journal of Experimental Psychology: Human Perception and Performance, 1988, 14(4): 601~609
2 Borowsky R, Masson M E. Semantic ambiguity effects in word identification. Journal of Experimental Psychology: Learning, Memory and Cognition, 1996, 22(1): 63~85
3 Hino Y, Lupker S J. Effects of polysemy in lexical decision and naming-alternative to lexical access accounts. Journal of Experimental Psychology: Human Perception and Performance, 1996, 22, 1331~1356
4 Jastrzembski J E. Multiple meaning, number of related meaning, frequency of occurrence, and the lexicon. Cognitive Psychology, 1981, 13, 278~3059
5 Rueckle J G. Ambiguity and connectionist networks: Still setting into a solution: Commentary on Joordens and Besner(1994). Journal of Experimental Psychology: Learning, Memory, and Cognition, 1995, 21, 501~508
6 陈宝国, 彭聃龄. 汉语双字多义词的识别优势效应. 心理学报, 2001, 33(4): 300~304
7 现代汉语词典(修订本). 北京:商务印书馆, 1997
8 袁晖. 现代汉语多义词词典. 书海出版社, 1990
9 现代汉语频率词典. 北京: 北京语言学院出版社, 1986
关键词多义词,意义联系程度,词汇判断。
分类号B842.5
1引言
多义词(polysemous words)是人类语言的一种独特现象,它是指一个词具有两个或两个以上的意义。多义词的研究对于揭示词义信息的加工机制以及形音义的交互作用的机制都有着重要的意义。
Rubenstein等人最早对多义词的词汇识别进行了研究[1]。结果是多义词的词汇判断时间快于单义词的词汇判断时间(多义词效应)。这种观点得到了后来一些实验的支持[2,3],但Borowsky等人的研究表明[4],多义词的词汇判断优势只有在特定的条件下出现,即只有当填充词为可发音的假词时才出现。还有的研究并没有发现多义词的词汇判断优势[5]。
面对上述不一致的结果,有研究者开始怀疑词义的数量是否是预见词汇判断时间的一个良好的指标。例如,在Azuma等人的一项研究中[6],控制了英语多义词意义数量这一变量,同时还控制了多义词各意义间联系程度这一变量,即把联系程度分为高、低两种。研究结果发现,当多义词的意义数量较少时(≤4个),意义间联系程度高的多义词(如safe),比意义间联系程度低的多义词(如firm)的词汇判断时间要快;而当多义词的意义数量较多时(≥6个),这种情况没有出现。Azuma等人认为,后一种情况可能与他们测量多义词意义间联系程度方法上的缺陷有关(将在后进一步的阐述)。Azuma等人用平行分布加工的模型解释了他们的实验结果。他们认为,词的意义是分布表征的,多义词有多个意义,因此在意义激活时,各个意义之间彼此存在竞争。在竞争中,意义间联系程度高的多义词,由于许多意义特征是共同的,竞争的强度低于意义间联系程度低的多义词,这导致了意义间联系强度高的多义词比意义间联系程度低的多义词的词汇判断时间快。
根据Azuma等人解释,我们推论,在汉语中多义词的意义间联系程度也应该同样影响词汇判断的时间。另外,如果词义竞争观点的解释成立,那么自然的推论是:多义词的识别有可能劣势于单义词,因为单义词意义唯一,不存在如多义词一样的词义竞争,所以在词汇判断过程中,单义词的词汇判断时间要快于多义词的词汇判断时间,特别当多义词的各意义间联系比较低时,这种情况应该更为突出。但Azuma等人的实验中没有设立多义词与单义词对比这种条件。针对上述问题,本研究在改进Azuma等人多义词意义间联系程度的方法的基础上,考察汉语中多义词各意义间的联系程度是否影响多义词词汇判断的时间,同时考察意义间联系程度不同的多义词与单义词的词汇判断时间是怎样的一种关系。
2方法
2.1被试
大学生30名,其视力或矫正视力正常,实验后获得少量的报酬。
2.2设计
2(高频词、低频词)×3(意义间联系程度高的多义词、意义间联系程度低的多义词、单义词)被试内设计。
2.3材料
多义词和单义词的评定方法:根据《现代汉语词典》中的意义解释,选出一定数量的双字多义词和单义词。为保证选出的词语具有心理的现实性,我们让另外30名大学生对所选词汇进行词义数量的主观评定,即如果该词只有一个意义,那么在该词右边相应的数字1中划√;若该词有两个意义,在数字2中划√;若该词有三个或三个以上的意义,那么在数字3中划√。如果某个词有80%的被试的评定等级高于1,那么这个词被确定为多义词;如果某个词有80%的被试的评定等级为1,那么这个词被确定为单义词。
多义词意义间联系程度的确定:在Azuma等人的研究中,他们把选出的多义词的首要意义分别与其次要意义配对,然后让被试进行七点量表的意义联系程度的评定,把各配对意义联系程度的平均值作为意义间联系程度的指标。正如他们所说这种评定方法存在着一定的缺点。这表现在:如果一个多义词的主要意义与其次要意义的联系程度很低,那么这个多义词的意义间联系程度必然被评定为较低。但是存在这样一种情况,即主要意义虽然与各次要意义联系程度很低,但各次要意义间的联系程度却较高,由于Azuma的评定中没有把次要意义配对进行联系程度的评定,因此有可能把意义间联系程度较高的多义词评定为意义间联系程度较低的多义词。在本研究中,为了更好地评估多义词各意义间的联系程度,把多义词的所有意义分别进行两两配对,然后让30名大学生进行七点量表的意义联系程度的主观评定(其中1代表意义联系程度很低,7代表意义联系程度很高)。算出各配对评定等级的平均数,我们把评定等级≤3.4的多义词,选作意义间联系程度低的多义词,把评定等级≥3.9的多义词,选作意义间联系程度高的多义词。
经过筛选,选定高频意义间联系程度高的多义词(HHP)、高频意义间联系程度低的多义词(HLP)、高频单义词(HNP);低频意义间联系程度高的多义词(LHP)、低频意义间联系程度低的多义词(LLP)、低频单义词(LNP),每种15个。20名大学生对这些词语进行了七点量表的主观熟悉度的评定(其中1代表非常不熟悉,7代表非常熟悉)。
实验材料在首字笔画数、次字笔画数、首字字频、次字字频、熟悉度等方面均进行了匹配,(词频单位为次/131万,字频单位为次/百万)。匹配结果见表1,实验全部材料见附录。填充词为90个与真词音同形似的假词,例如“决泽”。选用这种假词是为了使被试更多地利用语义信息进行词汇判断。实验时真假词随机混合,共180个实验材料,每个被试接受所有的实验项目。
2.4实验程序
采用DMDX实验软件系统呈现刺激材料。首先在屏幕中央出现一个“十”字形的注视点,持续时间为300毫秒,间隔300毫秒后呈现刺激项目。被试的任务是既快又准确地判断屏幕中央出现的两个字是不是词。如果是,用右手食指按反应盒上“是”键;如果不是,用左手食指按反应盒上的“否”键,按键后刺激项目消失。前后刺激项目的呈现时间间隔为2秒。计算机记录下刺激开始呈现到被试做出反应的时间和错误的反应。正式实验前,被试要进行10个刺激项目的练习。
3结果
数据分析时,剔除每个被试平均数加减三个标准差以外的数据(小于1%)。实验结果见表2。
采用SPSS10.0对反应时和正确率进行多因素的方差分析。数据分别以被试为随机变量(F1)和以项目为随机变量(F2)进行方差分析。
反应时数据显示,频率的主效应显著,F1(1,29)=160.90,p<0.01;F2(1,84)=43.55,p<0.01。这表明高频词的词汇判断快于低频词的词汇判断时间。词义类型的主效应以被试为随机变量的方差分析显著,F1(2,58)=5.60,p<0.01;以项目为随机变量的方差分析不显著,F2(2,84)=1.20,p>0.1。频率与词义类型的交互作用以被试为随机变量的方差分析显著,F1(2,58)=6.90,p<0.01;以项目为随机变量的方差分析不显著,F2(2,84)=1.55,p>0.1。
由于词频和词义类型的交互作用以被试为随机变量的方差分析显著,进一步进行简单效应检验。结果显示,高频词条件下,词义类型的简单效应不显著,F1(2,58)=0.60,p>0.1。这说明在高频词条件下,三类词语的反应时没有差别。在低频词的条件下,词义类型的简单效应显著,F1(2,58)=8.47,p<0.01。进一步统计分析表明,联系程度高的多义词与联系程度低的多义词反应时差异不显著,F1(1,29)=0.72,p>0.1,联系程度高的多义词与单义词反应时差异显著,F1(1,29)=12.04,p<0.01。联系程度低的多义词与单义词反应时差异显著,F1(1,29)=8.28,p<0.01。这一结果说明,在低频的条件下,多义词各意义间的联系程度没有影响多义词词汇判断的时间。但是低频多义词无论其意义间联系程度的高低,都比单义词的词汇判断时间要快,即低频词中存在着多义词效应。
错误率的分析表明:频率的主效应显著,F1(1,29)=43.37,p<0.01;F2(1,84)=12.21,p<0.01,高频词错误率低于低频词的错误率。词义类型的主效应不显著,F1(2,58)=1.37,p>0.1;F2(2,84)=1.35,p>0.1。频率与词义类型的交互作用不显著,F1(2,58)=2.91,p<0.01,F2(2,84)=1.90,p>0.1。
4讨论
本研究的目的在于考察汉语中,多义词意义间的联系程度是否影响多义词词汇判断的时间,同时考察意义间联系程度不同的多义词与单义词的词汇判断时间的关系。结果发现,在低频词的条件下,多义词的词汇判断时间快于单义词的词汇判断时间,这进一步证实了我们以前进行的一项研究[7]。但是本实验并没有发现多义词意义间联系程度的高低对多义词词汇判断的时间产生影响,这一结果和Azuma等人的结果不一致。
Azuma等人用词义竞争的观点解释他们的实验结果,但这种观点不能很好地解释汉语中,多义词的意义间联系程度没有对词汇判断时间产生影响这一事实。另外,根据词义竞争观点的解释,人们自然的推论是单义词的词汇判断时间快于多义词的词汇判断时间。但是本研究结果表明,无论词频高低,单义词的词汇判断时间都不快于多义词的词汇判断时间,而且在低频词条件下,单义词的词汇判断时间慢于多义词的词汇判断时间,这一结果和前人的大量研究结果是一致的,但和词义竞争观点的预见是不一致的。基于上述事实,用词义竞争的观点来解释多义词意义间的联系程度对词汇判断时间的影响值得商榷。
我们认为,多义词意义间的联系程度影响英文中词汇判断的时间可以这样解释:意义间联系程度高的多义词,由于各意义联系程度高,所以,当多义词出现时,这个词内部语义场的各意义都容易得到激活,即词义内部存在一种类似词汇间语义启动的一种机制,一个词义的激活可以激活内部语义场另一个相关的意义;而联系程度低的多义词,由于意义间联系程度低,内部语义场只有部分意义得到了激活,这样从整体的角度考虑,意义间联系程度高的多义词比意义间联系程度低的多义词在语义水平上激活的语义信息更多。因此在正字法水平上,意义间联系程度高的多义词得到更多的语义反馈作用,这最终导致了多义词意义间的联系程度影响词汇判断的时间。
依据上述观点,汉语中,双字多义词意义间的联系程度没有影响词汇判断的时间的可能原因是:第一,汉语双字多义词意义数量较少,大多只有两个或三个意义,这样意义间联系程度高、低不同的多义词在语义激活量上差别较小,因此意义间联系程度的高低没有对多义词词汇判断的时间产生影响。第二,汉语双字多义词一般是通过某种意义的引申、联想、借代等方法产生的,因此各个意义之间虽然有所区别,但是也有很大的联系,例如“喜事”一词,原指“一切使人高兴的事”,现在社会上用它来特指“结婚”。“结婚”这个词义包含在“一切使人高兴的事”的词义范围之内。因此汉语中,双字多义词意义间联系程度的差异不会很大,这也使得意义联系程度的高低,可能不会对多义词词汇判断的时间产生影响。而英语多义词,一个正字法可以表达完全不同的含义,如“Bank”至少有“银行”、“河岸”两个完全不同的含义。由于这种情况的存在,使得英文中多义词意义间联系程度的差异变得很大,所以意义间联系程度的高低对多义词词汇判断的时间产生影响。
Azuma等人词义竞争的观点不能解释为什么多义词的词汇判断时间快于单义词的判断时间,但用上述的观点可以做出解释。多义词、特别是低频多义词,不管其意义间联系程度的高低,要比单义词在语义层次激活了更多的语义信息,所以多义词来自语义对词形的反馈,会显著大于来自单义词的语义反馈,进而加速了词汇判断。而高频词由于比较常见,词形识别很迅速,语义反馈对词汇识别的影响较小,因此,多义词与单义词的词汇判断时间没有出现差别。
在汉语中,关于多义性效应的研究刚刚开始,但本研究和已有的研究[7,8]都发现在低频词的条件下,多义词的识别快于单义词的识别。所以,从目前的研究来看,汉语中词义数量的多少可以作为预见词汇判断时间的一个指标。
5小结
在本研究条件下,得出下列结论:(1)汉语双字多义词意义间联系程度的高低没有影响多义词词汇判断的时间;(2)低频双字多义词,不管其意义间联系程度的高低,词汇判断的时间均快于低频单义词词汇判断的时间,这表明词汇识别中存在着低频多义词的识别优势效应。
参考文献
1 Rubenstein H, Garfield L, Millikan J A. Homographic entries in the internal lexicon. Journal of Verbal Learning and Verbal Behavior, 1970, 9: 487~494
2 Hino Y, Lupker S. Effects of polysemy in lexical decision and naming: An alternative to lexical access accounts. Journal of Experimental Psychology: Human Perception and Performance, 1996, 22(6): 1331~1356
3 Pexman P M, Lupker S J. Ambiguity and visual word recognition: Can feedback explain both homophone and polysemy effect? Canadian Journal of Experimental Psychology, 1999, 53(4): 323~334
4 Borowsky R, Masson M E. Semantic ambiguity effects in word identification. Journal of Experimental Psychology: Learning, Memory, and Cognition, 1996, 22(1): 63~85
5 Gernsbacher M A. Revolving 20 years of inconsistent interaction between lexical familiarity and orthography, concreteness, and polysemy. Journal of Experimental Psychology: General, 1984, 113(2): 256~281
6 Azuma T, Van Orden G C. Why safe is better than fast: The relatedness of a word′s meaning affects lexical decision times. Journal of Memory and Language, 1997, 36: 484~504
摘要采用词汇判定法,考察首词频率和尾词频率对高熟悉度四字成语识别的影响。实验结果表明:(1)对高熟悉度成语的识别规律与多层聚类表征模型的观点比较吻合;(2)构成成语的成份词对成语表征有竞争和干扰作用,高频率成份词相对于低频率成份词,对成语表征的竞争和干扰作用较大。
关键词首词频,尾词频,熟悉度,词汇判定。
分类号B842.1
1问题的提出
自20世纪70年代以来,有关多词素词(morphonologically complex words)的表征和加工问题成为心理语言学研究的热点[1]。多词素词是如何通达的,是直接通达整词词条还是通过词素词条的通达来识别整词?这是多词素词表征研究的一个重点。
在拼音文字的研究中,研究者提出了几种比较有代表性的理论模型。(1)整词表征模型[2,3]:该模型认为多词素词在心理词典中是以整词形式表征的,没有独立的词素表征。(2)分解表征模型[4]:即多词素词在心理词典中是以分解的词素方式表征的,识别词汇必先表征词素。(3)混合表征模型:认为在词汇通达中既有整词又有词素,元素间可以交互激活。比较具有代表性的混合模型如:AAM模型(augmented addressed morphology model)[5],该模型认为对于熟悉的高频词来说是整词识别,对于不熟悉的低频词则是词素识别。
中文虽不同于拼音文字,但目前对中文材料的研究结论与对拼音文字的研究结论有相一致的方面,而且分别有实验研究支持以上三种理论模型。关于整词频率对词汇识别的作用的研究,结论和拼音文字的研究结论基本一致,即高频词的识别显著快于低频词[6,7]。也有研究者研究了词素频率对词语识别的影响。张必隐等采用控制词频,变化词素频率的方法,分别对联合式合成词和偏正式合成词的表征方式进行了研究[8],结果表明:词素频率和整词频率对词的识别都有影响。作者认为在心理词典中双字词是以分解形式表征和存储的,同时整词频率对词素表征之间的联系强度也有影响,所以对词的识别有作用。Taft等人也发现了类似的词素频率效应[9],在他们的研究中实验材料为词频相同的双字词,根据词素的频率分为四组:高频―高频组,高频―低频组,低频―高频组和低频―低频组。结果发现词素频率对词语的识别有影响,高频―低频组和低频―高频组的反应时长于高频―高频组的反应时;但一个有趣的现象是,低频―低频组的反应时却与高频―高频组相同。作者认为可能的原因是低频―低频组的材料多为连绵词,这些词可能是作为一个整体单元被表征的。
王春茂等在研究中同时考察词频和词素累积频率(即词素频率之和)对词汇识别的作用[10],结果发现在高频词中,高词素累积频率的词语的识别快于低词素累积频率的词语;但在低频词中没有这种差异。作者用连接主义的观点解释了该现象:即高频词的词素与整词间连接较强,因此出现了词素累积频率效应,在低频词中,这种连接比较弱,词素对整词的作用较小,因此没有出现词素累积频率效应。有研究同时控制了词频、首字字频和尾字字频,并从发展角度对词汇识别问题进行了探讨[11]。实验的结果支持混合表征模型,对于高频词是以整词形式储存的,低频词则以词素分解形式储存;而且混合表征模型在个体年龄很小时就已形成,不随年龄的增长而变化。
以上研究都是以汉语双字词为材料,得到的结论也仅限于此类词语。对于汉语中的一种特殊的多词素词类型四字成语,它的识别机制如何,是否和双字词一致?本研究选用高熟悉度的成语,控制构成成语的成份词(即首词和尾词)的频率,考察成份词的频率对成语识别的影响,分析成语识别的内在机制。
2方法
2.1被试
被试为天津师范大学35名在读本科生,男生15人,女生20人。实验结束后被试可以获得一份礼物。
2.2实验仪器
采用DMDX系统,显示器分辨率为1024×768像素,刷新频率为60Hz。刺激以初号宋体字呈现在屏幕中央,黑底白字。
2.3实验材料
2.3.1熟悉度评定
从《汉语成语多用词典》(增订本)[12]中选取了194个成语,其中构成这些成语的起始两个字和最后两个字又分别可以构成两个不同的双字词,如:“人心涣散”,还可构成“人心”与“涣散”两个双字词。请20名大学生对这些成语的熟悉度进行7点评定,分值越高,熟悉度越高。选取熟悉度>5的成语为高熟悉度成语,共168个,这些成语的平均熟悉度为6.43。
2.3.2首词频率、尾词频率的匹配
用《现代汉语频率词典》[13]查构成这些成语的首词和尾词词频(单位为1/131万)。以词频≤30为低频,词频>100为高频的标准分别选取四种不同类型的成语,即首词频高尾词频高(HH)、首词频高尾词频低(HL)、首词频低尾词频高(LH)和首词频低尾词频低(LL)各20个。材料的匹配见表1。
2.3.3词单
编造40个四字非成语作为填充词,且这些填充词的起始两个字和最后两个字也可以分别构成一个双字词,将这些填充词和80个成语随机混合构成一个刺激呈现序列。
2.4实验设计
本实验为2(首词频高、首词频低)×2(尾词频高、尾词频低)被试内重复测量实验设计。因变量指标为反应时和错误率。
2.5实验程序
实验个别进行,整个实验过程大约需要10分钟。第一阶段为练习,确保被试熟悉实验过程,第二阶段进行正式实验。
实验开始时,首先在屏幕中央呈现一个“+”字形注视点,呈现时间由被试按键控制;被试按键后在屏幕中央出现刺激项目,要求被试迅速而又准确地判断刺激是否为成语,如果是,用左手按键盘左侧“shift”键,如果不是,用右手按右侧“shift”键,按键后刺激项目消失。计算机记录下从刺激开始呈现到被试做出反应的时间和错误的反应。
3结果与分析
数据分析时,删除每个被试平均数加减三个标准差以外的数据。由于被试在部分成语上的反应错误率较高,因此又删除错误率大于50%的11个成语,最后只对69个成语进行了分析。对反应时进行分析时删去所有错误反应的时间。不同类型成语的正确反应时和错误率见表2。
采用SPSS12.0软件包对正确反应时和错误率进行多因素的方差分析。数据分别以被试为随机变量(F1)和以项目为随机变量(F2)进行方差分析。
3.1反应时分析
反应时的数据显示,首词频的主效应显著,F1(1,34)=12.29,p<0.01;F2(4,65)=6.92,p<0.05,表现为首词频低的成语的反应时间显著快于首词频高的成语的反应时间。尾词频的主效应在以被试为随机变量的方差分析上显著,F1(1,34)=6.30,p<0.05,尾词频低的成语的反应时间比尾词频高的成语快67ms;在以项目为随机变量的方差分析上边缘显著,F2(4,65)=3.14,p=0.08。首词频与尾词频的交互作用在以被试为随机变量的方差分析上显著,F1(1,34)=13.70,p<0.01;在以项目为随机变量的方差分析上边缘显著,F2(4,65)=3.63,p=0.06。
由于首词频与尾词频的交互作用显著,进一步进行简单效应检验。结果显示,当首词频为低频时,尾词频的简单效应在被试分析上显著,t=4.23,p<0.01,尾词频低的成语的反应时比尾词频高的成语快150ms。其它均不显著(p>0.1)。这一结果表明,只有当首词频为低频时,存在尾词的频率效应。
3.2错误率分析
统计数据显示,首词频的主效应显著,F1(1,34)=30.23,p<0.01;F2(4,65)=5.50,p<0.01,首词频高的成语的反应错误率高于首词频低的成语。尾词频的主效应显著,F1(1,34)=18.76,p<0.01;F2(4,65)=10.90,p<0.01,尾词频高的成语的反应错误率高于尾词频低的成语。尾词频与首词频的交互作用不显著,F1(1,34)=0.72,p>0.1;F2(4,65)=0.27,p>0.1。
4讨论
由于目前的词频词典仅对极小部分成语进行了统计,因此很难对成语的词频进行匹配,所以在本实验中对成语的熟悉度进行了评定。根据本研究的需要,在选择成语时,必须考虑到构成成语的两个成份词在词频词典中能查到词频,按这一标准选择的成语在进行熟悉度评定时,发现绝大多数成语为高熟悉度成语,难以进行熟悉度匹配,因此在最终的实验材料中只选择了高熟悉度的成语。这可能也说明了为什么对成语识别的研究较少的原因,即材料的选择和匹配较难。
本实验的结果发现,构成成语的成份词的词频对成语的识别有影响,具体表现为:首词频低的成语的反应时间短于首词频高的成语;对于首词频低的成语,尾词频低的反应时短于尾词频高的反应时。而且错误率分析的结果与反应时的结果比较一致,首词频低的成语的错误率显著低于首词频高的成语,尾词频低的成语的反应错误率显著低于尾词频高的成语。这一结果证明在成语识别中存在成份词的词频效应。
有趣的是,成语成份词频率的作用模式与双字词词素频率的作用模式相反。在对双字词的研究中,发现词素累积频率高的词语的反应时短于词素累积频率低的词语[10],高首字字频词识别的反应时短于低首字字频词的反应时;高尾字字频词识别的反应时短于对低尾字字频词的反应时[11]。如何解释这种与双字词识别相反的现象呢?
中文双字词的表征和加工的理论观点主要有两种[14]:一种是张必隐等提出的分解存储的观点[15],另一种为周晓林等提出的多层聚类表征模型(the multi-level cluster representation model)[16]。分解存储观点认为,在心理词典中双字词的表征是以分解形式存储的,即以字的表征为存储单位,字表征之间存在不同的联系而形成一个网络。而多层聚类表征模型则认为心理词典中含有音节、词素和整词三个表征层,每一表征层内是一种网络结构,其中相互联系的多个表征形成一个Cluster,Cluster内的表征间是相互竞争的关系,而各表征层间是相互激活的关系。尽管这两种观点都是根据对双字词的研究提出的,对四字成语不一定合适。但这两种观点的基本思想可以对解释四字成语的识别现象有一定的参考价值。
从以上分析可以看出,分解表征模型比较强调内部表征的基本单元和识别加工的基本单元,而多层聚类表征模型则更强调内部表征层间的相互竞争和联系。由于四字成语的特殊性,成语本身可能以整词的形式在心理词典中存储,同时其成份词本身也可能以双字词的形式储存在心理词典中,具有自己独立的词条。在成语识别时,成语本身的表征和成份词的表征可能相互竞争,因为频率较高的成份词比频率较低的成份词会更快地激活作为双字词的表征,因此这一表征激活可能和对成语本身的表征激活相竞争,干扰较大,从而造成对高频率成份词的成语的识别反应时较长,且错误率较高。但对于低频率成份词的成语而言,由于成份词频率较低,激活表征较慢,因此对成语表征的激活的竞争力不如高频率成份词,干扰性也较低,所以对低频率成份词的成语识别较快,较准确。这一点和多层聚类表征模型的思想较吻合。但多层聚类表征模型毕竟只是针对双字词的研究提出的,对于成语识别是否完全适合还有待进一步的研究。
5结论
在本实验条件下,得出如下结论:
(1)对高熟悉度成语的通达与多层聚类表征模型比较吻合,构成成语的成份词的频率对成语识别有影响。
(2)构成成语的成份词对成语表征有竞争和干扰作用,高频率成份词相对于低频率成份词,对成语表征的竞争和干扰作用较大。
参考文献
1 彭聃龄, 丁国盛. 中文双字词的表征与加工(上). 心理科学, 1997, 20(4): 294~297
2 Seidenber M S. Sublexical structures in visual word recognition: Access units or orthographic redundancy?In Coltheart(Eds). Attention and performance. Hillsdale, NJ: Lawrence Erlbaum Associates, 1987
3 Seidenber M S. Reading complex words. In: Carslon G N, Tanenhaus M K(Eds.). Linguistic structure in language processing. Dordrecht, the Nethelands: Kluwer, 1989
4 Taft M, Forster K I. Lexical storage and retrieval of polymophemic and polysyllabic words. Journal of Verbal Learning and Verbal Behavior, 1976, 15: 607~620
5 Caramazza A, Landenna A, Romani. Lexical access and inflectional morphology. Cognition, 1988, 28: 297~332
6 罗少京, 兰凌. 语境知识、图式知识、词频及词的近现性对听音理解的影响. 华南理工大学学报(社会科学版), 2002, 4(2): 75~78
7 陈宝国, 王立新, 王璐璐, 彭聃龄. 词汇习得年龄和频率对词汇识别的影响. 心理科学, 2004, 27(5): 1060~1064
8 Zhang B Y, Peng D L. Decomposed storage in the Chinese lexicon. In: Cheng H C, Tzheng O J L(Eds.), Language processing in Chinese, North-Holland, 1992
9 Taft, Huang, & Zhu. The influence of character frequency on word recognition responsed in Chinese. In Advances in the Chinese language processing, 1994, 1: 59~73
10 王春茂, 彭聃龄. 合成词加工中的词频、词素频率及语义透明度. 心理学报, 1999, 31(3): 266~273
11 田宏杰. 词频、首字字频和尾字字频对双字词识别作用的研究, 天津师范大学, 硕士研究生学位论文, 2005
12 汉语成语多用词典(增订本), 成都: 四川人民出版社, 1996
13 现代汉语频率词典, 北京语言学院语言教学研究所编, 北京: 北京语言学院出版社, 1986
14 彭聃龄, 丁国盛. 中文双字词的表征与加工(下). 心理科学, 1997, 20(5): 395~397
15 Zhang B Y, Peng D L. Decomposed storage in the Chinese lexical. In H. C. Chen & O. T. L. Tzeng (Eds), Language Processing in Chinese, Amsterdam North-Holland, 1992
16 Zhou X. The mental representation of Chinese disyllabic words.PhD dissertation, University of Cambridge, 1992
THE EFFECT OF INITIAL WORD FREQUENCY AND LAST WORD FREQUENCY OF CHINESE IDIOMS ON THE HIGHLY FAMILIAR IDIOM RECOGNITION
Xiong Jianping1,2, Yan Guoli1
(1 Research Center of Psychology and Behavior in Tianjin Normal University, Tianjin300074; 2 Department of Education, He Nan Normal University, Xinxiang453000)
Abstract
关键词:中国英语专业学生 口语 get使用情况
一、引言
get作为一个高频词在英语口语和书面语中使用很频繁,通过对它的研究可以探索提高学生的书面语和口语表达能力的方法。王立非,张岩(2007)通过对中国学生高频词使用情况的调查研究发现,就get一词而言,中国大学生过多使用动词get,过多使用get+宾语结构,而且存在动宾搭配不当现象。吴志芳(2008)通过对get的语料库对比研究,发现学生在get的各类链接的使用中,大致存在以下问题:频繁重复使用个别词语;对不同义项的使用和掌握不均衡;搭配不当。并发现造成这些现象主要原因是受到母语迁移、中介语发展和当前的英语教学方法的影响。以上研究主要借助书面语语料库进行的对比研究,其研究结果只能解释中国学生书面语中get的使用情况,目前为止对中国英语专业学生口语中get使用特点的研究较少。因此本文试图通过中国学生英语口语语料库(SECCL)与英国国家语料库(BNC)的对比研究,了解中国英语专业学生口语中get的使用特点。
二、研究方法
1.研究内容
(1)get这一高频词,英语专业学生在口语表达中使用频率如何?是否存在使用过度或使用不足?
(2)get在本族语者的英国国家语料库(BNC)和英语专业学生口语语料库(SECCL)中的用法有什么区别?
2.研究工具
本文以SWECCL 2.0(Spoken and Written English Corpus of Chinese Learners)的子语料库――英语专业四级口语库和八级口语库(SECCL 2.0)――为基础,调查英语专业学生get的使用特点。该口语语料库来源于2003~2007年间英语专业四、八级口试,计约100万词。本文选择英语母语语料库BNC(British National Corpus)口语语料库作为对照参数。BNC语料库是以来源广泛的书面语言和口语为样本,词容量超过一亿,主要呈现20世纪后期以来的英式英语,其口语语料占10%。
3.研究手段
使用检索工具软件AntConc,对get|gets|got|getting在SECCL 2.0(即英语专业四级口语库和八级口语库)中进行检索,在四级口语库中,检索了2852个文件,779731个词。在八级口语库中,检索了916个文件,286583个词。使用BNC口语语料库对get|gets|got|gotten|getting进行检索,共检索了9963663个词。
三、研究结果与讨论
1.英语专业学生get的使用频率情况
在SECCL的四级口语语料库中,get出现的频数是5572,按百万词频计,为7146次。在八级口语库中,其出现的频数是537,按百万词频计,为1873次。在BNC语料库的检索中发现:在口语、小说、杂志、报纸、学术文章、非学术文章、以及其他各种用法中,get在口语中使用的频率最高,其出现的频数是95511,按百万词频计,为9586次。表1是三个口语语料库中一百万词中get出现的频率。
表1是对英语专业学生与英语母语者get口语中使用频率卡方检验的结果,表明了英语专业学生四级和八级口语测试中,get的用法与英语母语者都存在显著差异(P
2.中国英语专业学生与母语者get的使用情况对比
孤立地看待语言中的词有着显而易见的不足,这是语言学界广为接受的看法(梁茂成,2010)。要了解中国英语专业学生与母语者get的用法存在的具体差异,就必须对get在两个语料库中的用法进行更加深入的研究。
(1)get的搭配情况对比
Firth认为,搭配是词语之间的“结伴关系”。研究词语的搭配对提高语言教学具有十分重要的意义(梁茂成,2010)。我们在SECCL和BNC语料库中,对比了get左右两边出现频数较高的搭配词,具体如下:
从表2中可以看到,在四、八级口语测试中,中国英语专业学生get的常用搭配词没有太大的差异,但总体与母语者差异较大。从统计频数可以看到中国学生get的用法主要就集中在表2中的几种搭配上,用法比较单一,而母语者get的用法则多种多样。这可能与学生get一词用法掌握不够全面有很大关系,尤其是对get的口语用法不够熟悉所致。另外,从表中,我们可以看到母语者在get的左边用了中国学生口语中从未见到的词“nae”“ta”。母语者虽然会用“nae”,但频率不高。但母语者在get右边常用“ta”,其出现的频数是3483,百万词中出现4.61次。说明此用法使用得比较普遍,常见用法如“it’s got ta come today…”,“and you’ve still got ta pay…”等。但中国英语专业学生也未见到如此用法。如果在母语者中常见的用法而英语专业学生几乎不用,那有可能我们的学生无法理解这种用法或讲出一口地道的英语。因此,一方面,我们应该研究词汇教学内容,要让学生全面了解词汇的意思、主要用法、文化内涵等。另一方面,我们还应该重视词汇在书面语和口语中的用法区别,尤其口语中高频词常见用法的教学不可忽视。
(2)get的主要用法对比
为了深入了解中国学生get在口语中的使用情况,本文调查了三个语料库中get的四类结构(Ringbom 1998),即:“get+N”“get+Adj/PP”“get+Adv”“get+to do”的使用情况。
从表3可以看到英语专业四级、八级测试中,学生用得最多的结构是“get+N”,其次是“get+Adv”,使用最少的是“get+to do”。而英语母语者用得最多的结构是“get+to do”,其次是“get+Adj/PP”,再次才是“get+N”。卡方检验结果表明四级学生与母语者在“get+N”这一结构的使用上没有显著差异(P=0.308,P>0.05),其他的结构都有显著差异(P
四、结论
从上述分析结果可以看到,口语get与写作中get的用法存在很大差异。在写作中中国大学生过多使用动词get,并且过多使用get+宾语结构。而在口语中,中国英语专业学生get使用不足,同时get+宾语结构与母语者在使用频率上没有太大的差异,而其它结构存在显著差异。
为了提高学生的口语表达能力,教师应该尽量利用现代化的技术手段,让学生多接触真实的语境,让学生在语境中学习,在语境中练习。另外,教师应该认真研究词汇教学内容,让学生全面掌握词汇的各个含义及其主要用法,不能让学生只知其一,不知其二,否则就会导致词的某些用法或结构使用过度或使用不足。这些都会影响学生的口语表达水平。总之,口语教学任重道远,需要我们不断地探索和研究,找到更加切实可行的办法。
参考文献:
[1]Ringbom,H.1998.High-frequency verbs in the ICLE Corpus[A].In A Renouf (ed).Explorations in Corpus Linguistics[C].Amsterdam:John Benjamin Publishing Company.19 1-200.
[2]王立非,张岩.大学生英语议论文中高频动词使用的语料库研究[M]外语教学与研究,2007,(2):110-116.
[3]吴志芳.高频动词GET的语料库对比研究[J].疯狂英语(教师版),2008,(3):93-97.
[4]文秋芳,王立非,梁茂成.中国学生英语口语笔语语料库[M].北京:外语教学与研究出版社,2005.
一、引言
1971年,美国FohnHunt的博士论文《形象――旅游发展的一个因素》探讨了旅游地开发中形象因素的意义,可以说是旅游地形象研究的开山之作。他认为旅游地形象是纯粹的主观概念,是人们对非居住地所持有的印象,是外界作用于人脑所形成的意识流,其中旅游地形象、可进入性、基础设施等是旅游决策过程中的关键因素。此后,旅游目的地形象的研究一直是国内外的热点。G.Echtner和B.Ritchie、H.Martin和I.Del Bosque先后总结了旅游地形象的定义,指出旅游形象的概念越来越综合化。一些学者认为形象由消费者理性与情感的表达共同构成,可分为两个部分,一是认知形象评价,即旅游者对旅游地固有的知识和观点;二是情感形象评价,指旅游者对旅游地的感受。在认知形象评价和情感形象评价的基础之上,产生一个总体或复合形象,即对旅游地的正面或负面的评价。
本文以游客网络评价为基础资料,运用内容分析法,借助ROST Content Mining软件,从认知形象、情感形象和综合形象三个维度分析游客对镇北堡影城的感知和态度。
二、研究区概况
镇北堡西部影城是国家5A级旅游景区。作家张贤亮先生以他独到的眼光、超前的思维,把一个残破不堪的羊圈,变成一个“让中国电影从这里走向世界”、“让世界认识宁夏”的最佳旅游景区。镇北堡影城利用古堡的雄浑、苍凉、悲壮、残旧、衰而不败的景象,突出了它的荒凉感、黄土味及原始化、民间化的审美内涵,让游客获得独特的旅游体验和感知。自旅游业发展以来,镇北堡西部影城的游客接待量在宁夏各个景区中名列前茅,是外来游客的必游景区。
三、研究方法和数据来源
内容分析法最早萌发于新闻界,是一种深入地剖析研究对象的内容,经过客观、系统、量化分析后,将其内容所含的本质揭示出来的一种科学方法。任何文本或者可以转换成为文本的传播内容,都可以通过一些半定量的方法进行分析和解释。何芸认为,内容分析法近年来被引入我国旅游学的研究中,主要应用于旅游相关概念、旅游目的地形象、旅游动机、游客满意度、游客心理、区域旅游发展、旅游营销、旅游研究方法、旅游安全等领域。
网络具有很强的的隐秘性,网友可以在游客留言板或点评栏自由发表其看法和建议。这种点评方式得到了许多网友的积极响应,也能听到更多的真实表达。周永广、马燕红总结了基于网络文本的内容分析法的优点,如由于匿名,意见真实可信,反映出的不足之处可供相关管理部门发现问题;自由点评内容丰富,数据量大,并可以常年调查。网络数据的缺点主要是只有经常浏览网页的游客才会留言,青年人较多,样本不够全面;另外,由于匿名,可能是当地居民、旅游从业者的褒奖之词,也有可能是对同行的恶意中伤;还存在重复留言等。本文从携程网、旅评网等旅游网站、新浪微博、百度贴吧等社交平台上以“镇北堡西部影城”为关键词进行搜索,主要搜索对象为网络评论和微博。设定年限为2008-2014,筛选时去除明显不符合实际的恶意中伤和刻意褒奖的点评,去除具有商家广告嫌疑的点评,每条点评中至少要包含两个影响游客体验感知的因素,在此筛选条件下,得到有价值评论2738条。
ROST Content Mining软件具备中文词频分析功能,可以对.txt文件进行内容分析,支持自定义词典功能,可以更加准确地进行分词,软件还可以将大量无意义的词或与研究内容无关的词放入过滤词表,以便提取与研究相关的高频特征词。本文利用该软件将搜集到的2738条网络评论进行分析。
四、镇北堡西部影城旅游感知形象分析
通过对网络点评的分析,结合高频特征词表从认知形象、情感形象和总体形象三个维度得出更为清晰的游客感知中的镇北堡影城。
(一)认知形象分析
1、游客对镇北堡影城的地理环境认知
地理环境感知是旅游形象认知中最基础的要素。通过表1分析可见,“西部”、“大西北”、“宁夏”、“银川”、“贺兰山”、“黄河”、“城堡”等词汇出现的频数较多,充分表明在游客感知中,镇北堡影城的地理形象是清晰的:它地处祖国大西北,位于黄河之滨,贺兰山麓的宁夏回族自治区首府银川市。
2、游客对镇北堡影城景区主要特色的认知
镇北堡西部影城原址为明清时代的边防城堡,1961年作家张贤亮发现了它,并在80年代初期将它介绍给影视界,迄今为止在这里已经拍摄了一百多部影视作品。游客对西部影视城得到印象普遍为影视基地,其中“中国电影从这里走向世界”一句话的出现频率多达164次,可见西部影视城的影视文化营造的较为成功。浓郁的影视文化氛围使前来游览的游客都能从中找到曾经看过电影的痕迹,并通过各种场景和道具走近电影,了解电影的拍摄过程。在游客评论中出现的频率较高的电影有《红高粱》148次,《黄河谣》73次,《新龙门客栈》46次,《大话西游》345次,《牧马人》36次。结合表1可见,体现镇北堡浓郁影视文化的高频词汇主要有“影视城”、“西部”、“电影”、“场景”、“道具”、“明星”、“好莱坞”、“周星驰”、“张艺谋”等,说明镇北堡影城在游客心目中最重要的感知印象依然是影视拍摄基地,与其想要塑造的古代北方特色小城镇尚有较大差异。
3、游客对镇北堡影城游览环境的认知
游客通常感觉气温高,阳光很晒,偶然的风沙天气也让游客领略到了典型的大西北的风格。在收集的评论中,有关天气炎热的评论有84条,例如如新浪微博网友:“一路下来,感觉不错,就是紫外线太强,都有点晒黑了呢”。有关风沙的评论有35条,例如同程旅游网网友表示“整体感觉还好,就是天气干燥,地上全是尘土,转完景区整个人都成了土人”。大部分网友认为景区环境卫生很好,来自同程旅游网评论“景区里面虽然到处都是黄土铺成的路,但是“很干净很不错”。来自同程旅游网网友表示“景区内细节很到位,工作人员随时清洁,尤其是卫生间的外部装饰与景区融为一体,内部又整洁干净,超赞”。可以看出,除天气等不可控因素外,网友对镇北堡游览环境的评价相当高,纷纷用“干净”、 “整齐”、“五星级卫生间”等溢美之词做评价。
4、游客对旅游服务的认知
关于门票的价格共有170条评论,其中有99人认为门票价格合理、很实惠,携程旅游网网友评论 “100元门票非常值,进去以后除了自己消费饮食、纪念品,基本不用在进行任何消费。景区所有设施均可体验,配有免费专业导游全程讲解。卫生间随处可见,干净整洁,十分方便。没有硬性消费,互动性强”。有71人认为门票价格偏高,与景区价值不符,希望降低门票价格。携程旅游网网友表示 “适合一帮朋友一块去耍,性价比不高,100元的门票 ” “交通”作为高频词汇出现了187次,针对经周边的交通状况,有829条正面评价,218条负面评价。通往景区的旅游专线很方便,价格合理,乘坐方便。景区停车场面积很大,能够满足高峰期的停车需求。自驾车游客普遍认为通往景区的主要交通道路路况较好,交通标志清晰明了,通过导航仪景区指示牌和地图能够很便捷的到达景区。来自同程旅游网的网友说“交通很方便,我们是自驾游去的,跟着导航很容易找到了地方,而且路也很好走”;“交通很方便,我们是自驾游,按着导航很快就找到了,门口停车场很大,不愁停车,停一天5元,还是很便宜的”。
(二)情感形象分析
筛选出来的情感形象分析高频词汇主要是形容词一类,根据表2可知,第一,游客对镇北堡影城的体验质量给出了较高的评价,“很不错”、“很方便”、“很好玩”、“值得”、“喜欢”、“开心”、“很有意思”等高频词汇充分表明游客在镇北堡游玩感到非常愉快,普遍表示很喜欢该景区。第二,镇北堡影城具有浓郁的西部特色,给游客带来的独特的审美体验,很多游客表示非常震撼。“荒凉”、“原始”、神秘”、“苍凉”、“穿越、“古朴”、“雄浑”、“粗犷”等词汇出现的频数都比较高。第三,游客的重游率和推荐率较高,很多游客表示愿意将镇北堡影城推荐给亲朋好友。高频词汇分析可见,“推荐”出现了107次,“再去”出现了60次,说明该景区给游客留下了良好的印象。
(三)综合形象分析
把分词后的游记样本导入,然后作语义网络分析,得出可视化图形(如图1 所示)。读图可见,第一,“影视城”一词在网络上辐射出的语义主要有“西北”、“银川”、“镇北堡”、“景区”“旅游”“场景”等,表明游客对该景区的基本认知,即镇北堡是具有西北特色的、以拍电影为基础的旅游区;第二“电影”“影视”两个近义词在网络上辐射出的语义主要有“中国”“走向世界”“红高粱”“经典”“荒凉”等词汇,这与镇北堡影城景区的的形象有关,体现了雄浑、苍凉的景观形象;第三“值得”一词辐射出的主要语义有“服务”“方便”“优惠” “喜欢”“很喜欢”“很开心”“很值得” “好玩” “有意思”等,表明游客对镇北堡景区的总体感知是令人非常愉快和高兴,值得游览。
五、结论和讨论
目前计算机技术日益普及,越来越多的人通过互联网搜集信息、发表言论。因为旅游产品在购买前不能试用,游客在旅行前更加关心他人评价。各类旅游网站所提供的旅游攻略、游记、游客评论、旅游博客等为旅游者相互交流提供了平台,这些评价信息内容丰富,真实、生动地反映了游客的感受。本文通过搜集游客评价,应用旅游形象相关理论,采用分词软件对镇北堡影城旅游者的感知和评价进行分析,得出以下结论:
(一)游客对镇北堡影城的地理环境、景区风貌有清晰、明确的认知,普遍对游览环境和旅游设施及服务感到非常满意。
标题,作为期刊学术论文的重要组成部分,是作者呈现给读者的第一项内容,其重要作用正如Haggan(2005)所指出的“标题之于作者就如广告之于商家。”虽然近年来已有学者对学术论文标题进行了探讨,但是以较丰富的语料为基础对比分析中外期刊英文论文标题的研究还不多见。
近年来,关于某一学科的期刊论文标题的研究已有不少。Busch分别对比了医学和语言学领域内的英语和德语标题,发现了医学领域的标题与语言学的论文标题在字数方面的差异。Anthony考察了计算机科学领域内的标题在长度、标点、介词和词频方面的特点。Haggan对文学、语言学和科技语篇中研究类论文标题的形式结构和功能进行过探讨。Soler以生物科学和社会科学领域的论文标题为语料,对研究类论文标题和述评类论文标题进行了宏观(标题长度和形式)及微观(标题的内部构成)方面的对比研究,揭示了这两类论文在跨学科和跨语体方面的差异。
国内研究热点多集中在采用定量分析的方法,分析某一学科论文标题的特点与英译。段平和顾维萍等从医学角度分析了医学论文英文标题及汉译英中的常见错误;周永模探讨了哲学和人文社会科学的论文标题汉译英的有关标准;化柏林对图书情报学类核心期刊论文标题进行了定量研究。王龙杰对美国的《化学文摘》收录的2001-2004年期间的《广西师范大学学报:自然科学版》的102篇文摘的标题与发表在学报上的原英文标题进行比较,找出学报英文标题撰写方面的不足,从编辑的角度提出了相关对策。
综上所述,国内外有关期刊学术论文标题的研究成果逐渐丰硕。但是,有关化学类标题的研究很少。鉴于现有研究中存在的不足,本研究将以美国和中国化学类核心期刊论文的英文标题为研究对象,对比中美两国学者的英文标题,集中探讨化学类学术论文英文标题的词汇特征及其语用功能,以充实现有研究。以期对中国学者撰写科技类论文的英文标题提供参考,提高英文标题的质量,更好地促进国际学术信息交流。
2.语料库构建及研究方法
基于本研究需要,新建两个化学论文英文标题语料库:美国化学论文英文标题语料库(EnglishTitlesofAmericanChemicalResearchPapers,简称ACRP)和中国化学论文英文标题语料库(EnglishTitlesofChineseChemicalResearchPapers简称CCRP)。两个语料库分别包括600个英文标题。ACRP的语料来源是美国的JournaloftheAmericanChemicalSociety,该期刊(月刊)是美国化学类杂志的龙头,总引证次数和被引次数在美国化学界雄踞第一(远远超过第二名),覆盖面、信息量均无与伦比。CCRP的语料来源是《高等学校化学研究》(ChemicalResearchinChineseUniversities)。该期刊为国内化学学科综合性学术核心期刊,在2011年底中国科学技术信息研究所公布的国内35份化学类期刊排名中排在第7位,总被引频次排在第2位,具有较高的权威性。为保证样本的可比性,两个语料库只选用研究类论文标题,剔除了书评类、文献综述以及其他体裁类型的论文标题。两个语料库中的600个标题均源于2011年发表的论文。本研究使用的文本检索工具是Antconc1.2.2.0。主要使用了以下几个功能:1)检索功能(Concordance),用来统计和查询文本中某些词或短语的出现频率;2)搭配词功能(Cluster),用来检索和分析研究所需的搭配词块的意义特征;3)词频表功能(WordList),主要检索语料库中的词汇类型、比较不同文本定词汇的使用频率等。
3.结果与数据分析
3.1高频词的对比
高频词指利用检索工具检索出来的语料库中的频数比较高的词,高频词与语体风格的关系极为密切,其在不同语体文本中频率上的差异可以作为我们判断不同文体的重要标志。通过高频词,我们可以关注语言的共性。利用AntConc中的WordList得出前20位高频词统计(表1)。
功能词分析:功能词指相对于实义词而言的虚词(如介词、冠词、连词等),是任何语体都不能缺少的部分。在两个语料库中列前20位的高频词中有9个介词,经过卡方检验,for和via不具有显著性差异或者差异不太明显,其他7个介词的出现频率具有显著性差异。其中,显著性差异最强的是of和on,其次是from和to。除了in和to之外,CCRP中其他介词的出现频率均高于ACRP语料库。并列连词and、冠词a和the的出现频率经卡方检验也均具有显著性差异。定冠词the在ACRP中的频数为212次,频率为24%,而在CCRP中的频数为25次,占总词数的3%。以中心名词structure为例,在ACRP中出现频数为31,前面使用定冠词的频率为22.6%(7次)(例1-2);而在CCRP中出现频数是40,前面使用定冠词的频率为0(例3-4)。
例1CORM-3ReactivitytowardProteins:TheCrystalStructureofaRu(II)Dicarbonyl?LysozymeComplex
例2UnderstandingtheElectronicStructureof4dMetalComplexes:FromMolecularSpinorstoL-EdgeSpectraofadi-RuCatalyst
例3StructureofMgSO4inConcentratedAqueousSolutionsbyX-RayDiffraction
例4CrystalStructureandSolutionBehaviorofaNovelEnantiopureHelicalCoordinationPolymerBasedonBinaphthyl-bisbipyridineLigand
不定冠词a在ACRP中,除了aroleof,a…study,aseriesof,amodelfor等固定词组之外,还出现在众多专业名词前,如derivate,protein,reaction,catalyst等;而在CCRP中多出现在固定词组如:aseriesof,avarietyof,atypeof,a".study,及少数专业名词如complex,sensor等前面出现。不难看出,我国化学界学者善于使用功能词of,on,from,by,and,而不习惯使用冠词。
尽管在两个语料库中介词of和连词and都具有显著性差异,但是二者都是排在最前的两个高频词,这是因为大多数标题结构都是名词短语,多达84.5%M。而以名词为中心词的名词短语基本都由of和and组成。
实义词分析:比较发现:实义词的使用,在两个语料库既有相同点也有不同点。相同点是在高频词中名词多,形容词少。ACRP中出现6个名词和2个形容词,而CCRP中有8个名词和1个形容词。
不同点是实义词凸显不同的研究焦点。对比分析可知,ACRP中的名词多是专业名词,如molecular,protein,metal等,而国内学者多使用用来表示性质、状态、特征或者研究方法等的抽象名词,如synthesis,properties,characterization,method等,也有表示动作过程的动词性抽象名词,如activity,preparation,determination等,专业名词相对较少。形容词的对比也同样明显:ACRP中的两个形容词:catalyzed具有明显的专业特征,single与其他词构成复合词如single-component,single-molecule,single¬protein等,同样体现了专业特征,而CCRP中前20位的唯一形容词novel,属于普通形容词,专业性不是那么明显。
显而易见,虽然这两份期刊都是本国化学类综合性核心期刊,但是,两个语料库中的高频实义词表明前者比后者反映了更具体、更丰富的研究焦点,体现出更强的专业性和学科属性。这与陶坚的研究结果相吻合,他认为‘‘英美科学家较多关注研究领域,如carbon,films,nanotubes等,而国内科学家似乎更为关心研究手段与过程,如synthesis,preparation,properties等。
3.2搭配词的对比
高频词分析着眼于频数,但是一个词的意义和功能往往并非单一,频数的比较也不完全可靠,必须辅以意义分析12。语料库方法在检索和分析意义方面是通过分析搭配的方法来实现的。通过搭配词,我们可以了解到某一个词在特定语料库中经常和什么词一起出现,从而了解它的意义特征,便于比较该词在另外一个语料库中的共现词情况。比较某个词在不同语料库中的不同搭配,在某种程度上说,这是一种语境分析。而且,搭配词的使用是语言流利程度的标志之一M。借助Antconc中的N~Gram功能,以最大值和最小值各为2,得出搭配词表(表2)。
结果显示,ACRP的搭配词总数为6833,而CCRP的总数为5912。利用卡方检验方法,得出卡方值,其对应的显著性水平的P值表明二者具有显著性差异。ACRP中搭配词的出现频数显著性大于CCRP,这说明国外学者更擅长运用搭配词来命名标题,从而使表达更加符合英文习惯。表3是两个语料库中列前20位的常用搭配词。对比发现:两个语料库中存在两处明显差异。
一是‘‘名词+of”和“名词+and”两个搭配词。二者在ACRP中占前20位搭配词总频数的32.1%,而在CCRP中的出现频率较高(达71.6%)。在‘‘名词+of”结构中,“synthesisof’,“propertiesof”和“characterizationof”三个结构出现的频率经过卡方值检验,均具有显著性差异,而且超多出现在CCRP中。在对‘‘名词+and”搭配词的对比中发现,国内学者使用“synthesisand”结构的频率显著地大于国外学者的使用情况。以出现频率最高的“synthesis”为例,在ACRP中synthesis作为中心名词的标题仅54个,其中“Synthesisof”作为中心名词的标题占9.3%(5个),“SynthesisandCharacterizationof,,开头的标题占7.4%(有4个),synthesis开头,不带有任何修饰词的标题占13%。其前置修饰词种类繁多,如“controlled,,“totaf,,“divergen”,“peptide”,“highlyselectiveAmmonia”等,其中专业性形容词占很大比例(57%)。但是,该词在CCRP中作为中心名词出现的标题多达140个,其中,“Synthesisof”作为中心词的标题多达35%(49个),“Synthesisandcharacterizationof”开头的标题有21.4%(30个),以synthesis开头,不带有任何修饰词的标题占75%。前面的修饰词限于“efficient”,“hydrothermal,,“convenient”,“catalytic”等少数形容词,专业形容词的比例较小,只占25.7%。其他高频中心名词如properties,characterization,analysis等也都存在类似的差异。
二是“介词+冠词”结构的出现频率在两个语料库中存在显著性差异。在ACRP中“of+a”结构多达7个,而在CCRP中仅有一个。介词of,in,for,on和by与冠词的共现率较高,以“ofthe”和“inthe”为例,在ACRP和CCRP两个语料库中,介词of在前者的出现频率少于后者,但是“ofthe”结构却截然相反,在前一个语料库中的出现频率为66次,而在后者仅3次。同样“inthe”的出现频率在美中两个语料库中也分别为25和4次。显而易见,中美学者在“介词+冠词”结构的使用方面具有显著性差异,美国学者更倾向于在标题中使用这一结构。下面两个例子体现了这一差异。
① DensityFunctionalTheoryStudyoftheMechanismsandStereochemistryoftheRh(I)-CatalyzedIntramolecular3+2]Cycloadditionsof1-Ene-and1-Yne-Vinylcyclopropanes(AmericanT)
②Primary ResearchofImmunologicalMechanismofCombinedHepatitisA-Measles-VaricellaVaccine(ChineseT)
4分析与讨论
(1)英语介词和冠词等功能词在两个自建语料库中都占很大比例,是语言共核部分。功能词是任何语体都不能缺少的部分,它们出现在高频词中和科技论文标题语体的名词特别多有一定关系。但是对比显示,这些功能词的使用是国内学者的薄弱点,其功能词的搭配呈现模式化,缺少多样性。比如,国内化学界学者们使用介词of和on偏多,而介词m和to的使用偏少。这不仅仅是化学界学者,也是大多数中国人使用英文介词的普遍倾向。以介词on为例,仅短语basedon在CCRP中占该词频数的24.3%(多达25次);而在ACRP中仅占10.8%(7次)。近年来国内期刊论文标题带有“基于…”的标题盛行,而该词相应的英文就是“basedon”;与介词on共现的名词搭配还有“effect(s)…on”,“influenceon”,“studieson”,“investigationon”,“researchon”,尤其“studieson”在CCRP中的出现频数(16次)是ACRP(4次)的4倍。“effecton”在CCRP中占该词出现频数的49.5%,在ACRP中该结构占34.5%。国内学者对部分介词搭配的过度使用可能导致另一部分介词的过少使用。
另一个明显的差异是冠词的使用,高频词对照表(表1)与搭配词对照表(表3)都显示了定冠词the使用频率的显著差异,国内学者对冠词的使用率远远低于国外学者的使用情况。一方面,为了标题的简明扼要原则,尽量减少字数,只有在inthepresenceof和theanalysis等固定搭配和极少数的专有名词前出现定冠词,其他情况则尽量不使用定冠词;另一方面,受汉语母语负迁移影响,国内学者不习惯使用定冠词,因此很多情况下对是否使用定冠词确实很困惑。不定冠词也存在类似的情况。这是国内学者尤其需要注意的地方。只有平时多注意、多积累,才能逐渐掌握冠词的使用规律。
(2) 中心名词在两个语料库中存在显著差异。从高频词及搭配词的分析中可以得出一个共同结论,CCRP中论文标题的中心名词以概况性的、比较笼统的抽象名词为主,如表示“性质、特征、研究、效果”等抽象中心名词,例如:studies,determination,application,effect/influence等。而ACRP中该类中心名词出现频率远远低于国内,更多情况是具体化的、论文最重要的关键词首居于论文标题,达到先入为主的效果。另外,结合两个语料库中总类符和标题的平均字数考虑,更清楚地看出国内化学界学者在标题的选词和长度方面都存在套用模式化结构,不能充分体现论文的研究焦点。
要避免概括性的抽象名词过多出现在句首,使用复合式标题是一个理想的选择。复合式标题在某种程度上更简洁,更能突出研究焦点。例如ACRP中的标题:OriginalDesignofanOxygen-Tolerant[NiFe]Hydrogenase:MajorEffectofaValine-to-CysteineMutationneartheActiveSite,该标题避免了“effectof…on…”结构,同时,也使得研究主题具体化。
(3) 搭配结构的差异。对名词短语搭配结构的统计发现:CCRP中论文标题的搭配结构比较单一,偏正词组式居多。在偏正词组中,单个前置修饰词情况较多。修饰形容词多为表示特征的普通形容词,专业形容词不多,尤其“中心名词+of”这样的结构出现在标题开头的频率极高,多达437个,占标题总数的44%。而ACRP中多个前置修饰词的出现频率远远高于单个前置修饰词。因此,国内学者在
中心名词的结构及前置修饰词选用方面有待调整,不能仅局限于使用概括性描述类修饰词。多个前置修饰语能够使表达更简洁、更清楚,符合标题的特征和要求,更能具体地反映研究的主题。
总之,对国内学者存在的以上问题,一个有效的解决办法就是上面提到的使用复合式标题。本研究中的两个自建语料库都有600个标题,但是复合式标题的比例却相差悬殊。ACRP中有176个(占29.3%),而CCRP仅有32个(占5.3%)。这一差异不仅导致了CCRP中介词of和on的出现频率过高,还造成了模式化的概括性抽象名词短语过多,专业名词为中心词的标题偏少。因此,作者建议使用复合式标题,该类标题既可以减少表示概括性的抽象名词作为标题的中心名词,同时还可以避免介词of与on的过度使用。例如在ACRP中的例1-2既突出了研究主题,又突出了标题的层次感,而在CCRP中像例3这样的标题则比较普遍。
① Ti-DopedLiAlH4forHydrogenStorage:Synthesis,CatalystLoadingandCyclingPerformance
② UltrathinZnSSingleCrystalNanowires:ControlledSynthesisandRoom-TemperatureFerromagnetismProperties
③ Synthesis,CrystalStructureandInsecticidalActivitiesofNovelNeonicotinoidDerivatives
例3可以稍作改动,把介词of前面的研究内容变成副标题,介词of后面的中心名词作为主标题,即:
NovelNeonicotinoidDerivatives:Synthesis,CrystalStructureandInsecticidalActivities
这样的复合式标题突出研究主题和内容,研究焦点一目了然。介词on在CCRP中的例句:
④ LuminescenceStudiesonInteractionofanIsoquinolineAlkaloidwithCalfThymusDNAinAqueousMediumandonSolidSubstrate
⑤ EffectsofHydroxyapatiteNanoparticlesonApoptosisandInvasionofHumanRenalCellCarcinoma786-0Cells
对以上两个标题稍作修改,可以避免过多使用介词on。
InteractionofanIsoquinolineAlkaloidwithCalfThymusDNAinAqueousMediumandonSolidSubstrate:LuminescenceStudies(前后两部分的语义关系为研究主题:研究方法)
ApoptosisandInvasionofHumanRenalCellCarcinoma786-0Cells:EffectsofHydroxyapatiteNanoparticles(前后两部分的语义关系为因果关系:前果后因)
复合式标题的前后两部分在语义上除了以上列举的“主题:研究方法/研究内容”之外,还有其他种种语义方面的关系,如“概括:具体’、“结果:原因,、“具体:概括”等等。
5.结语
1、进行模考,掌握做题节奏,调整做题顺序,计时完成题目,将错题进行分析记录到笔记本上。
2、寻找短时间可以提高的内容复习,比如熟记写作的模板以及固定的句式。
3、查找自己薄弱的环节加强复习,听力反复多听,掌握语感。
4、每天坚持精听和泛听相结合,泛听做题,错题静听。
5、背诵高频词汇,分析阅读的答题技巧。
(来源:文章屋网 )