HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 文本分析

文本分析

时间:2022-12-16 03:17:21

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇文本分析,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

文本分析

第1篇

关键词:《日常用品》 词汇 句子 修辞 语篇

《日常用品》塑造了代表传统文化的母亲和代表现代风格的女儿的不同形象,围绕如何理解和继承祖传的被子展开情节,反映了由种族问题引起的家庭矛盾。小说借母女冲突表达了这样一个主题:继承民族文化传统的意义在于深刻地认识理解其文化内涵,而不是浮于表面、流于形式。小说体现出作者难以释怀的黑人情结和沉重的焦虑,这也是作者自我意识的彰显。

一. 词汇方面

1.形容词层面

文中第十三段是形容词所占比例最高的一段,共138个单词,其中形容词共计13个,约占整段字数的9.4%。这些形容词都是简单词汇,其中,good一词重复使用了三次。小说采用第一人称的叙述方式,文中的“I”代表的是一位受教育程度不高的黑人母亲。基于这一点,就不难理解作者为何用词如此简单。此外,该段中主人公在对自己和自己的女儿进行描述时采用的是中性形容词,而对准女婿的描述时,她用mossy来形容他的牙齿,用earnest来形容他的脸,可见主人公对女婿持有偏见或不甚喜欢。

2.副词层面

整篇小说中副词并不多,always一词出现的频度相对很高。在对Dee进行描述时,接连用了多达4个always。Always不仅表示频率很高,还能辅助表达作者蕴含的某种特定的感彩。在此文段中always的频繁使用表达了母亲对女儿很多行为的不解甚至是反感。

二. 句子层面

1. 句子类型

《日常用品》中多为短句和简单句,少有长句、复杂句和倒装句。在母亲和女儿Dee的对话中,70%以上都是疑问句而且大部分是反问句,这些问句多由母亲向女儿发出且几乎都是由“Why don’t you”或“Don't you”引导的,语气非常强烈甚至是愤慨,带有很明显的责备和命令的意味,这可以很好地体现母亲对女儿不同价值观的否定,以及对女儿强烈的控制欲和指导欲,很好地刻画出母亲的威严形象和对女儿的殷切期盼。

2.词组类型

在不足一百个单词的第十一段中,介词词组就有七个,占单词数约30个,占到约整段的30%。其中,有四个是由with引导的作方式状语的介词词组。这些词组体现出Dee对待家人不甚关心,以自我为中心,不顾及他人感受,这也很形象地反映出她身上体现出的对黑人文化传统的反叛和对白人文化及生活的热切期盼和忘本式地追求。

三. 修辞方面

1. 明喻的大量使用

作者在整篇小说中使用了大量的明喻,其中大部分都是由like或as引导的,这也是对文章的叙述者――黑人母亲的文化程度的再次体现。在第十九段中有这样一句:“Hair is all over his head a foot long and hanging from his chin like a kinky mule tail”。这里是对Dee的男朋友的描述,说他的头满整个脑袋足足一英尺长,从他的下巴悬吊下来活像卷曲的骡子尾巴。明显,把头发比作骡子尾巴这个比方很古怪,可见母亲对女儿男友的形象并不满意。在第五段中有这样一句:“I can kill and clean a dog as mercilessly as a man”, 母亲把自己与男人作比,来凸显自己干活时的强悍和粗犷,她认为只有男人才能干那些很粗糙费劲的活儿,这体现了母亲潜意识里的性别差异观念。

2. 拟人的适当运用

拟人是指把物拟作人,使其具有人的外表、个性或情感的修辞手段。拟人可以通过形容词、动词或名词表现出来。第十三段有这样一个拟人句“Like good looks and money, quickness passed her by”.这里,赋予了长相,钱财和敏捷的思维以人的动作“pass by”,这样不仅使句子更加生动,达到诙谐幽默的效果。同时,也很好地流露出母亲对女儿Maggie心怀遗憾,在她看来,Maggie不如Dee那样迷人和聪明是因为运气不好,是老天对她不公。由此可见母亲看待事物的主观性,进一步体现了她的文化程度不高,不能客观地看待和分析事物。

四. 篇章语境方面

小说采用第一人称的叙述方式,从黑人母亲的角度展开叙述。第一人称的叙述方式不如第三人称的叙述角度那样客观,但是后者不及前者那样具有感染力。阅读过程中,读者很容易将自己主人公化,化身成为那位黑人母亲,因而能更深切地体会到黑人母亲对女儿的不解和失望,但同时又不甘于妥协,极力想改变女儿已形成的价值观。母亲和女儿之间的冲突仅仅是一个缩影,作者真正想反映的是非裔黑人在寻根文化、伤痛文化与现代白人文明的冲击与涤荡中的苦痛挣扎和文化身份认同,构拟出一幅在深沉厚重的历史文化遗产面前迷惘和抗争的画面。

参考文献:

第2篇

【关键词】绘本作品;文本分析;教学活动

【中图分类号】G610 【文献标识码】A 【文章编号】1005-6017(2013)11-0030-03

【作者简介】华希颖(1972-),女,上海人,南京晓庄学院教师,南京师范大学学前教育学博士。

在幼儿园早期阅活动中,越来越多的教师选择使用绘本进行教学。当前,有关绘本教学的研究正逐步深入,但随之产生的问题也开始浮现。在一些公开课的观摩活动中,执教者往往对绘本作品内容的阅读一带而过,而更热衷于表现作品附带的“多元发展价值”。于是,让很多教师困惑不解的是,绘本的教学有点像“美术活动”,有点像“社会活动”,甚至还有点像“科学活动”,但好像已经不是“阅读活动”了。

作为一种文学艺术样式,绘本能表现广泛的人类文化活动,它对儿童(包括成人)的确有着多元发展价值。就文学的价值和功能而言,公元前六世纪孔子提出了“兴观群怨”说,认为文学可以使人的精神感动奋发、了解社会生活、增进社会交往、怨刺上政。西方文论也认为文学可以净化、愉悦人的心灵,介入社会生活、实现精神的替代性满足等。在当代文论中,通常把文学的这些价值和功能概括为审美、认识、教育及娱乐功能。[1]儿童文学作品、包括绘本同样具备文学的这四种功能,对儿童成长和发展具有独特的意义。幼小的孩子通过阅读感到心情愉悦、身体舒适快乐、精神自由,这体现了文学的审美和娱乐功能。而当他们带着这些身心的感受去认识天地万物、生活世界,同时在潜移默化中获得发展和成长时,文学的认识和教育功能也随之实现。

因此,儿童文学的各项功能之间是相互联系、相互渗透的关系,它们以整体的方式综合发挥作用。其中,认识和教育功能的实现离不开儿童的审美感受和阅读体验。换言之,文学乃至儿童文学的认识和教育功能的达成有其特殊性,必须建立在审美或娱乐功能的基础之上。

在幼儿园教育领域,教育者的身份使得我们十分重视文学作品和绘本教育功能的实现,但是对教育功能如何实现却仍需尊重文学活动自身的规律。俄罗斯文豪列夫・托尔斯泰曾在《艺术论》中谈到,文学艺术活动通过作品唤醒读者体验过的情感,而读者可以在文学活动中用动作、线条、色彩、音响和语言传递并表达出来。[2]在幼儿园文学活动及绘本教学中,我们也可以通过对作品的阅读,激活幼儿已有的情感体验,并鼓励幼儿用语言、表情、肢体动作、声音、涂画等方式欣赏或表达自己的感受。

而在当前幼儿园绘本教学活动的设计中,一线教师存在着教育目标(功能)优先、认知目标(功能)优先的思维定势,不尊重文学活动开展的特殊规律。表现在教学活动过程中,就是忽略对绘本作品基本内容的阅读,淡化或无视幼儿的审美体验,急于实现绘本作品中附带的“多元发展价值”。 诚然,绘本作为一种重要的早期阅读材料,可以促进幼儿阅读能力的发展;作为一种课程资源,也可以引发生成主题活动,它的确具有多元价值。但是作为幼儿园语言领域的集体教学活动,教师首先应该尊重作品、尊重文学艺术活动自身的规律,以真正实现绘本对儿童的多元发展价值。

尊重作品,意味着教师带着孩子初次接触绘本时,要让幼儿充分与文本内容沟通、对话,唤醒、激发幼儿已有的审美体验,从而自然实现绘本的认识及教育功能。

对绘本教学活动的设计而言,尊重作品意味着教师在设计之前首先要把自己当成一个读者,充分理解作品内容,对文本的各个要素,如作品主题、画面特征、人物形象、语言特征、情节结构等进行深入剖析,这些文本要素的分析与教学活动的顺利开展均密切相关。在下文中,我们就来详细论述文本分析与教学的关系。

一、作品主题的分析

对绘本主题的把握决定了一个教学活动的基本方向。通过多次绘本教研我们发现,一些教学活动的严重失误往往是由于对作品主题的误读引起的,而幼儿教师文学素养的欠缺是其中的一个重要原因。我们知道,一部文学作品意义的呈现,需要读者通过文学接受过程加以具体填充和再建,而这也要求读者具备一定的文学能力和经验对文本所提供的信息进行相应的选择、填充、提炼和重组。[3]如果读者的文学能力有限,那么他们对文本的接受就会发生根本性的阻隔,作品主题的解读就会出现问题。

例如在绘本《第五个》中,作品通过五个残缺不全的玩具在一个昏暗的房间里等待看病的经历,表现了一种克服恐惧和焦虑情绪、最终战胜自己的勇气。但是如果有些教师把作品的主题误读为教育孩子看病的时候要排队,做一个遵守秩序的好孩子,那么在他们的教学活动中自然就会往道德教化的方向上走。

我们在教学研讨中还发现,不仅文学素养的高低会影响幼儿教师对作品主题的理解,一些教师还会故意无视作品所要表达的主题,随意放大或利用作品的某一段细节,而把它作为教学的重点。例如同样在绘本《第五个》中,有的教师发现作品中有“进去一个,还剩四个……进去一个,还剩三个……”的语句,就认为可以利用其进行数学活动,根本不理会作品自身想要表达的含义。

二、画面特征的分析

绘本作为一个新兴的文学艺术样式,是由图画和文字共同来完成叙事抒情、表情达意的任务的。绘本中画面前后页之间的关联及其叙事性特征,使得幼儿可以通过对画面的直接观察来理解作品故事情节的发展、人物形象的活动及审美情感的表现等。仍然以绘本《第五个》为例,其画面的基本特征是:随着人物心情的变化,作品画面的色调从昏暗转向明朗,并用环境中吊灯灯光的移动衬托作品人物的心态。画面中玩具的表情刻画细腻传神,逼真地表现了玩具们就医时恐惧不安的心理状态。那么,我们在教学过程中就可注意引导幼儿从画面色调转换及细节刻画中去观察、预测人物的情绪变化。

而在绘本《我的连衣裙》中,其最突出的艺术特征是通过朗读的音韵节奏感与画面相结合,构成音画相映成趣的节拍,使得画面呈现出奇妙的音乐性。这就要求教师在教学过程中,将朗读作品和翻书的动作配合起来,尤其那些无需发出声音的画面,静静地和幼儿一起体验音乐中休止符的美妙。

三、人物形象的分析

对人物形象的分析也会影响教师的教学进程。由于目前很多幼儿园使用的绘本是从西方国家引进的,我们会发现其中一些人物形象的塑造,例如爸爸妈妈的形象,和中国传统文化观念中的父母形象有不少差异。我国儿童文学作品中传统的勤劳、善良、甘于奉献的母亲形象,与国外众多绘本中会大叫、发脾气、赌气,有自己的乐趣和爱好的妈妈形象相差甚远。如何理解这样颇具挑战的人物形象,如何通过这些丰富、饱满、立体的圆形人物向儿童还原生活和人性的立体与真实,是值得我们每位绘本执教者深思的。

当然,在一个教学活动中,教师所要做的不仅是自己准确把握作品人物形象,更重要的是帮助幼儿感受、体会人物形象的所思所做所想。例如绘本《第五个》中受伤的小玩具们一开始沉浸在害怕与恐惧之中,但最终都凭勇气战胜了自己。那么教师可以通过自身的角色转换,适时地从教师的角色转换成作品中的玩具形象,和幼儿一起体验小玩具们紧张、害怕的情绪,并分享最终战胜自己的快乐。

四、语言风格的分析

幼儿园语言教育十分重视幼儿表达能力的培养。幼儿教师也试图通过绘本教学让幼儿想说、敢说,激发他们丰富的语言表达。然而,对于不同语言风格的绘本而言,对幼儿语言发展的目标,以及教师自身语言表达的要求也应该是不一样的。

在语文教育中,大致把语言表达的风格划分为叙事、说明、抒情、议论四种。幼儿文学作品的语言,大都具有鲜明的叙事性特征,所以教师常常注意培养幼儿描述一个故事或事件的发生、发展和结局,以帮助他们慢慢形成一种叙事的结构。在绘本教学活动中,教师通常也高度关注幼儿描述事情发生状况及过程的语言表达,并尽量鼓励幼儿用丰富而有想象力的语言进行描述。

但同时我们也应该看到,有些绘本的语言风格以说明性的表达方式为主,常表现一些有趣的自然科学现象或社会生活现象,如《昆虫躲猫猫》《小痂》等。那么,教师自身在教学活动中的语言特点就应进行转换,以简洁、准确、清晰的语言表达为主,对幼儿语言能力的培养也不宜过多鼓励表达的丰富性和想象力。而在一些长于抒情的儿童散文、诗歌类绘本中,教师在教学过程中也需注意自身语言表达的艺术感染力,以契合作品特有的语言艺术风格。

此外,当绘本作品的内容可以激发幼儿表达自己的观点时,教师要放下心中固有标准答案的束缚,鼓励幼儿用议论性的表达方式去质疑、反思作品的内容,让孩子们想说、敢说。同时,教师自己也可以作为读者参与其中,发表自己的观点和见解,以激发儿童更深入的议论和讨论。

五、情节结构的分析

对故事性作品情节结构的分析,深深影响着绘本教学活动的具体实施过程。还是以《第五个》为例,这个绘本中故事情节的发展和推进式以人物心理变化为线索,作品中小玩具们波动起伏的情绪变化推动着情节的发展。那么,教师在教学活动实施的现场就可以通过营造人物形象情绪起伏变化的心理氛围,来推动整个教学活动的进程。

有些绘本的情节结构复杂,有多条叙事线索,那么教师有时就要舍得放弃一些叙事情节,在一次活动中以一条叙事线索为主展开教学活动。典型的案例是《我砍倒了一棵山樱花》的教学活动。由于作者同时在作品中叙述了和童年伙伴在乡村山野的游戏、砍倒山樱花树的来由、童年禁忌、山民捕猎等多条线索,教师就不必急于在一次教学活动中把作品所有的内容都传递给孩子,以免使幼儿产生杂乱纷呈的阅读体验。而且,作品中消极灰暗的叙事情节(如山民猎杀野生动物)也不宜向孩子充分展示。

总之,当教师拿到一个绘本时,先不要急于进行活动设计,首先应把自己当成一个读者,对作品文本所呈现出来的主题、画面特征、人物形象、语言风格及情节结构进行深入剖析。这是尊重作品,组织和开展绘本教学活动的前提,也是一名幼儿园语言教师的基本职业素养。

【参考文献】

[1] 童庆炳主编.文学理论教程[M].北京:高等教育出版社,2008.

第3篇

关键词:文本情感计算;情感词典;教育文本;文本分析

中图分类号:TP391 文献标志码:A 文章编号:1673-8454(2016)14-0074-05

一、情感与学习

情感(sentiment)是由非中性事物引起的并反作用于这个事物的非中性的意图和行为[1],是人类最惯常、最重要的体验。人类的认知和情感是相互影响和作用的,对两者的研究密不可分。

情感及情感信息对于学习者的学习效果有重要的影响。积极的情感可以提高学习效率,而消极的情感却可能造成学习的失败[2]。许多学习行为是从好奇心和入迷开始的,人在处于“兴趣”与“愉悦”的情感状态下,学习效率最高,学习效果最好;积极的情感促进大脑的活动性,在学习过程中表现为学习动力,从而还可以产生一系列积极情感状态,如兴趣、关注以及参与行为,它们在学习过程中都起着重要的作用。而在“乏味”与“厌倦”的情感下,学习多数则是会失败的,尤其学习的孤独感和焦虑常常影响学习者的信心[3]。消极的情感抑制大脑的机动性,在学习的过程中表现为学习的阻力,如厌倦、疲劳、无聊等都会影响学习的认知过程。

认知心理学家Simon[4]和Norman[5]认识到了情感在学习效果方面发挥着重要作用。他们发现哪怕只有很少的一点积极情绪,不仅可以让人感觉良好,而且还可以产生一种思维,这种思维会更有创造性更灵活地解决问题以及更有效更果断地做出决定。这项研究在不同年龄不同职业的人群中得到了验证。

在学习过程中,教师如果能够识别学生的情感状态,并做出相应的反馈,就可以激发其积极的情感,使学生内心产生对教师的好感、依赖和敬慕,进而产生学习热情,使其处于兴奋状态,促进学习水平的提高,从而达到最好的学习效果[6]。

网络学习具有特殊性,师生在物理空间上的分离,导致师生之间不能通过传统的表情、眼神和肢体等方式进行情感交流和反馈。教师得不到学生的情感状态信息,学生得不到教师的反馈,学生学习效果就会受到影响。因此,在网络教学系统中如何获得学习者的情感,具有重要的研究价值[7]。

网络学习环境下,获取学习者情感的技术包括语音识别、人脸表情识别、身体姿势和运动的识别等[8]。这些技术一般需要使用特殊的传感器来采集学习者数据[9][10]。当然,慕课等大规模在线学习方式中能快速直接获得学习情感信息的介质仍然是文本,如讨论区、BBS、博客、调查反馈等交流活动中的文本。这些文本情感信息反映了学习者在学习过程中的情感状态。

慕课等在线学习平台学员数量众多,讨论区产生的文本数据庞大。而人数有限的教师和助教很难实时、准确地辨别文本的情感状态,并给出恰当的反馈。因此,很有必要设计一个文本情感计算系统,它能自动或半自动地分析文本情感、筛选文本信息,帮助教师针对学习者的情感状态快速做出恰当的反馈。

二、文本情感计算

1.概念

情感计算(Affective Computing)是人工智能的一个分支领域。美国麻省理工学院Picard于1997年首先提出了“情感计算”的概念[11],并将其定义为关于情感、情感产生以及影响情感方面的计算。情感计算的目的在于使设计的系统和设备能够识别、理解和处理情感。

认知语言学认为人类能够通过语言的表达反映出认知的过程和结果,同时反映出真实的情感。既然语言能够反映出情感,那么文本也当然可以[12]。因此,从认知语言学的理论上来讲,文本中包含了一定的情感信息。

文本情感计算是情感分析领域的核心问题之一,其任务是借助计算机帮助用户快速获取、整理和分析相关文本信息,对带有情感色彩的主观性文本进行分析、处理、归纳和推理[13]。文本情感计算的研究包括极性分类(Polarity Classification)和强度计算(Intensity Classificaiton)两个方面。

2.情感极性分类

情感极性分类的工作就是判别情感的种类。情感种类的集合构成了情感模型。在多种情感模型中,OCC模型和Ekman模型被广泛使用。

Ortony、Clore和Collins于1988年提出了著名的认识评价情感模型OCC( Ortony, Clore, Collins)模型[14]。这个模型根据三类起因和事件的结果,提出了22种情感类别:高兴,幸灾乐祸,妒忌,遗憾,充满希望,害怕,快乐,悲伤,骄傲,羡慕,害羞,责备,喜欢,讨厌,自满,感激,悔恨,生气,满意,悲观,放松和失望。但是OCC模型被实际应用的情况并不多,主要是因为情感分类过于复杂。Ekman于1992年提出可以将情感分为气愤(Anger)、厌恶(Disgust)、恐惧(Fear)、愉悦(Happiness)、悲伤(Sadness)和惊讶(Surprise)六种类型[15]。这6种情感是组成所有情感的基本单位,人类的所有情感均可由这6种情感衍生而来。同时,相较OCC模型的22种类别划分,Ekman模型的情感极性维度相对较少,实际应用时相对简单。因此,我们也采用Ekman情感模型来为文本分类。

3.情感强度

情感强度计算是能够反映文本情感极性的强弱程度的一个指标,因为在每一种情感种类内,会有情感程度强弱之分。目前在文本情感计算领域,针对情感强度计算的量化问题并没有一个统一的标准。Wilson和Wiebe将情感强度标注为3个级别:低、中、高[16]。Choi和Cardie将情感强度以具体数值计算,取值范围为[0,10],数值越高,情感表达越强烈[17]。我们设定情感的强弱取值范围为区间[-18,18]。在区间[0,18],数值越大表明该情感越强烈;数值为0时,表示没有情感;在[-18,0)区间,数值负号表示情感极性相反,即为取“非”操作。例如“anger”的非为“not anger”,即为“不愤怒”。数值绝对值越大表明该情感的相反极性情感越强烈。我们规定,取非操作的情感与原有6种情感之间相互独立,不存在关联。例如,“不愤怒”不一定为“高兴”,而“高兴”一定是“不愤怒”。

4.文本情感计算的层次性

文本情感计算层次代表情感计算的研究领域和范围。根据文本信息的语法结构可以将其分成4个层次:词语、短语、句子和篇章。4个层次之间具有强烈的继承关系,词语是短语的基础,短语是句子的基础,而句子又是篇章的基础。文本情感计算的研究是由最底层的词语层次开始,逐渐过渡到篇章层次,环环相扣。

因为网络学习的文本大都较短,少于150字;文本内容一般由两三句话构成,句子层次的文本情感计算可以满足研究分析要求。又因为词语层次和短语层次是句子层次的研究基础,我们的情感分类工作集中在三个层次进行:词语、短语和句子。

词语层次是文本情感计算的基础,主要任务是发现并提取文本中带有情感色彩的词语,并且确定其情感极性和情感强度值。词语层次的工作主要围绕情感词典的构建来进行。词典中词语的数量和词语的属性直接决定了系统的性能。词语的属性是指情感极性和情感强度。为大规模的词语标识出其情感极性和强度的最原始的方法就是人工标注,虽然准确但耗时耗力。使用基于统计的有监督和无监督的机器学习方法可以实现词语情感的半自动标注。

用已有词典扩充构建词典的方法就是有监督的词典扩展方法。大部分国外的词典扩充研究都是基于WordNet(http://wordnet.princeton.edu)和 General Inquirer(http://wjh.harvard.edu/~inquirer)两种词典,而大部分国内的词典研究是基于《知网》(http://)和《同义词词林》两种词典。

Turney和Littman的无监督学习法使用一种点互信息和信息检索相结合的计算方法,来判定待定词与种子词之间的信息量。种子集合是由具有正面情感极性和具有负面情感极性的示例词构成[18]。在中文处理方面,Zhang等人利用情感标注语料中抽取的上下文模板,在未知语料中计算模板与词语之间的关系,进而判断词语的情感极性[19]。

由于名词、动词、形容词和副词等不同词性的组合能够产生不同种类的短语,短语层次的情感分析主要关注短语具有何种情感极性以及其强度如何。

句子的分析包括两种方式: 基于规则的方法和基于统计的方法。基于规则的情感计算主要依靠语法规则完成,常见的语法规则有两类:一类是通过语法分析器得到句子的语法关系树,利用语法关系树制定相关规则。另一类是使用短语模板,依据不同短语模板的组合形成规则来计算句子的情感。

Turney的研究表明英文中某些短语模式的形容词和副词携带情感信息[20]。这一重要结论推动了基于规则的研究方法的发展。宋光鹏依据Turney的结论,并在其5种短语模板的基础上进行了改进,加入了判断否定情感倾向的词和相应的语句连词。最终归纳形成了适合中文的短语模板语法规则。通过语法规则模板直接进行匹配,就能够计算出句子的情感极性和强度[21]。

基于统计的情感计算需要通过训练集找到相关特征项,使用贝叶斯分类、最大熵分类和支持向量机等统计方法计算句子情感极性。在中文方面,Fei等通过无监督机器学习算法得到短语模式,利用短语模式对文本情感极性进行分类[22]。

三、系统设计

在情感计算领域中,基于统计和基于规则的两大方法都各有所长。因此,我们以基于规则的方法为主,配合基于统计的方法,构造一个文本情感计算系统,并将之命名为“小菲”(英语单词Feeling的音译)。该系统拥有自己的情感词典,按照词语、短语和句子三个层次进行情感识别和综合计算。下面介绍这些模块。

1.情感词典建构

情感词典建构包括整合专业研究机构的词典,扩充已有词典容量和手动标注词语情感强度三项工作。词典来源包括《知网》、《中文通用情感词典》、《同义词词林扩展版》、《学生褒贬义词典》和《中文情感词汇本体库》。通过整理这些专业词典的内容,将它们融合为一部词典,包含27561词条。

扩充词典容量使用基于统计的方法完成,利用有监督的机器学习方法从《同义词林扩展版》扩展词典的褒贬词语,利用无监督的机器学习方法从网络中扩展词典的网络词语。由四名研究助理完成手动标注词语情感极性和情感强度的工作,手动共标注了8589条词语。最终将32879条词语整合到一部情感词典中,并命名为《小菲词典》。

2.系统流程

按照情感计算的发展模式,从词语级别开始,经过短语级别,最后到达句子级别,从而实现句子情感极性分类和情感强度计算的功能。

系统在情感计算之前,需要对句子做初步整理,例如删除多余的空格、逗号标点等。然后使用中科院计算所分词软件ICTCLAS(http://)对句子分词,获得构成句子的若干短语。

短语级别的主要工作是使用基于规则的方法构造短语情感模板。有一些短语能够携带情感信息,可以构造为短语情感模板。

副词对词语也有修饰作用,会导致情感强度和情感极性发生变化。所以将副词分为程度副词和否定副词两类进行处理。程度副词不改变情感极性,而是影响情感强度。否定副词既改变情感极性,又影响情感强度。

当句子长度较短的时候,语法省略现象严重,不宜使用过于复杂的判断模型。直接使用词语、短语匹配的方法计算情感反而较为准确。对于较长的句子,就使用简单句的情感计算模型和句子关系模型来计算句子的情感。

句子包括复合句和简单句。复合句是由简单句和关系连词构成,不同的关系连词构成了不同的句子关系类型,如“并列”、“转折”和“递进”等关系。不同的句子关系类型情感的计算方法也不尽相同。比如转折关系,句子的主要情感是靠转折词之后的简单句表达。因此,句子级别的情感计算,首先判断该句子是否是复合句。如果是的话,就找出其中的连词,根据连词确定句子关系,根据该关系和简单句的情感计算结果确定复合句的情感极性和强度值。

简单句的情感计算是使用语法分析器Stanford Parser(http://nlp.stanford.edu/software/lex-parser.shtml)来分析分词之后的句子,得到句子各个成分,也就是短语。然后根据短语情感模板和短语之间的组合方式确定简单句的情感计算模型。

3.编程语言

系统使用JAVA、Mysql、ICTCLAS和Stanford Parser等开源环境和工具构建。JAVA语言是通用的编程语言,不受操作系统的限制,与其他各类系统的接口支持都很完善。因此,本系统使用JAVA语言实现文本情感计算模型和各系统之间的数据交换处理。Mysql是一个关系型数据库管理器,情感词典和句子类型等表格都保存在Mysql数据库中,通过JAVA语言进行调用。ICTCLAS是中科院提供的支持JAVA调用的分析系统。为更好地识别情感词和句子关联词,我们扩展了ICTCLAS的自定义词典,将《副词词典》、《小菲词典》和句子关系类型导入到ICTCLAS的自定义词典中。Stanford Parser是依存语法关系分析器,输入的数据是经过分词后的简单句,输出的结果是简单句的依存语法关系数据。它本身是用Java语言实现的,方便调用。

四、在教育领域文本情感分析的初步尝试

关于文本分析的性能,有一系列评测指标,包括查准率P(Precision)、召回率R(Recall)和F值等。

P为查准率,是衡量某一检索系统的信号噪声比的一种指标,即检出的正确数据数目与检出的全部数据数目的百分比。R为召回率,是检索系统从数据集中检出的正确数据数目和数据集中所有正确数据数目的比率。

F值是查准率和召回率的加权几何平均值,是情感计算系统最重要的评测指标之一。F值计算方法如下:

F=

为测试该系统的性能,我们选取了一个小样本的文本,以便既可以人工标注,又可以让系统自动识别,并比较两者的结果。2013年北京大学“新媒体与教育”暑期学校创新教学模式,使用慕课的方式展开学习[23]。在课程结束时,通过MOOC平台收集了学员对本次暑期学校的反馈和建议,共377条,其中来自面授学员的201条,来自在线学习学员的176条。我们先人工标注了这些反馈的情感极性和强度,然后使用“小菲”系统进行了自动计算;测评结果算得F=88.7%,在文本情感分析领域属于较好的结果。

五、在教育领域的应用前景

尽管本系统在小样本的教育文本情感计算测试中结果很好,但是它仍然存在一些缺陷,需要进一步完善提高:目前的三万多条情感词还不能完全覆盖浩瀚的中文词语,应该持续添加新词,比如新出现的网络语言,改善ICTCLAS分词结果,增加关于世界的常识性知识,等等。

随着人工智能技术的发展,文本情感计算技术逐步成熟,可以广泛应用于慕课等在线教育的多种文本交互区域的情感分析,如讨论区、调查反馈、聊天室、BBS等。可以实时监控参与者的情感变化,及早发现学生反映的问题并及时给予恰当的反馈;也可以用于事后分析学生在学习活动和过程中的情感变化,因材施教,实施个性化教学。这也必然减少教师和助教的大量宝贵时间和精力,提高在线学习的教学效率。我们将在这些方面继续探索,深入研究。

参考文献:

[1]杨巍峰.对情绪情感定义的管见――兼与杨泽民同志商榷[J].心理学探新, 1986 (3): 35-39.

[2]卢家嵋.情感教学心理学[M].上海:上海教育出版社, 2000.

[3]A.C.Graesser, B.Medaniel, P.Chipma,ect.Detetion of Emotions during learning with AutoTutor [R]. Department of Psychology, 2006: 285-290.

[4]H.Simon.Motivational and emotional controls of cognition:in Models of Thought[M]. New Haven:Yale University Press,1967.

[5]D.Norman.Twelve issues for cognitive science[A].In Norman DA(Ed): Perspectives on cognitive seience[C]. Erlbaum, Hillsdale, NJ. 1981.

[6]R.W.Picard, S.Papert,ect. Affective leaming- a manifesto[J].BT Technology Joumal, 2004, 22(4): 253-269.

[7]唐伟志,贾云.远程教育中情感缺失问题的对策研究[J].甘肃广播电视大学学报, 2012 (2): 1-4.

[8]J.Tao,T.Tan and R.W.Picard.Affective Computing: A Review[A].LNCS3784. German: Springer-Verlag Berlin/Heidelberg[C], 981~995. 2005.

[9]傅小兰.电子学习中的情感计算[J].计算机教育, 2004 (12): 27-30.

[10]付彦飞,牛秦洲,阈小梅.基于情感计算的个性化E-Learning系统的研究[J].微计算机信息, 2010 (36): 241-244.

[11]R. Picard. Affective Computing[M]. Cambridge: MIT Press,1997.

[12]陈文萃.从认知看情感表达的隐喻概念[J].南华大学学报,2009(9): 112-142.

[13]B.Pang,L.Lee.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008(1-2):1-135.

[14]A.Ortony,G.Clore,A.Collins.The Cognitive Structure of Emotions[M]. Cambridge: Cambridge University Press,1988.

[15]P. Ekman. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3-4):169-200.

[16]T.Wilson,J.Wiebe.Annotating Opinions in the World Press[A].In: Proceedings of the 4th ACLSIGdial Workshop on Discourse and Dialogue (SIGdial’2003) [C]. 13-22, 2003.

[17]Choi, Y., and Cardie, C. Learning with Compositional Semantics as Structural Inferencefor Subsentential Sentiment Analysis [A]. In Proceedings of the Conference on Empirical Methods in Natural Language Processing[C]. pp. 793C801. 2008.

[18]P.D.Turney and M.L.Littman.Measuring praise and criticism: Inference ofsemantic orientation from association[J].ACM Transactions on Information Systems,2003 (4):315-346.

[19]C.Zhang,W.Zuo,T. Peng, F.He.Sentiment Classification of Chinese Reviews Using Machine Learning Methods Based on String Kernel[A].Third International Conference on Convergence and Hybrid Information Technology[C]. 2008.

[20]Turney, P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[DB/OL]. http:///abs/cs/0212032.

[21]宋光鹏.文本的情感倾向分析研究[D].北京:北京邮电大学,2008.

第4篇

[关键词]飓风营救;吕克・贝松,叙事学,世俗神话;叙事动机

一、文本“当代世俗镜像神话”特性研究

叙事结构分析差不多可以追溯到弗拉迪米儿・普罗普的著作《俄罗斯童话形态学》。他列出一项包含31种功能的序列公式,并考虑到任何一种变化的可能性,以涵括他所研究的全体的童话结构。利用普罗普的叙事单元与功能序列可以印证《飓风营救》的当代世俗神话特性:

1 准备单元

影片开始,我们看到斑驳画面中一个小女孩在过生日,镜头猛然切回现实,主人公布莱恩出场,刚从梦中被惊醒的样子。主人公离开沙发,特写立在桌子上的照片:一个十七八岁的女孩。这样的画面语言,给叙事埋下伏笔,让我们感觉主人公形单影只地独居在单身寓所。而产生疑问:他的家人呢?在随后女儿肯姆的生日party上,我们得知他的前妻已经带着女儿改嫁了一位富豪。第二重疑问产生:为什么他的家人会离开他?朋友寻求布莱恩的帮助,引出他退役前的职业性质:美国国家安全部门的特工。但为了弥补对女儿亏欠的父爱,他毅然辞去了这份危险系数大的工作。肯姆和朋友去巴黎游玩,需要布莱恩的签字许可。布莱恩担心她的安全。

2 纠纷单元

肯姆来到巴黎,被黑帮团伙拐卖,向布莱恩求救。肯姆借助特工同伴的帮助,查到这是一伙以贩毒与组织为主的犯罪集团。为了营救女儿,布莱恩只身前往巴黎。

这样的剧情设置,环环相扣的情节发展,更吸引了大部分喜爱剧情功夫片的固定受众。

二、文本“核心二项对立式”人物分析

格雷马斯意义矩阵中的核心二项对立式:正义(A)与邪恶(B),其相关的对立项,便是非正义(-A)与非邪恶(-B)。将这两组二项对立作为一个四方形的四个端点予以排列,便可以根据《飓风营救》的剧情建立起它的意义矩阵。

这里有一个起关键作用的元素:被拯救的主体(肯姆以及其他被拐卖的妇女)。他们相互之间存在的关联。促使整个影片剧情的发展与结构的延宕。显而易见,片中存在最为突出的对抗性二项式,便是布莱恩与整个黑帮团伙之间的矛盾。这个近似于美国传统电影套路中的灵魂便是:一个英雄的拯救主题。找出这个最主要的二项对立式,我们可以再更细致的分析其余二项对立式在结构电影过程的作用。在影片中,正义与非正义的力量是一对相互依赖的矛盾对抗体,当布莱恩失去了黑帮集团派出的托儿彼特,他在巴黎寻找女儿线索也就此中断。主体的行动遭遇阻断,这时出现了布莱思的老朋友简,曾经也是特工出身的简现在已经就职于法国国家安全局。布莱恩希望借助他的力量找出犯罪团伙的聚集地。简本能上拒绝帮助主体的拯救行动,客观上却又为布莱恩提供相对有利的信息。而作为官方的力量,简却利用职能之便,收取黑帮团伙高额的保护费,对他们的非法行径给予了一定意义上的庇护。

人物关系错综复杂与情感纠葛,以及每个人物表层和深层人格的乖悖,使得剧情在人物关系发展的线索上层层推进。

三、文本“多重功能序列意义单元叠加”(复合类型)研究

《飓风营救》的文本结构是两个功能序列的重合。如果我们参照格雷马斯关于叙事意义的基本单元:契约、考验、移置等来考察与以上相类似双重叙事功能序列,我们会发现这同时是不同功能序列中意义单元的叠加。

1 契约

细致分析《飓风营救*的文本,可以看到其中存在的双重契约关系:布莱思与前妻、女儿之间的契约。剧情中有一场需要生父布莱恩签字,女儿才可以出国巡游的戏份,是布莱恩与女儿肯姆之间冲突最为激烈的一次,也为营救埋下了伏笔。第二重契约。是法国安全局简和布莱恩之间的隐性契约,在片中,简为布莱恩提供了有关拐卖组织的讯息后,提醒他“别惹出太大的乱子”并派人暗中监视,而当布莱恩在搜寻过程中杀了人后,简和布莱恩之间的契约关系也随之宣告结束。简开始成为布莱思营救过程中的阻力之一。

2 考验

影片所呈现的首先是对父女亲情的考验,包含着生父与后父两方面的考验。可以看出,在对于女儿肯姆的安全以及教育培养方面,两个父亲之间没有任何的矛盾,他们都是强烈的爱着女儿。其次,有对朋友之情的考验,一方面是美国境内的特工同伴,积极帮助布莱恩获取肯姆的信息。另一方面,身在法国安全部门的前特工同伴简,处处阻挠布莱恩的营救行动,却也在不得已中为布莱恩提供了相关信息。

3 移置

第5篇

1 需求分析 

这里需要一种可以运行在云端的文本分类软件,软件主要运行在安卓客户端和云端服务器之间。要求软件使用最小数据量实现最大程度的云端数据整合和文本分析准确率。 

1.1 流程分析 

本文需求并不要求更智能化的识别方式,而是通过语义分析法,通过对特殊关键词和关键词组合的方式进行识别得到文本分类结果。本文的研究内容主要用于识别和分析500字符之内的自然文本。这部分自然文本主要应用在对网络页面文本进行分析,同时用于对捕捉到的超文本标识代码进行内容文本和代码段的识别,业务流程图如图1所示。 

1.2 模块分析 

传统语义分析算法来自人工输入的特定文本之间的判断,一般语义分析算法只能识别80~120个关键词[5]。但此种规模的识别字典完全不能适应本文要求对自然文本的识别,所以本文采用三层识别方法见图2。 

P1.1:根据固定关键词,识别超文本标识语言中的标识段数据,并将其剔除。 

P1.2:根据自学习关键词,识别自然文本中的关键词,根据词频和关联度进行价值估计。 

P1.3:根据自学习关键词,识别自然文本的含义,评估不同文本段之间的相似度,对文本段进行归纳整理。 

而本软件的自学习部分(P2)不从传统的人工智能算法中得到关键词字典,而是采用语义分析中常用的联系算法进行关键词管理[6]。自学习部分放在云端服务器上,自学习结果采用软件更新的方式发送到客户端。自学习产生的流量来自服务器与互联网之间的联系,并不占用GPRS通道。 

软件的移动端部分(P3)通过相对固定的关键词字典集合,根据实际分析得到的数据匹配结果进行远端比较,但大部分数据需要提交到P1模块进行局端比较。在移动端形成比较字符串后,可以较大程度地实现GPRS链路的数据最小化。 

1.3 数据流分析 

P1模块输入数据D1.1为P1.1的关键词字典数据,该数据以数据库表的形式保存在数据库中,形成表dataPinSOL。该数据主要用于辅助识别字段中的无信息量字符串,如超文本标识语言中的标识字符串等。 

P1模块输入数据D1.2为P1.2的关键词字典数据,该字典数据来自自然文本中经常出现的字符串,以及用户易搜索的字符串。这部分字符串来自对海量信息的比较,海量信息来自互联网遍历捕捉文本和搜索引擎的采集文本。 

P1模块输入数据D1.3为P1.3的关键词字典数据,该字典数据来自对D1.2数据进行进一步挖掘得到的与D1.2数据经常合并出现的字典数据。这部分字典数据同样来自语义分析的分析法。 

因为本文算法不采用无限递归法[7],而是采用了三层计算的架构,而将语义分析段代码用于多层不限制递归。所以P1模块的数据流相对简单。P1模块的输出数据流为DL1,定义为比较结果字符串。该字符串作为搜索引擎对语义识别的结果字符串,不具备人脑识别的功能,但可以在计算机论文中给自然语言提供镜像,可以让较为模糊的自然语言在计算机中得到识别和模糊对比。 

P2有两个输入量,P2.1来自合作搜索引擎的搜索字符串数据,该数据运行在光纤数据干线上,数据量较大,不会在GPRS链路中出现。此部分合作搜索引擎的数据采集内容主要包括搜索字符串,搜索时间,发生IP,发生IP地域,捆绑账号等。P2.2来自网络随机遍历采集的各种超文本,这些超文本数据采用单字段采集和多关键词分析的方式进行挖掘,所以数据结构较为简单。 

2 算法设计 

因为篇幅限制,本文仅讨论和展示部分核心代码和算法的设计,较复杂的算法过程不再给出伪码。P1.1是超文本对比算法,超文本对比算法使用了最经典的语义分析算法。而P1.2和P1.3采用的算法是在经典的语义分析算法的基础上做的扩增[8],这部分扩增可以让语义分析算法更加适用于自然语言下的文本分类。 

本文算法的最主要成果是使用最小的CPU和RAM资源,对自然语言文本进行比较,从而获得更高效的适应当前互联网云服务市场的软件[9]。 

2.1 超文本对比函数算法(P1.1局部) 

读字典数据表,做对比循环函数。 

对比循环函数伪码如下: 

OPEN TABLE DICT 

DO WHILE DICT NOT EOF 

GET DIG_DICT RECORDSET FORM DICT 

OPEN TEXTFILE 

GET L_DIG_DICT LENTH DIG_DICT 

FOR I 0 TO LENTH TEXTFILE 

GET T_TEXTFILE MIDDLE TEXTFILE I L_DIG_DICT

GET SUMSHOW COMPARE DIG_DICT T_TEXTFILE 

NEXT I 

LOOP 

RETURN SUMSHOW 

2.2 数据逻辑网络的实现(P1.2局部) 

数据逻辑网络主要是在数据库中使用数据结构实现数据的逻辑网络,每个数据都有若干个上级数据和若干个下级数据[10]。每个单个数据一般不超过15个汉字(32字符)。上级数据和下级数据使用专用字段存储,每个字段使用二维数组的方式进行管理。二维数组包括目标字符串(32字符),响应频率,最后响应时间3项。 

为了充分调动数据逻辑网络,采用了全新的遍历算法,对每个记录下的两个二维数组字段进行分别遍历,以对文章内容进行逐一比较和计算。在比较中同时记录其他词语的词频,进一步对两个二维数组字段进行维护和更新。因为篇幅限制,只在本文模型下进行设计分析。 

2.3 文本相似度评估算法(P1.3局部) 

本文采用的文本相似度评估算法分为两段: 

第一段对输入文本进行比较评估,对字典中每个关键词进行词频分析,同时对关键词出现的位置进行[t]检验和[χ2]检验,将结果使用Minmax处理为(0,1)值域。将每个处理结果进行汇总制表。与此同时,将输入文本与每个关键词的关联词进行词频分析,同时对关键词的关联词位置进行[t]检验和[χ2]检验,将结果同样使用Minmax处理为(0,1)值域。Minmax结果设计为小数点后12位小数。将每个处理结果进行汇总制表。 

第二段将第一段中形成的两个数据表与系统中存储的数据表进行[t]检验和[χ2]检验,获取检验结果的[P]值。当[P<]0.05时,认为两篇文章具有相似度,且[P]值越小,文章的相似度越高。本文算法经过检验,完全相同的两篇自然语言文章输入系统后,两篇文章的[P]值接近于0,表示本文算法拥有较高的识别性。 

3 结 语 

本文就基于语义分析在计算机技术文本分类中的应用进行了软件工程分析和设计,在面向对象的设计模型中,本文实现了不使用任何神经网络递归算法就可以得到高效率的软件系统。这个算法系统可以在移动互联网设备中得到较广泛的应用。 

参考文献 

第6篇

关键词:博物馆牌示解说;规范表述;布局;文体;语言

中图分类号:H315.9

1.引言

本文将从牌示解说的布局格式、文体、语言使用特点等方面,以西安陕西历史博物馆为例,分析博物馆旅游景点牌示解说的译文现状以及规范表述。

2. 博物馆牌示解说的规范表述

2.1制作布局格式

西安陕西历史博物馆是一座大型现代化国家级博物馆。馆藏文物达37万余件,被誉为“古都明珠,华夏宝库”。主题为《陕西古代文明》的基本陈列馆集中展示了陕西古代文明孕育、产生、发展的过程及其对中华文明的奉献。展览分三个展厅,采用年代分类的方式陈列。馆内中英文牌示解说系统主要包括景点全貌解说和具体实物解说。通过比对国际通用牌示解说惯例——景点全貌解说的牌示系统多包括标题、全景图和内容介绍;具体实物牌示解说系统多包括实物名称和与实物相关的内容介绍——发现该馆内

①全貌解说的牌示系统普遍缺失配备简短文字标注的全景图。冗长的文字介绍不能满足海内外游客清晰、直观获取有用信息的目的,从而,牌示解说的服务功能、使用功能被大大削弱。

②具体实物的牌示解说仅仅提供了出土文物的实物名称和年代。例如,一则先周时期出土文物的中英文牌示解说为:凤柱斝(jiǎ)商代晚期(公元前13世纪——前11世纪)岐山县贺家村一号墓 Jia with Phoenix Pillar Late Shang Dynasty (13th -11th Century B.C.) Excavated from No. 1 tomb, Hejia village, Qishan County. 这里的牌示解说并没有把“斝”作为盛行于商晚期至西周中期的盛酒器或礼器的文化内涵解读出来,不能明示它在历史中的作用。缺少与实物相关内容介绍的牌示解说比比皆是。

2.2文体要求

在文体上,牌示解说应归类于说明文范畴。因此英文牌示解说的语言使用,也应符合英语说明文的要求。英语说明文在句法上,通常会“使用很多有be 作系动词的句子;会使用关系短语以及表示方位和方位移动的介词和副词词组;会经常使用there is/ there are 的句式,以及在描述形状、大小、颜色和数量时说明文里多运用形容词,” (2006,王,吕)等等。在涉及到制作步骤的说明文时,英语说明文还更多地使用被动语态和祈使句。

作为全国首批“AAAA”级旅游景点,西安陕西历史博物馆内的英文牌示解说在文体使用上力求规范,意图实现牌示解说的教育功能:

例:原文/译文:金饼也称饼金。共219枚,每枚重227.6—254.4克。总重量54116.1克,是迄今汉代金饼出土数量最多的一次。绝大多数有戳记、戳印,部分兼有文字、符号等刻铭。非流通货币,主要用于赏赐和馈赠。Gold Discs are also called Cake-shaped Gold. Altogether 219 discs, each weighs 227.6-254.4g, were excavated from a hoard, their numbers are the biggest among the unearthed gold discs of Han dynasty. Most of them bear characters, marks, or stamps or impressions. They were not the circulating currency, and were mainly used as rewards and gifts.

在这则关于出土文物金饼的英文解说中,首先,被动语态大量在文中使用,如,…are also called…,…were excavated from…,…were mainly used as…。,其次,系动词be也被使用,如,…are the biggest…,…were not the circulating currency…。此外,简单句和并列句扩展了内容,容纳了更多的信息。

2.3语言特点

博物馆旅游景点牌示解说的汉英文本语言特点不尽相同。汉语表达的辞藻华丽和英语表达的直观简洁构成了鲜明的对比。这是由不同民族文化背景、价值观以及思维方式决定的。因此,在旅游景点牌示解说词的构成方面,要充分考虑牌示解说的阅读对象,从而更好地选择恰当的词汇、句法和语体表现风格。试举例如下,并分析其语言特点。

第7篇

关键词:文本分类 贝叶斯技术 TF-IDF

中图分类号:TP391 文献标识码:A 文章编号:1003-9082 (2013) 11-0011-02

文本分类是信息处理领域中重要的研究方向之一,其属于有指导的机器学习,它广泛应用于信息自动检索、文本过滤和网页层次分类领域

[1]。目前,数量巨大的训练样本和过高的向量维数是文本分类的两大难点。本文通过分析藏文的特征,根据藏文特点和藏语语法结构,研究藏文文本分类相关技术。

一、向量空间模型的建立

1.特征向量

文本分类之前应将藏文文本转换为易被计算机理解的形式,即分词。再通过特征选择实现降维,特征加权提高分类准确度。

2.特征选择

特征选择是从最初的n 个特征中选取t ( t

本文给出一个判别方法,如果某特征词满足条件( 2) 式,即将该特征归为平凡词,并予以删除。(2)

方程(2)表示某特征词在每个类别中出现该词的文档频度计数与所有出现的类别中出现该词的文档频度计数总数的比例小于等于阈值

的话,就将该特征词作为平凡词。在实验中, 使用条件( 2) 逆反条件来进行判断, 即只要该特征词在某个类别中出现该词的文档频度总数大于阈值的话, 就可以将该词作为次关键词予以保留。

3.特征权重

在文本向量空间表示中,每个特征项有一个权值,文本特征的权重反映该特征词对标识文本内容的贡献度和区分文本的能力。在藏文文本向量空间模型中,藏文文本特征项的权值计算一般采用公式:(3)其中,个藏文文本特征的藏文文本数。

为了减少藏文文本长度的不同对藏文文本相似度计算的影响,通常要将每个向量归一化到单位向量,最后得到的藏文文本特征项的权值计算公式如下:(4)

本文的语料库来自互联网藏文网站的600个文档集, 其中包括6个类别,分别是:政治、经济、宗教民俗、卫生医疗、教育、生态环境,每个类别是由100个文档构成。本文在matlab中进行实验,采用查准率(Priecision)和查全率( Reicall )作为评估方法:

TP表示测试文档集中本来属于类别iC而且分类器分类到类别的iC文档数, iFP表示测试文档集中本来不属于类别iC但被分类器错误分到的iC文档数, iFN表示本来应该属于类别iC但被分类器分类到其他别的类别的文档数。

由表(1)的实验数据看来,采用朴素贝叶斯方法在分类效果上比KNN算法要好, 表明本文方法在藏语语文本分类上能取得较好。

结论

本文结合朴素贝叶斯分类器对藏语文本分类进行了研究, 重点介绍了贝叶斯藏文文本分类算法中一些常用的关键技术。实验数据分析结果表明,本方法在藏文文本分类技术方面取得了较好的分类结果。

参考文献:

[1] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报.2006(9): 1848-1859.

[2] 周国强,崔荣一.基于朴素贝叶斯分类器的朝鲜语文本分类的研究[J].中文信息学报.2011年7月.第25卷,第4期:16-19

第8篇

【关键词】信息化大数据 Hadoop 文本分析

1 背景

21 世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用 DB2 BLU Acceleration,利用 DB2 BLU 速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于 Hadoop 的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。

2 中文微博数据分析逻辑

微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。

但实际上,粉丝自身的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。

如图 1,显示了整个营销分析流程的逻辑。从客户微博开始,到商家向用户商品目录和优惠信息,整个流程分为五个步骤:

(1)客户微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。

(2)获取商家的粉丝。

(3)将用户的微博进行语义分析,基于 Hadoop 的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。

(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。

(5)消费者使用消费券或根据打折信息购买相关产品。

3 方案架构

整个系统架构,如图 2 所示,主要由文本分析系统、DB2 BLU 数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结果整合后输出送入 DB2 BLU 数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用 DB2 BLU 与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户。

如图3所示,为基于 Hadoop 平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的 ID、性别、地点已经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用 JAQL 来拼接“原始标签”与分词后的标签,一起构成客户肖像表。

本文用于存储客户肖像的为 DB2 BLU Acceleration。BLU Acceleration 的架构如图4所示。

使用 DB2 BLU 具有的性能优势,采用列式存储,只对需要的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。

4 结束语

本文介绍了基于大数据的中文舆情分析系统,采用基于 Hadoop 平台的文本分析,以及 IBM Cognos无缝集成DB2 BLU 加速器的优化分析能力,提供快速的查询和分析功能。整个系统针对互联网大量的数据进行处理、文本分析,经过分析为客户定制肖像,商家可以根据肖像来向客户推送客户需要的优惠信息。经过样本数据测试,推送给用户的信息,与用户的自然标签(用户自己为自己设定的)对应性很高。在实时性、大量重复词汇的处理上面,由于中文语义分析的局限性,还有待优化和提高。

参考文献

[1]张艺帆,王永,郭辉.基于大数据的中文舆情分析[C].IBM debeloperWorks技术主题,2014.

[2]郝增勇.基于Hadoop用户行为分析系统设计与实现[D].北京交通大学,2014.

第9篇

关键词:极限学习机;稀疏自动编码器;集成学习;文本分类

1 概述

随着现代社会的发展,互联网成为了人们获取文本信息的重要手段。然而网上的信息杂乱无章,使得人们很难快速而准确的获得所需要的文本信息。因此如何有效的对文本进行分类,帮助用户找到所需的信息成为当代信息技术领域的一个重要课题[1]。

本文提出利用深度学习中的稀疏自动编码器自动选取文本的特征,然后利用极限学习机作为基分类器进行文本的分类,最后结合Adaboost集成学习方法将极限学习机作为基分类器组合成一个效果更好的分类器。实验结果表明,该算法在文本分类方面,可以有效地提高文本分类的准确性。

2 相关理论基础

2.1 稀疏自动编码器

稀疏自动编码器(sparse auto encoder,SAE)是利用人工神经网络的特点构造而成的网络。稀疏自动编码器的训练过程分为两个步:第一步是预训练,即先利用无监督的方法将SAE的输入层和隐含层全部初始化,然后再利用逐层贪心训练算法确定网络的参数。第二步是微调,其思想是整个网络视为一个整体,用有监督学习的方法优化整个网络的参数,由于SAE训练过程的复杂性,具体过程可参考文献[2]。

2.2 极限学习机

针对传统神经网络训练过程时间漫长,优化困难等缺点,新加坡南洋理工大学的黄广斌教授提出了一种全新的单隐层前馈神经网络-极限学习机(Extreme Learning Machine,ELM)[3],该网络能够以极快的学习速度达到较好的泛化性能,从而解决了传统神经网络学习速度缓慢的限制。该网络主要由输入层,隐藏层和输出层组成,其中隐藏层的神经元通过激活函数把输入的数据进行变换,然后把变换后的数据输出到输出层,在网络中输入层和隐藏层的权值是随机设置的,只有隐藏层到输出层的权值需要求解,因此加快了网络的学习速度。

2.3 Adaboost分类器

由于单个分类器通常无法满足分类任务的要求,因此需要通过集成学习来构建并结合多个分类器来完成分类任务,这其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。该算法的核心思想是先从初始训练集训练出一个基学习器,再根据基学习器的变现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续收到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直到基学习器数目达到指定的值,最终将这几个基学习器进行加权结合。Adaboost是一种迭代算法,具体训练过程可参考南京大学周志华教授编写的机器学习课本中关于Adaboost算法的章节。

3 SEA文本分类算法

在本文中,结合稀疏编码器,极限学习机与Adaboost这三种机器学习方法提出SEA文本分类算法,该算法的工作流程如图1所示。

该分类算法的第一步为输入,输入的是经过了向量化表示的文本,但没有经过任何的手工特征提取。第二步是利用SAE算法对数据的重建能力自动选择文本的特征,用SAE算法选择的文本特征可以有效地复原原始文本信息。第三步是利用ELM分类器作为该算法的基分类器,ELM作为第四步中的基分类器参与训练,最后一步是输出该文本属于哪一类。

4 实验结果与分析

4.1 实验数据集与评价指标

本文选用的分类文本数据来源于新闻数据集[5],该数据集复旦大学计算机信息与技术系李荣陆提供,数据集标注比较规范,规模适中,适合于进行文本分类的仿真实验。

在文本分类中常用的评价指标有准确率P(Precision)和召回率R(Recall),公式如下:

P=M/(M+N),R=M/(M+T)

其中,M为正确分类到该类的文本数,N为错分到该类中的文本数,T为属于该类确误分为别类的文本数。

4.2 实验结果

为验证本文提出的SEA文本分类模型,需要将文本数据集进行预处理,对于SEA模型来说,就是进行文本分词。本实验文本分词采用的是NLPIR汉语分词系统,其主要功能包括中文分词,词性标注,命名实体识别,用户字典功能等,是国内比较成熟,用户较多的中文文本分词系统。经过文本预处理后,按照本文提出的SEA文本分模型进行实验,并和几种经典的分类算法做对比。在本实验中Adaboost集成学习算法中基分类器的个数设置为10个,基分类器ELM中隐藏层的个数设置为输入层的0.75倍,稀疏自动编码器中隐藏层数设置为4,实验结果如表1和表2所示。

从表1和表2可以看出随着文本数量的增加,SEA模型的分类准确率和召回率逐渐提高,这是由于在训练数据集较小时,稀疏编码器对自动提取的文本特征变现地不是很理想,容易造成SEA分类模型产生过拟合现象,从而影响分类准确率和召回率。SVM算法在训练数据集比较小时,变现良好,这是由于在训练数据较少时,可以较容易地找到分类超平面,在数据量变大时,由于计算量的增大,使得计算量变大,导致计算得到的超平面效果不好,使得分类准确率和召回率不断下降。BP和ELM算法都随着训练数据的增大,其分类准确率和召回率在不断变大,这是由于随着训练数据的增大,BP和ELM可以更有效的提取输入数据的特征,但ELM算法相比BP算法变现得更好,这是由于BP算法可能无法收敛到最优值,导致分类算法的准确率下降。

综上所述,本文提出的SEA文本分类模型可以有效的提高文本分类的准确率和召回率,尤其是随着训练数据集的不断增大。

5 结束语

文本分类在文本处理中占据着重要的地位,其分类的好坏直接影响着后续的文本处理,如何有效地对文本分类是一个重要的研究课题。本文结合稀疏自动编码器,极限学习机与Adaboost集成学习方法提出SEA文本分类方法,实验结果表明该分类方法可以有效将文本分类过程中的特征提取和分类器结合在一起,从而提高了分类结果的准确性。

参考文献

[1]秦胜君,卢志平.稀疏自动编码器在文本分类中的应用研究[J].科学技术与工程,2013,13(31):9422-9426.

[2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.

[3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.

[4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.

第10篇

关键词:潜在狄利克雷分布( LDA);向量空间模型(VSM);文本相似度;KNN分类

DOI:10.16640/ki.37-1222/t.2016.06.192

1 引言

目前,面对着互联网上各种各样、数量繁多的新闻网页,人们不知道如何选择自己需要和喜爱的新闻。因此,人们越来越迫切地需要一个对新闻进行分类的工具,能够用来快速浏览自己需要的新闻内容。

常见的文本分类技术包括KNN算法、贝叶斯算法、支持向量机SVM算法以及基于语义网络的概念推理网算法等。KNN算法在新闻等网页文本分类中有着广泛的应用,他的思想是对于待分类的文本,通过由与该样本最接近的K个样本来判断该样本归属的类别[1]。

本文针对传统KNN算法在度量文本相似性时仅仅考虑文字层面的相似性,而未涉及语义层面。首先,对新闻文档进行VSM和LDA主题建模,结合LDA模型与VSM模型计算文档之间的相似度;其次,以复合相似度运用到基于相似度加权表决的KNN算法对新闻报道集合进行分类。

2 相关工作

2.1 向量空间模型

向量空间模型(VSM:Vector Space Model)由G.Salton、A. Wong、 C. S. Yang[2]等人于20世纪70年代提出。向量空间模型(VSM)以特征词作为文档表示的基本单位,每个文档都可以表示为一个n维空间向量:T(F1,W1;F2,W2;…;Fn,Wn),简记为T(W1,W2,…,Wn),Fi为文档的特征词,Wi为每个特征词的权重,则T(W1,W2,…,Wn)为文本T的向量表示[3]。特征词的权重值一般采用TF*IDF来计算。

向量空间模型把文本内容用n维空间向量表示,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂,但向量空间模型并没有考虑到特征词之间的语义关系,可能丢失很多有用的文本信息。

2.2 LDA主题模型

2.2.1 LDA主题模型基本思想

主题模型是统计模型的一种,用来发现在文档集合中的抽象主题。LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。首次是作为概率图模型由David Blei、Andrew Ng和 Michael Jordan于2003年提出[4],图1为LDA的概率图模型。

其中M为文档总数,K为主题个数,Nm是第m个文档的单词总数,β是每个Topic下词的多项分布的Dirichlet先验参数,α是每个文档下Topic的多项分布的Dirichlet先验参数。zm,n是第m个文档中第n个词的主题,wm,n是第m个文档中的第n个词。隐含变量θm和ψk分别表示第m个文档下的Topic分布和第k个Topic下词的分布,前者是k维(k为Topic总数)向量,后者是v维向量(v为词典中词项总数)。

2.2.2 Gibbs 抽样

Gibbs Sampling是马尔科夫链蒙特卡洛算法的一个实例。该算法每次选取概率向量的一个维度,给定其他维度的变量值采样当前维度的值,不断迭代至收敛输出待估计的参数[5]。

从2.2.1中可知,zm,n、θm和ψk变量都是未知的隐含变量,也是我们需要根据观察到的文档集合中的词来学习估计的。

学习步骤如下:

(1)应用贝叶斯统计理论中的标准方法[6],推理出有效信息P(w|T) ,确定最优主题数 T,使模型对语料库数据中的有效信息拟合达到最佳。

(2)初始时为文本中的每个词随机分配主题Z(0),统计第z个主题下的词项t的数量,以及第m篇文档下出现主题z中的词的数量。

(3)每一轮计算p(zi|z-I,d,w) 这里i=(m,n)是一个二维下标,对应于第m篇第n个词,即排除当前词的主题分配,根据其他所有词的主题分配估计当前词分配给各个主题的概率,根据这个概率分布,为该词采样一个新的主题Z(1)。同样更新下一个词的主题。直到每个文档下Topic分布θm和每个Topic下词的分布ψk收敛。

3 基于VSM和LDA模型的新闻分类

3.1 基于VSM和LDA模型的文本相似度计算

(1)对于文档di,dj,由向量空间模型(VSM)进行预处理,得到的文本的特征词向量di_VSM=(w1,w2,…,wN)和dj_VSM=( w’1,w’2,…,w’N),N为特征词个数。

3.2 基于VSM和LDA模型的新闻文本分类

本文改进的KNN算法的具体过程如下[8]:

输入:待分类新闻文本d和已知类别的新闻文本D;

输出:待分类新闻文本d的可能类别。

(1)对d和D集合进行预处理,构建其特征向量和主题向量;

(2)对d中的每个新闻文本,采用公式(3-3)计算其于D中每个新闻文本的相似度;

(3)从中选择与d相似度最大的K个文本;

(4)对于待分类文本的K个邻居,依次按公式(3-4)进行计算d隶属每个类别的权重。

W(d)= ∑ Tj(di)* Sim(d,di) (3-4)

其中,y表示d的特征向量,Tj(di)表示指示函数,指示是否是同一类别,即di是否属于Cj,若是,则值为1,否则为0。Sim(d,di)表示待分类文本与邻居di的复合相似度。

(5)比较每个类的权重,将权重最大的类别定为d的类别。转入(2)直至所有待分类文本分类完成。

4 实验结果及分析

4.1 文本分类的性能评价

评价文本分类算法的有两个指标:准确率(Precision)和召回率(Recall)。由于准确率和召回率是分别从两个不同的方面来评价分类效果,所以一般采用F_measure来评估分类效果,如公式4-1。

4.2 文本分类实验结果及分析

本实验语料采用搜狗实验室文本分类语料库,选取军事、体育、旅游、教育、娱乐、财经六个类别,每个类别下挑选200篇文章,总共1200篇,其中训练集占1/3,首先,针对不同的K值下的分类效果找出最佳的K值,然后,对传统KNN算法和基于相似度加权的KNN算法进行对比试验。传统的KNN算法的权重计算方法如公式4-2所示:

W(d)= ∑ Tj(di)* SimVSM(d,di) (SimVSM(d,di)为公式3-1所求)(4-2)

最终确定实验的参数如下:KNN的K值取20,主题数K=30,Dirichlet先验参数选取经验值α=1,β=0.01,Gibbs抽样次数设为5000; VSM和LDA模型线性结合参数λ设置为0.8,实验效果如图2所示。

从图2中可以看出,改进后的KNN分类算法在军事、体育、旅游、教育、娱乐、财经六个方面都较传统KNN分类算法好一些,因为,传统KNN算法只是单纯第从文字层面来计算两段文本之间的距离,而将VSM结合LDA模型后,既可以较完整地保留文本的信息,又可以提取语义层面的信息,这样能更精确地计算两段文本之间的相似度。

5 总结与展望

本文提出了基于VSM和LDA模型相结合的KNN分类算法,与传统KNN分类算法相比,引进了LDA模型,从而在计算两段文本之间的距离时融合了语义层面的相似度,在相似度计算方法上进行了改进,实验也验证了改进后算法的有效性。

由于当前所用的中文语料库还有待完善,本文选用的搜狗实验室文本语料库,主题数较少,使得LDA主题模型的作用不太明显,后续将考虑使用爬虫程序从各大新闻网站上选取一些语料库的来源。

参考文献:

[1]张宁.使用 KNN 算法的文本分类[J].计算机工程,2005(04).

[2]G.Salton,A.Wong,C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM: Volume 18 Issue 11,1975(11).

[3]王萌,何婷婷,姬东鸿,王晓荣.基于HowNet概念获取的中文自动文摘[J].中文信息学报,2005,19(03):87-93.

[4]Blei D M, Ng A Y, Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research, 2003(03):993-1022.

[5]赵爱华,刘培玉,郑燕.基于LDA的新闻话题子话题划分方法[J]. 小型微型计算机系统,2013(04).

[6]董婧灵,李芳,何婷婷.基于LDA模型的文本聚类研究[G].2011.

第11篇

在高中英语教学中,学生阅读能力与写作能力是教学中的两项重要内容。传统的教学模式下通常会认为读写技能的培养是相对独立、彼此分开的,很少会有教育工作者将这两种技能的教学放到一起。然而,这种观念却有失偏颇,在有效教学模式的指引下读写技能的培养能够很好的实现整合,将两种技能的训练融合到一起不仅能够让两者间实现相互促进,还能够有效地培养学生的综合语言能力。本文将以具体例证为参考,谈谈高中英语读写技能整合教学模式研究。

一、话题导入与文章阅读

在实现读写技能整合的教学时,教师首先需要做的就是把握好教学顺序与教学节奏,只有在合理的教学模式的指引下读写技能整合教学才能够更好的发挥其成效。在展开整合教学时第一个重要步骤就是话题导入与文章阅读,这是后续展开文本分析与学生写作训练的前提与基础。在展开这部分内容的教学时教师在话题的选取与导入上应当注重技巧,尽量选择那些有意义且学生感兴趣的文章,最好是读过后能够引发学生思考、并且让他们有话想说的题材。这样的文章不仅能够更好地抓住学生的视线与注意力,这样的阅读素材也能够为后续的写作训练提供更好的土壤,让读写技能整合教学能够更有效的得以实现。某次课堂上笔者和学生间就travel这个话题展开探讨,和学生们一起聊起了旅行带给人的视野与思维上的变化。学生们对于这个话题都很感兴趣,在非常融洽的课堂氛围中笔者向学生们引出了如下阅读材料:

In today’s age of fast travel, the world seems a smaller place and to some people, a less exciting place. Fifty years ago people who didn’t travel thought of other countries as very far away and different. People thought the French all eat garlic, the Italians all eat spaghetti. And the Americans all drink Coca Cola; these definite ideas of other nationalities are called stereotypes. But do we have the same stereotypes today? People travel more, we all watch the same TV programmers, and ideas travel quickly too. Nowadays everyone eats garlic and spaghetti and drinks Coca Cola. Everyone listens to the same music. Wears the same fashions, buys the same cars. They just do it in a different language!

二、读后研讨与文本分析

读写技能整合教学的step 2就是读后研讨与文本分析。这个过程不仅是对于阅读素材的进一步咀嚼回味,也能够让学生更深入的体会文意,从语句层面以及文章的主题思想角度来感受文字所传达的旨意。对上述文本展开阅读后笔者让学生都来谈谈自己读后的感受,学生都很积极的参与到探究过程中来。有的学生说到从这篇文章中他看到了到世界各地旅行后能够让人的思维更宽阔,能够了解世界上不同文化以及不同民族的生活方式;也有学生说这篇文章反应了不同国度的人们生活方式的融合,尤其是文中提到的随着信息社会的到来,不同地理位置的人和人之间所做的事情越来越相近。学生们的观点中有很多可圈可点的地方,从文章研讨中不仅能够看出学生们在读的过程中很用心并且读懂了文意,细致的文本分析也能够为后续的写作实践打下良好的契机。

三、写作实践与初稿评改

精读这篇短文并且展开较为透彻的文本分析后,学生基本都能够很准确的把握住文意,这是学生阅读能力得到良好培养的体现。读写技能整合教学的step 3便是写作实践的展开。在范文的阅读与分析结束后,笔者让学生们以travel为话题,可以从不同角度与不同方面来描述一下自己的想法与感受。

经过上述话题研讨、文章阅读以及文本分析的过程后,班上基本上所有学生对于这个话题都能够做到有话可说,不少学生的作品中都出现很多闪光的语句。经过此次英语读写技能整合教学后学生不仅在阅读文章时更为细致,文本分析中也加深了学生对于文意的领会。而这一切都为后续的写作实践的展开提供了丰盈的土壤,经过“读”后学生“写”的能力明显得到提升,读写技能整合的教学模式的优越性得到了非常直观的体现。

第12篇

摘要:通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的

>> 中文词语语义相似度计算 基于中文分词的文本相似度动态规划算法 使用概念描述的中文短文本分类算法 词汇语义相似度算法研究及应用 基于模糊相似度的RPCL文本聚类算法 一种实体描述短文本相似度计算方法 基于语义指纹的海量文本快速相似检测算法研究 语义与统计相结合的中文微博相似度计算方法 面向社区问答的中文短文本分类算法研究 一种基于WordNet语义相似度的改进算法 一种基于本体的语义相似度算法研究 中文文本相似度在商业网络中的应用 视频语义相似度网络研究 一种基于HNC理论的文本相似度算法 基于标题与文本相似度的网页正文提取算法* 英语法语单词相似或相同词源学研究 “作”和“做”的语法语义特征分析 基于句法语义特征的中文实体关系抽取 中文自由短文本信息抽取方法的研究 基于标记样本和相似度调整的k均值算法在文本聚类中的应用 常见问题解答 当前所在位置:l.

DONG Zhen-dong, DONG Qiang.Chinese information database based on CNKI[EB/OL]//heenage, com/html/dex.html.(In Chinese)

[6]The Stanford Natural Language Processing Group. The Stanford NLP[EB/OL]//http://nlp.stanford.edu/software/lex-parser.shtml.

[7]ISLAM A, INKPEN D. Semantic text similarity using corpus-based word similarity and string similarity[R]. Ottawa:University of Ottawa,2008.

[8]LI Y H, MCLEAN D, BANDAR Z A, et al. Sentence similarity based on semantic nets and corpus statistics[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(8):1138-1150.

[9]刘群,李素建. 基于《知网》的词汇语义相似度计算[C]//第三届语义学研讨会论文集. 台北:台北中央研究院,2002: 149-163.

LIU Qun, LI Su-jian. How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings. Taipei: Academia Sinica, 2002: 149-16. (In Chinese)