时间:2023-02-01 01:35:12
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇聚类分析论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
1.1城郊农户此种类型的农户主要是对其生活、农业种植、畜禽养殖、乡村旅游进行污染区分。①污染源区分:农家乐是目前乡村旅游的重要形式,其污染源包括污水、人类尿便等,乡村旅游污染和旅游人数之间有着直接的关系。所以,这一类污染的产污单元可以看做是每一位乡村游客。②污染强度的划分:生活污水(包括垃圾、人类尿)排放强度=每户游客污水日排放量/每户游客数。
1.2种养结合户此种类型农户的污染源划分主要是根据农户种植污染、畜禽养殖污染、农户生活污染等进行划分。其中,畜禽养殖污染源的划分同典型养殖户;农户生活、农户农业种植污染源识别同典型种植户。
2农村环境污染物排放的核算
2.1农村环境污染物具体排放量的计算研究得知,各污染源污染实物的排放量多少是和流失系数、产污系数等密切相关的。而农村环境污染具有极其明显的地域性,所以我们计算中需要的参数值必须通过对某一地区内各种相关联的因素进行测定和综合分析才能得出。目前,得出这些参数的方法一般有两种,一是通过特定地区的污染发生学实验研究来得出,二是通过相关的文献进行筛选、调研。
2.2农村环境污染敏感性的调研这里提到的敏感性主要是指调研区域地表水环境对农村各种社会经济活动的反应的敏感程度。可以反映产生地表水水体富营养化的概率的大小,敏感性分为5级,即不敏感、轻度敏感、中度敏感、高度敏感、极敏感。根据相关的调查,对农村环境污染的敏感性评价可以采用污染物(COD、TN、TP)的排放浓度结合水质评价模型进行评定。具体可有以下3种方法。①单向水质指数法。在确定各基本单元的基本指数后,用污染物(COD、TN、TP)的水质指数作为变量,进行全面的聚类分析,然后根据分析结果,划分敏感级别。②加权指数法。运用加权指数法可以反映出污染物(COD、TN、TP)在不同地区对环境污染的影响。首先要确定影响农村环境污染敏感性发热污染物(COD、TN、TP)的排放浓度,然后再依据加权指数法计算出各基本敏感单元的敏感性数值。③内梅罗综合指数法。如果单项水质指数的数值变化很大,为了更加有效的突出各个高值的影响,就可以采用内梅罗平均值法。同样,在确定了各基本单元的内梅罗指数后,以其指数为变量。进行综合的聚类分析,然后根据分析结果划分敏感性等级。
3污染程度的区分
首先确定环境污染中的主要污染物、总污染负荷,然后与区域相结合确定重点污染区域,进而确定其污染程度。
3.1水质系数和排放浓度要想全面的反映出区域污染的状况,要从排污总量和排污浓度两方面上来进行考虑,水质系数反映评价标准和污染物浓度之间的关系,其中:污染物水质指数=该污染物排放浓度/该地环境质量标准
3.2聚类分析进行聚类分析要运用SPSS软件,采用Q型聚类,通过对农村环境污染源等标污染的负荷率进行综合的聚类分析,然后来区分不同区域的主要污染类型,比如种植污染型、养殖污染型、综合污染型、生活污染型等。
4结语
摘 要 对北京体育大学2003-2012年体操方向硕士学位论文的关键词词频统计与分析,研究高频词之间的结构关系,探究北京体育大学体操方向硕士学位论文的选题方向、研究内容及其不同的特点,分析热点的形成原因与未来发展趋势。
关键词 北京体育大学 硕士学位论文 研究热点
一、研究方法与对象
研究方法主要采用词频统计法与共词聚类分析法。词频统计法能够揭示或表达文献核心内容的关键词或主题词在某一研究领域中出现的频次高低来确定该领域研究热点和发展动向的文献计量法。共词聚类分析法是一种内容分析方法,通过对一组词两两统计它们在同一片文献中出现的频率,以此为基础对这些词进行聚类分析,从而反映出词与词之间的亲疏关系,进而分析这些词所代表的学科和主题的研究结构。
二、研究生学位论文的共词聚类分析
(一)关键词词频统计与分析
本文利用《CNKI中国优秀硕士学位论文全文数据库》,搜索出2003―2012年北京体育大学体操方向硕士学位论文共73篇,以73篇学位论文中的关键词为调研对象,通过共词分析法中的聚类分析探索各高频关键词之间的内在关系,归纳出北京体育大学体操硕士学位论文研究的热点,以及各个不同研究方向的亲疏性。本研究利用Excel对前期检索出的学位论文进行关键词统计,共得到硕士学位论文关键词283个,平均每篇硕士学位论文含关键词3.9个。然后对统计结果进行以下处理:去除对反应主题没有积极意义的词,如“展望”、“问题”等,对表达同一个意思的关键词进行标准化处理,如“高职院校”、“职业技术院校”、“职技高校”等标准化为“高职院校”,“高等院校”、“高等学校”、“高校”、“大学”等标准化为“高校”。
经过多次比较,最终选择词频大于的关键词作为高频关键词,从而确定个体操方向硕士学位论文的高频关键词(表1)。这个关键词总的出现频次为65次,占关键词总频次的36.3%。从高频关键词分布可以看出,北京体育大学体操方向硕士研究生重点关注的研究对象集中在“体育教育专业”、“分析”、“普通高校”、“竞技体操”、“北京市”、“教学理念”、“现状”、“发展对策”等。
表1 硕士学位论文高频关键词表
序号 关键词 词频
1 体育教育专业 12
2 分析 10
3 普通高校 8
4 竞技体操 8
5 北京市 7
6 教学理念 7
7 现状 7
8 发展对策 6
(二)构造词篇矩阵、相似矩阵
对于高频关键词共现频次的统计,本研究利用SPSS17.0,以每篇学位论文为一条记录,记录的内容为高频关键词是否在学位论文的关键词出现(出现为1,否则为0),构造出词篇矩阵。以词篇矩阵为基础,在SPSS软件中进行相关分析,数据类型选择“binary”二元变量,相似系数选择“Ochiai”系数,构造出高频关键词的相似矩阵(见表2)。相似矩阵中的数字为相似数据,数字的大小则表明词与词之间的距离远近,数值越大则表明词与词之间的距离越近,相似度越好;反之,数值越小,表明词与词之间的距离越远,相似度越差。相似矩阵对角线的数据为1,表明某高频关键词自身相关度。
表2 硕士学位论文高频关键词的相似矩阵(部分)
体育教育专业 分析 普通高校 竞技体操 北京市 教学理念 现状 发展对策
体育教育专业 1.000 0.060 0.286 0.004 0.192 0.321 0.334 0.215
分析 0.060 1.000 0.030 0.121 0.018 0.006 0.076 0.023
普通高校 0.028 0.030 1.000 0.150 0.030 0.068 0.119 0.029
竞技体操 0.004 0.121 0.150 1.000 0.008 0.192 0.043 0.020
北京市 0.192 0.018 0.030 0.008 1.000 0.192 0.035 0.078
教学理念 0.321 0.006 0.068 0.192 0.192 1.000 0.087 0.186
现状 0.334 0.076 0.119 0.043 0.035 0.087 1.000 0.100
发展对策 0.215 0.023 0.029 0.020 0.078 0.186 0.100 1.000
(三)北京体育大学体操方向硕士学位论文的研究热点可以概括为以下几类:
1.竞技体操的发展对策。包括关键词:竞技体操、发展对策、后备人才。
2.北京市普通高校体育教育专业教学理念。包括关键词:北京市、普通高校、体育教育专业、教学理念。
3.体育教育专业与教学能力。包括关键词:体育教育专业、教学能力。
三、研究热点的特点分析
(一)北京体育大学体操方向硕士学位论文的研究热点比较宽泛,选取对象比较广泛,包括普通高校、体育院校、竞技体操、体操普修课、教学理念等。
(二)硕士学位论文注重对教学理念及竞技体操发展状况的研究,旨在通过现状研究,探寻发展的脉络与经验。
(三)硕士学位论文注重对基本理论研究,研究内容宽泛。在理论分析上显得薄弱、创新能力欠缺。
参考文献:
[1] 高宝立,刘小强.高等教育研究热点分析:两个维度、四项指标――以现代大学制度研究为例[J].教育研究.2008(09).
[2] 迟景明,吴琳.近十年我国高等教育学学科研究热点和趋势――基于研究生学位论文的共词聚类分析[J].中国高教研究.2011(9):20-24.
[3] 马费成,张勤.国内外知识管理研究热点――基于词频的统计分析[J].情报学报,2006.25(02).
论文关键词:聚类分系,网络营销,策略,客户关系
0前言
现代科学技术的迅猛发展,特别是在互联网的应用和开发上更加的迅速,企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源,现在如何更好地从数据库中挖掘出客户中有价值的信息,更好的培植和经营与有价值客户的关系,抛弃那些无利可图没有发展前景而且营销费用高的客户,并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略,这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例,提出了一套可操作性的对客户价值评价方法,然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。
1聚类分析
聚类(clustering)是对于数据挖掘技术是非常重要的一部分,现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类,最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度,而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类,事先不知道所有的数据对象共有多少类,通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中,特别是针对网络营销的企业或网站,从大量的网络数据进行分析聚类,可以讲客户分成不同的类别,针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段,提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究,进而提高聚类分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚类分析应用于企业客户资源管理
现针对某电子商务公司进行分析,该电子商务公司的客户分布在全国各地以及国外一些地区,现仅列出具有代表性的10个大客户:吉林,黑龙江,山东,江苏,浙江,安徽,湖南,缅甸,印度,南非等。在数据挖掘的目的就是从客户中找到一些共同点,在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策,首先对该公司采用专家打分的方法,而且还有通过网上问卷调查和访谈的方式,收集各地销售专员的意见等方式,然后对数据加以综合,最后聚类分析法确定各项指标的权重。
那么在具体实施聚类分析法的时候可分为5个步骤进行:
第1步:首先对各项指数构建层次结构,其中被评定的10个大客户作为方案层,客户价值放在目标层中进行处理,各项指标是准则层,按照这样的分层结构来构造客户关系评价系统中个指数的结构图,见图2-1所示;
表2-1指标权重值表
指标
V
V
V
V
V
V
V
V
V
权重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指标
V
V
V
V
V
V
V
V
V
权重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指标
E
E
E
E
E
E
E
E
权重
0.0212
0.0312
0.0754
0.1841
0.0145
0.0510
0.0078
0.0684
从数据可以看出有两种情形:一是缅甸和南非,从数据中可看出这类客户的当前价值很小,但是具有很大的隐含价值,势必会有一天他们的成长给企业会带来丰厚的物质利益,这样具有发展潜能的客户应该采取措施激发潜能;二是安徽和印度这类客户,虽然从数据中看出这类客户当前价值很小,但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户,企业就应该采取灵活的措施,激发他们的购买能力促使该类型的客户不断地向前发展;
第2类是“维持型”客户,他们会源源不断的为企业提供利润,如黑龙江和江苏,他们这类客户根据以往的交易记录分析到得结果就是目前价值大,不过没什么发展的潜能,或者说在某种情况下它的时常还会萎缩,当前这类客户会给企业带肋比较丰厚的利润但是就长期发展而言却不是利润的主要来源,他们在某种情况下会流失掉,会被其他的企业竞争对手的介入而流失,为此对于企业一方面要维持与这类客户的良好关系,保持稳定的客户关系,另一方面还要采取一些营销手段来刺激该类客户的消费,提供一些个性化的服务和策略;
第3类“淘汰型”客户,这类用户就如同鸡肋了,对于企业的现在和将来都意义不大,目前的销售份额较小,企业对他们营销的成本还很高,年利润率很低,根据分析这类客户包括浙江、湖南和吉林,他们没有长期的发展的趋势,所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们;
第4类是“贵宾型”客户,这类用户是企业的主要经济利润的来源,在某种程度上可以说是企业生存的保证,他对企业是关系到生死存亡的重要客户,从数据中看山东就是该企业的这类贵宾型的客户,他的当前价值和潜在价值都很大,企业必须认真对待,细心呵护与这类客户的关系,以及该客户企业的关键性人物的关系,加强与这类客户的沟通和关系的培养,同时还要提高警惕,防止竞争对手抢走这些贵宾型客户。针对贵宾型客户企业就应该对其进行一对一的营销策略,进行良好的客户需求沟通,尽最大可能满足他们的需求,适当给与一些特殊政策来加强和他们的关系。从不同角度来加强客户对企业的忠诚度、满意度等。企业根据这些重要的信息就可以针对不同的客户采取合适的销售策略。
关键词: 洞庭湖区 生态经济区划 生态经济建设
洞庭湖位于长江中游荆江河段南岸,地处湖南省北部和湖北省南部间,是我国第二大淡水湖泊。本文中的洞庭湖区仅指的是洞庭湖湖南省部分(未包括湖北省的公安、石首、松滋等),范围包括岳阳市、常德市、益阳市三个市,共24个县(市、区),土地面积为45363 km ,占到湖南省土地总面积的21.4%(具体见图1)。在经济上取得巨大成就的同时,洞庭湖区的生态环境却令人担忧,湖区生态经济建设更显得刻不容缓。
1.湖区区划指标的建立
由于生态经济区划的复杂性、综合性,强调自然和人文的有机耦合,因此在指标的选取上就必须做到全面,指标必须包含生态、经济、社会等多方面的因素。本文在参照前人指标体系选择的基础上,结合湖南洞庭湖区的实际情况,分别从社会、经济和生态方面选取了24个指标来构建本文生态经济区划的指标体系①。(见表1)
2.SPSS指标数据分析处理
2.1主成分分析
2.1.1将原始数据进行标准化处理
本文选取了20个行政单位,选取2004年的指标24个,这样就组成一个20×24的原始数据矩阵。其中对原始数据矩阵X用以下公式进行标准化处理。公式如下:
2.1.2计算所有变量的相关矩阵R,得到相关系数矩阵:
2.1.3因子提取
采用主成分分析法,利用相关系数矩阵R进行因子提取。在SPSS中可以得到所有指标的特征值。根据特征值大于1的提取原则,并且公共因子的在变量总方差中所占的累计百分数达到84.661%,所以得到了能够综合反映洞庭湖区的生态经济状况的5个公因子。(见表2)
2.1.4因子旋转
为便于对主因子进行解释,知道每个主因子的意义,本文对因子载荷矩阵进行了旋转。本文用的是最常用的最大方差旋转法(Varimax)。(旋转后的主成分特征值、贡献率和累计贡献率见表3)
2.1.5主成分的确定
计算5个主成分的得分。由20个区域5个主成分的因子得分组成一个新的数据矩阵S;由这个数据矩阵S组成下一步聚类分析的原始数据,根据主成分得分及方差贡献确定权重(见表4),根据权重值,算出各区域综合因子得分,并进行排序(见表5)。
2.2聚类分析
本文采用了系统聚类法(Hierarchical Cluster),定义各样本点之间距离采用的是平方欧氏距离(Euclidean distance),接着计算出每2个样本间的欧氏距离系数D ,其公式为:
式中:D ―i,j两点的距离系数;X ―第i点第k因子的值;X ―第j点第k因子的值;m―因子的个数;q―指数。(公式:3)
然后根据距离系数,按照最短距离法,从矩阵表中选择距离系数相似的样本归并为一类,将其组成新的序列,继续计算新类同其它样本之间的距离,如此反复,每进行一次缩小一类,直到得到所需的结果为止。通过系统聚类,可以得到树状谱系图(图2所示)。
从以上的聚类结果来看,在取欧氏距离为2.3时,可以将湖区分为7类,从综合聚类结果来看,由于生态经济区划的划分首先强调的连片性和相似性,故为了综合考虑起见,本文又对三类指标分别进行了主成分分析,并得到了各自的主成分综合得分表,在初步聚类结果的基础上,结合生态和经济、社会单类指标主成分综合得分,并参照湖区的实际情况,最终可得中心城市生态经济区、北部沿湖平原生态经济区、中部丘岗综合生态经济区、环湖山地丘陵生态经济区四个区域(区划图见图3,分区结果和特点见表6和表7)。
注释:
①本文数据来源主要是2005―2006年湖南省统计年鉴;2005年湖南省年鉴;2004年湖南省国土资源厅统计的湖南省各个县区土地利用现状数据;湖南省国土委员会办公室和湖南省经济研究中心1985年编写的洞庭湖区整治开发综合考察研究专题报告等。
参考文献:
[1]张丽珍,孟令尧等.平泉县生态经济特征及其分区开发整治模式[J].1999.16,(2):12-16.
[2]胡月明,冯艳芬,江华,徐剑波,李强,陈飞香.中山市国家级生态示范区生态经济评价及可持续发展对策研究[J].2001.22,(3):13-15.
[3]左长清.关于建设江西生态经济区的思考[J].2002,(11):13-14.
[4]李红岩.洞庭湖区生态经济区划与建设初步研究:[硕士学位论文].长沙:湖南师范大学,2007.
[5]王克英.洞庭湖治理与开发[M].长沙:湖南人民出版社,1998:3-4.
[6]金相灿等.中国湖泊富营养化[M].北京:中国环境出版社,1990:234.
[7]张小红.生态经济区区划模型与建设研究――以华容县为例.[硕士学位论文].长沙.湖南师范大学,2006.
[8]王丽.生态经济区划理论与实践初步研究――以黄山市为例.[硕士学位论文].芜湖:安徽师范大学,2005.
统计时将同一机构不同部门合并为同一机构,如华东师范大学言语听觉康复科学研究院、特殊教育系等合并为华东师范大学进行统计;同一机构不同称谓或机构有更名的合并为同一最新称谓进行统计,如上海交大新华医院、上海第二医科大学附属新华医院合并为上海交大新华医院,中国医科大学第二临床学院、第二附属医院合并为中国医大盛京医院进行统计。文献关键词对论文关键词进行分析,可以了解我国儿童语言发育研究的重点和范围。利用bi-comb软件对1576篇文章的6049个关键词进行统计,抽取词频大于22的30个关键词为高频关键词,通过对高频关键词统计可以看出国内儿童语言发育涉及的研究面较为广泛,但是仅仅停留在高频关键词的简单统计,很难归纳出研究的主要方面,因此需要通过聚类分析深入挖掘这些高频关键词之间的联系[1]。通过bicomb软件对上表中的高频关键词建立共词矩阵,再利用gcluto软件进行聚类分析,得出高频关键词聚类树图,研究对象和内容儿童语言发育的研究对象广泛,包括语言发育异常的儿童和正常儿童。语言发育异常的研究对象主要包括出现口吃、构音障碍、发育性语言障碍的儿童,以及存在影响语言发育的因素如听力障碍、孤独症、智力低下和脑瘫等疾病的儿童。对异常儿童的研究内容涉及病因、临床表现、诊断、康复治疗等方面。研究者在研究语言发育时对正常儿童的界定标准一致,即选择不存在上述影响语言发育因素的儿童。对正常儿童语言发育规律的探讨,包括发音、词汇、句子、语法、语用等方面的研究。通过文献梳理,可以发现在对正常儿童进行研究时个案研究居多,群体研究相对较少。研究材料和方法国内对儿童语言发育情况进行测评的方法较缺乏,在研究中主要采用以下方法。第一种方式,采用标准的结构化测试,包括图片词汇测试、丹佛发育筛查试验、盖泽尔发展量表、韦克斯勒学龄前和学龄初期智力量表等。目前标准测试中还只有图片词汇测试是直接用于语言测评的工具,其它结构化测评都只能部分或间接通过智能水映儿童语言能力。第二种方式,采用语言样本分析,即在儿童熟悉的环境中,由他们自由地做一些常做的活动并进行录音,采集语言样本后进行转录并利用语言样本分析程序自动分析[2]。语料测评可较客观的得到儿童的语言水平,但需要儿童有足够的语言表达能力后才能收集语料,不能应用于还没语言表达能力的年幼儿童。近年来,有学者开始采用新的方式来评估儿童的语言能力。例如,北大医院梁卫兰等[3]利用父母报告方式,通过抚养人根据儿童日常的表现,选择儿童会的词汇和手势,评估婴幼儿语言和沟通能力。还有学者采用自行研究设计的量表,其中有代表性的是上海刘晓等[4]编制的《早期语言发育进程量表》。这些测评方法能较好的反映年幼儿童的语言能力,有待于在临床进行推广。
年代和学科分析从年代分布可以看出,研究国内儿童语言发育的文献量近十年增长较快,图1显示呈现逐年上升趋势,发展趋势良好。通过表1的主要研究学科可以看出,儿童语言发育引起了医学、语言学、心理学、教育学等多个学界的关注,随着相关学科的快速发展,国内儿童语言发育研究也将进一步开展,未来可更多的开展学科之间的交叉研究。期刊分析根据布拉德福定律:核心区、相关区、非相关区期刊数量成1∶n∶n2的关系[5],将729种刊载儿童语言发育论文的期刊,按照刊载论文的数量,以递减顺序排列,按照公式计算若前27种期刊中刊载33.3%以上的文献方能形成核心期刊区。排在最前面的27种期刊刊载文献约占论文总数的29%,前40种期刊才达到33.3%的比例,故目前尚未形成核心期刊群。虽然该领域尚未形成核心期刊群,但有关儿童语言发育的文献较多的刊登于表2中所列期刊,提示作者向此类期刊投稿,可能会提高命中率。作者和机构分析以普赖斯定律对作者群进行分析,核心作者的论文量应该占全部相关论文总量的一半,核心作者最低发文数N的值为:N=0.749(Gmax)1/2),其中Gmax为所统计的年限中最高产的那位作者的论文数[6],在本次研究中为27,故N取整数为4。作者论文4篇以上为56人,多数文章为合作完成,共127篇,占总论文数8.1%,远低于儿童语言发育论文总和的50%,提示儿童语言发育研究的核心作者群仍处于形成阶段。根据发文机构统计结果显示,主要发文机构包括多个教育机构和医学机构,提示可加强教育和医学机构之间的相互合作,推广医教结合模式。
关键词频次表反映了我国儿童语言发育研究重点及热点分布。对进行聚类分析得出的聚类树国内儿童语言发育研究的高频关键词大致可聚为五类。第一类是新生儿听力筛查,第二类主要是婴幼儿语言发育,第三类是语言障碍儿童的语言能力及语言训练,第四类主要是学生的词汇、句子等方面的发展,第五类是学龄前儿童的语言习得。摘要分析通过文献摘要分析,可以看出在对正常儿童进行研究时个案研究居多,群体研究相对较少。基于个案得出的数据未必能代表群体的发育规律。正常儿童的语言发育规律,是研究异常儿童发育异常的基础,可更多地开展正常儿童语言发育规律的群体调查。国内对儿童语言发育情况进行测评的方法较缺乏,主要通过结构化测评和语言样本分析方法进行测评,对年幼儿童语言能力进行测评的方法较少,新的测评方法有待于研究和推广。综上所述,国内儿童语言发育研究的总体发展趋势良好,发表文献量逐年增加,呈多学科发展的态势,引起了医学、语言学、心理学、教育学等学界的关注,未来可更多地开展学科之间的交叉研究。目前尚未形成核心期刊群和稳定的研究群体,主要发文机构包括多个教育机构和医学机构,提示可加强教育和医学机构之间的相互合作,推广医教结合模式。对正常儿童进行研究时群体研究相对较少,应更多地开展正常儿童语言发育规律的群体调查研究。国内语言发育测评的方法较缺乏,新的测评方法有待于研究和推广。
作者:潘虹地 赵亚茹 汪永娟 梁萃 陶旭炜 李雪宁 单位:中国医科大学附属盛京医院发育儿科
关键词:Web;挖掘;PSO
随着Internet的迅速发展,World Wide Web已深入到社会生活的方方面面。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。人们使用Web,一般有如下需求[1]:
获取相关信息或服务;
从Web信息中发现新的知识;
提供个性化服务:不同的用户对信息、服务有不同的要求。
为了解决上述问题,人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具,由此产生了Web挖掘。
Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。
1.Web挖掘
WEB挖掘可以认为包括以下四个子任务[3,4]:资源发现、信息选择和预处理、概括和泛化、分析。
资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词,词干处理,发现训练集中的短语,以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释,在此过程中应该发挥人的作用。
Web文本信息的特征获取是指自动地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高,对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取,比如文档频次门限方法、信息增益方法、χ2分布方法、互信息熵方法、基于奇异值分解的潜在语义索引方法(LSI)以及基于遗传算法的特征提取算法等。
聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类:使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中,人们研究了获得较高的计算效率的问题。
在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此成为目前Web聚类分析研究的主流。
2.Web挖掘中存在的问题
Web数据挖掘[5]与传统数据挖掘不同,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。人们最初是希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路,如XML技术。还有,互联网上的数据动态性极强,页面本身的内容和相关的链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。
现行Web挖掘方法很多,解决Web信息应用部分问题,但存在一定的不足,如:由于用户查询固有的主观性、不精确性和不确定性,大多数Web检索系统仅用一个简单的检索模型,侧重于检索效率,忽视了检索的准确性。不能进行软决策,现有查询是基于“硬抛弃”法,而且取决于查询与检索出文档的相关性,但相关性只是文档的部分属性,不是很分明的界限。页面分级还不全面,还没有考虑各种参数的权重,如点击位置、相邻性和频率等,分级还很少考虑用户的特点。
为处理Web数据特征,克服目前现有的Web挖掘方法的局限,软计算方法是一个很好的方法。软计算是一组协同的方法,它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度,达到易理解的、健壮的和低代价的解决方案,类似人的决策过程。软计算技术包括模糊逻辑(fuzzy logic,FL)、粗糙集(rough set,RS)、人工神经网络(artificial neural network,ANN)和遗传算法(genetic algorithm,GA)[ 5-8]。
现有的Web文档特征抽取算法文章证明这些特征抽取方法都有一些局限。传统的聚类分析把每个待辨识的对象严格地划分到某个类中,各个类别的界限是分明的。然而现实世界存在着大量的界限划分不严格的聚类问题。即问题具有一定的模糊性,如在区分“优”和“良”等级时,就需要模糊划分。在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此逐渐成为Web聚类分析研究的主流。
3.粒子群优化算法
粒子群优化(Particle Swarm Optimization, PSO)算法[1]是Kennedy和Eberhart受人工生命研究结果的启发、通过模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法,与其他进化算法一样,也是基于“种群”和“进化”的概念,通过个体间的协作与竞争,实现复杂空间最优解的搜索;同时,PSO又不像其他进化算法那样对个体进行交叉、变异、选择等进化算子操作,而是将群体(swarm)中的个体看作是在D维搜索空间中没有质量和体积的粒子(particle),每个粒子以一定的速度在解空间运动,并向自身历史最佳位置pbest和邻域历史最佳位置gbest聚集,实现对候选解的进化。PSO算法具有很好的生物社会背景而易理解、参数少而易实现,对非线性、多峰问题均具有较强的全局搜索能力,在科学研究与工程实践中得到了广泛关注[3-8] 。
由于PSO 中粒子向自身历史最佳位置和邻域或群体历史最佳位置聚集,形成粒子种群的快速趋同效应,容易出现陷入局部极值、早熟收敛或停滞现象。同时,PSO的性能也依赖于算法参数。为了克服上述不足,国内外学者相继提出了各种改进措施。主要有粒子群初始化、邻域拓扑、参数选择和混合策略四类。
4.结论
由此可见,由于Web信息的独特性,和传统的数据挖掘相比,Web挖掘还有很多需要解决的难题需要我们针对实际应用加以解决。
参考文献:
[1]吉林大学博士学位论文 Web挖掘中若干问题的研究 许建潮 2005.6.10.
[2]Raymond Kosala,Hendrik Blockeel, Web Mining Research: A Survey, SIGKDD Explorations,2(1),pages 1-15,July 2000.
[3]中国科学院博士学位论文 WEB信息检索与分类中的数据采掘研究 李晓黎 2001.5.21.
[4]周龙镶,阳小华.基于用户访问模式的WWW浏览路径优化[J].软件学报,2001,12(6),846~850.
[5]Jianhan Zhu,Jun Hong,John G Hughes.Using Markov Models for Web Site Link Prediction.In:Proceedings ofthe thirteenth ACM conference on Hypertext and hypermedia.Maryland(USA),2002,169~170.
[6]浙江大学博士毕业论文 Web访问信息挖掘若干关键技术的研究 余轶军 2006.4.1.
相关合集:统计学论文
相关热搜:统计学 统计学原理
一、数据统计分析的内涵
数据分析是指运用一定的分析方法对数据进行处理,从而获得解决管理决策或营销研究问题所需信息的过程。所谓的数据统计分析就是运用统计学的方法对数据进行处理。在实际的市场调研工作中,数据统计分析能使我们挖掘出数据中隐藏的信息,并以恰当的形式表现出来,并最终指导决策的制定。
二、数据统计分析的原则
(1)科学性。科学方法的显著特征是数据的收集、分析和解释的客观性,数据统计分析作为市场调研的重要组成部分也要具有同其他科学方法一样的客观标准。(2)系统性。市场调研是一个周密策划、精心组织、科学实施,并由一系列工作环节、步骤、活动和成果组成的过程,而不是单个资料的记录、整理或分析活动。(3)针对性。就不同的数据统计分析方法而言,无论是基础的分析方法还是高级的分析方法,都会有它的适用领域和局限性。(4)趋势性。市场所处的环境是在不断的变化过程中的,我们要以一种发展的眼光看待问题。(5)实用性。市场调研说到底是为企业决策服务的,而数据统计分析也同样服务于此,在保证其专业性和科学性的同时也不能忽略其现实意义。
三、推论性统计分析方法
(1)方差分析。方差分析是检验多个总体均值是否相等的一种统计方法,它可以看作是t检验的一种扩展。它所研究的是分类型自变量对数值型因变量的影响,比如它们之间有没有关联性、关联性的程度等,所采用的方法就是通过检验各个总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。(2)回归分析。在数据统计分析中,存在着大量的一种变量随着另一种变量的变化而变化的情况,这种对应的因果变化往往无法用精确的数学公式来描述,只有通过大量观察数据的统计工作才能找到他们之间的关系和规律,解决这一问题的常用方法是回归分析。回归分析是从定量的角度对观察数据进行分析、计算和归纳。
四、多元统计分析方法
(1)相关分析。相关分析是描述两组变量间的相关程度和方向的一种常用的统计方法。值得注意的是,事物之间有相关关系,不一定是因果关系,也可能仅仅是伴随关系;但如果事物之间有因果关系,则两者必然存在相关关系。(2)主成分分析。在大部分数据统计分析中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。所谓的主成分
分析就是利用降维的思想,把多指标转化为几个综合指标的多元统计分析方法,很显然在一个低维空间识别系统要比在一个高维空间容易的多。(3)因子分析。因子分析的目的是使数据简单化,它是将具有错综复杂关系的变量综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子,对变量进行分类。这些因子是不可观测的潜在变量,而原先的变量是可观测的显在变量。(4)聚类分析。在市场调研中,市场细分是最常见的营销术语之一,它按照一定的标准将市场分割为不同的族群,并使族群之间具有某种特征的显著差异,而族群内部在这种特征上具有相似性。聚类分析就是实现分类的一种多元统计分析方法,它根据聚类变量将样本分成相对同质的族群。聚类分析的主要优点是,对所研究的对象进行了全面的综合分析,归类比较客观,有利于分类指导。(5)判别分析。判别分析是判别样品所属类型的一种多元统计方法。若在已知的分类下,遇到新的样本,则可利用此法选定一种判别标准,以判定将该新样品放置于哪个类中。由定义我们可以知道判别分析区别于聚类分析的地方,而在判别分析中,至少要有一个已经明确知道类别的“训练样本”,从而利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行判别。与聚类分析相同的地方是,判别分析也是利用距离的远近来把对象归类的。
关键词:管理科学;工程领域;热点;分析;数据
根据不同时期的对外政策和社会发展特点,我国的管理科学与工程曾经出现过几个不同的阶段,包括建国初的计划管理阶段、之后的重建管理阶段以及当今的管理科学繁荣发展阶段。每个时期内都有学者通过各种不同的方法对当下管理科学与工程领域的热点问题进行过分析,比较普遍的方法是借鉴权威期刊和论文中的数据,通过对收集到的关键词进行对比分析,得出管理科学与工程领域的热点。我国市场经济的发展和社会环境的变化为管理科学与工程带来了变化,也为其带来了良好的发展契机,要进一步完善管理科学与工程工作,将挑战变为机遇,就必须对管理科学与工程领域的热点进行全方面详细的研究,对其发展趋势做预测,做到时刻掌握有效信息,促进管理科学与工程行业的全面发展。
1 以往的数据研究与文献分析
回顾以往的相关文献我们不难发现,对管理科学与工程领域热点分析的文献综合起来大致都离不开两个内容:对国内外管理科学与工程领域热点的对比研究分析和国内管理科学与工程领域热点分析。就前者来说,以张玲玲为例等学者采用关键词作为数据的收集分类方式,在数据库中搜索关键词后将相关论文归类到一起,对于那些文中出现不止一个关键词的文献,则将其分类到不同的学科领域中去。最后再加权平均论文的增长速度,用最终数据来得出该时期管理科学与工程领域的热点,并对国内外热点进行对比分析,总结出国内外差异形成的原因与差异表现所在。同样研究国内外热点比较的还有李群霞等,他依据文章关键词的检索量,以论文总量和论文增长速度两个因素作为基准总结出国内外管理科学与工程热点;后者的代表人物有缪园等,他以管理科学与工程科学代码为基础,收集获得国家自然科学资助的管理科学与工程科学项目的统计数据,建造评价模型,对国内管理科学与工程热点进行非线性评价,最终得出管理科学与工程领域的热点,并对其发展趋势进行预测分析。
2 管理科学与工程领域热点数据的研究方法
2.1 共词分析法与矩阵的构建。共词的含义就是共同出现的词语,共词分析法主要是对同时出现在不同文献中的各领域具有代表性的专业性词汇进行分析统计,通过对共词出现频率的分析,研究各学科之间内在的联系和交叉特征,展现学科内在的结构和组成脉络。使用这种方法时要注意,文章的关键词必须是能概括出文章中心内容和整体思想的浓缩词,这时如果两篇文章之中包含多个相同的关键词即“共词”,那么就可以说这两篇文章在研究的主题和内容方面有相通之处。对所有的关键词进行统计之后,管理科学与工程领域的高频关键词就会出现。而靠简单的排列方式远不能准确分析出管理科学与工程领域的热点,这时,要构建共词矩阵和相异矩阵,通过直观的矩阵来反映关键词之间的关系。在矩阵的基础上对关键词进行多元统计,有共同关键词的文章数量越多,其共词之间的“距离”也就越小,在此基础上采用聚类分析,就能够清晰的显示出管理科学与工程学科热点与发展趋势。
2.2 绘制战略坐标图。战略坐标图是由二维坐标演化而来的一种直观表示因素之间内在联系表现形式,最早由Law等人提出。在战略坐标图上,同样分为X轴(向心度)和Y轴(密度),代表不同的主题要素。向心度表示一个因素与其他多因素相互联系的程度高低,密度表示各因素之间内在联系的强度高低,一般情况下,密度与向心度的计算都是采用取平均值的方法。
3 分析研究结果并得出结论
3.1 聚类分析法。聚类分析顾名思义,就是将具有相同特征的事物或者同类事物划分到一类中再进行分析,这种方法是根据“变量之间存在着一定程度上的相似性”的思想演变形成的。在同一批任务变量中找出统计量来测量任务变量之间的相似程度,并根据统计量依据相似程度的不同将变量归为不同的类团,直至将所有变量归类完毕。在选定好关键词后,绘制高频关键词词频值的折线统计图以及聚类树状图,就可以直观得看出,近几年激励机制、委托和不对称信息关系强度居高不下,说明未来一段时间内这些内容仍旧会是研究的热点;而在管理科学与工程的研究方法方面,层次分析法逐渐被冷落,车辆路径算法和蚁群算法逐渐成为新的研究热点。
3.2 多维尺度分析法。通过对观测个体之间的距离进行准确的测定来发现个体之间存在的结构关系和数据联系,是多维尺度分析法的运行原理。多维尺度分析法旨在用二维或三维的空间距离形式表现出个体之间的关系,并根据相似度将个聚合为不同的类别,接近中心的个体则越接近核心。这时引用SPSS软件,将绘制好的矩阵导入并根据多维尺度分析功能对矩阵进行分析,最终得出直观效果图。通过效果图就可以看出每一个类别中的核心词语,距离核心较远的关键词则依旧不够成熟,无法成为管理科学与工程领域的热点和发展趋势,而那些越接近核心的关键词则为管理科学与工程领域的热点。
综上所述,通过采用共词分析法、共词矩阵与相异矩阵的构建以及战略坐标图的绘制等方法对管理科学与工程领域热点进行分析,我们可以得出,近年来,管理科学与工程领域的热点从以前的“信息技术”“知识管理”等词汇,转变为现在的“博弈”“激励机制”“委托”“电子商务”“信用风险”等多个新的关键词。除此之外,单靠关键词频数来判断热点仍旧存在单一性和局限性,对共词分析法进行改造和完善也是大家义不容辞的责任。
参考文献:
[1]张永安.管理科学学术规范体系构成的分析框架与应用性分析[J].科学学与科学技术管理,2009(08).
[2]彭学君.国内外管理科学与工程学科研究热点比较[J].衡水学院学报,2008(05).
关键词:汽车后市场;用户聚类;智能推荐算法
项目资助:国家科技支撑(2013BAH13F01)资助
1. 引言
进入新世纪以来,我国就进入了汽车产业高速发展的时代,已成为全球最大的汽车生产国与最大的汽车消费市场。从我国宏观经济发展水平和当前的人均汽车保有量来看,我国汽车市场仍然孕育着巨大的发展潜力。
目前在我国的汽车产业高速发展的同时显现出汽车后市场服务的缺位,即汽车后市场服务缺乏品牌意识,服务的理念和服务质量、服务的可信度、服务的标准化、服务的人性化均十分淡漠。在汽车服务业企业,提供的服务和产品大同小异,较难提出差异化的项目来构建企业独特性,客户粘度低,具有较高的话语权。传统的汽车服务推荐只是针对车型、车主职业等信息来对客户进行一个粗略的归类,由具体的接待人员来进行推荐,通常无法取得很好的效果。对客户偏好的深度挖掘,以及更加个性化、人性化的推荐服务,提供更好的客户体验是提高服务业企业的市场竞争力的有力工具。
2. 汽车后市场服务业发展现状
随着我国汽车工业的迅猛发展,汽车售后服务业在整个产业链中的重要作用逐渐显现出来,其成为各大汽车厂商追逐的新的利润增长点。不管是汽车企业、汽车消费者还是政府的相关部门,都对售后服务给予了前所未有的关注。客户的消费行为反映出了他们对需求并不清晰,客户很多时候并不清楚自己到底需要什么样的服务,不能很好的识别自己需要的服务。同时,服务提供方也并不能主动的对客户进行服务,更多的是被动地响应客户的要求,服务质量难以有质地提升。
目前汽车售后服务大多采用“被动响应”服务模式,即当汽车零部件出现故障时才对其进行维修和保养。由于客户驾驶行为习惯对汽车各零部件造成的磨损程度不同,导致汽车出现故障的概率和所需要的维修服务也因人而异。因此,可以考虑通过分析客户驾驶行为对汽车零件性能产生的影响,选取合适的影响指标对零件的磨损进行测度,并结合零部件的正常使用寿命来预测其可能出现的故障和时间,主动的提供相应的服务来提高售后服务的质量和效率。
汽车产品在性能、价格和外形等方面逐步趋于同质化,消费者更加关注产品附加值,从而使服务成为了竞争的主角。依据客户消费记录对客户群进行细分,可以使企业根据客户价值级别的不同决定如何在客户中分配企业有限资源,然后根据客户的不同需求,设计和实施不同的客户保持策略。
3. 数据挖掘在汽车售后服务中的应用
数据挖掘作为数据库知识发现的核心部分,目前存在很多数据挖掘方法和算法。根据挖掘任务分,有如下几种知识发现任务:分类知识发现、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常发现和趋势预测等。运用最多的是分类知识发现和数据聚类算法。
客户偏好挖掘和推荐的基本流程是:根据客户历史消费记录对客户进行偏好挖掘,并对客户进行聚类分析;根据两种以上的服务或者产品同时被消费的频度,利用关联规则将服务或产品进行聚类;利用关联规则算法将用户和服务产品进行匹配,推出针对性的智能化的推荐。
3.1对客户进行偏好挖掘
从用户行为信息中挖掘出用户偏好并构建偏好文档是进行商品特征与用偏好匹配推荐的基础。消费者细分的方法很多。有依据人口统计指标的细分、消费者心理细分、生活习惯细分、购买动机细分等等。在现实中对单个消费者个体的研究是不可能的。通过使用数据挖掘,可以根据所拥有的数据特征挖掘划分不同的消费者群,“分群”意味着把有相似特征的消费者归为同一组,即建立用户群,同时把不同用户群之间的差异最大化。
消费者行为特征挖掘的技术是聚类。聚类是探索型数据挖掘技术。可以使用许多种不同类型的聚类技术。聚类数据挖掘能够根据已测度的变量将相似消费者归到一起,同时使不同类型的消费者群组之间的差异最大化。本质相同的群组具有特定的消费者行为描述,所有聚类技术只要正确使用,都能产生恰当的分组。
3.2服务产品的聚类分析
类似于在购买铁锤的顾客当中,有70%的人同时购买了铁钉;在超市买面包的人有70%会购买牛奶。关联算法简单来讲就是对同时被消费的商品进行聚类,并分析这些相关产品的频度是否满足将其关联起来的最低置信度。
关联规则挖掘过程主要包含两个阶段:
【一】:必须先从资料集合中找出所有的高频项目组(Frequent Item sets) 【若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组】
【二】:再由这些高频项目组中产生关联规则(Association Rules)【在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则】。
在汽车售后服务中,就是要通过关联规则运算,形成服务和商品的一个组合产品,这些强关联的组合产品,在客户选择了组合中的任意一种产品或服务之后,都会依据算法向他推荐另一个与前者有着强关联关系的产品或服务。
3.3客户类型和产品服务类型进行匹配
利用匹配算法,将消费者的类型与产品服务的类型进行匹配,分析出不同的客户群体最有可能进行那种类型的消费。以及不同消费群体的偏好认知程度不同,对推荐的接受程度差异也很大。
从汽车质量等级、汽车燃油和机油等级、汽车行驶道路环境、汽车外部环境、客户驾驶技术、汽车修理频率和汽车行驶里程,提取客户的这七个因素数据对客户行为进行数据挖掘分析,对汽车用户进行划分,分析出不同的驾驶习惯、经历、环境的不同,进行汽车维修的项目和频率也是不同的。
4. 结论
与汽车前市场相比,汽车后市场领域具有更大的发展空间和发展潜力。但是汽车后市场的现状是,服务与产品的差异化程度低,服务人员的整体水平参差不齐,客户体验成为留住客户的关键。深入分析汽车消费者的偏好特征,对不同类型的客户,尽可能的做出贴近其需求和偏好的产品或服务推荐,只有这样才可以增强客户的忠诚度,提高客户粘度,进而为培养客户、发展客户、留住客户打好基础。智能化推荐,改善客户体验,也是汽车服务业取得进一步突破的一种有效的途径。
参考文献
[1]黄武汉,孟祥武,王立才.移动通信网中基于用户社会化关系挖掘的协同过滤算法[J].电子与信息学报,2011,33(12):3002—3007.
[2]张璇.汽车售后服务业客户驾驶偏好分析研究(D).武汉理工大学硕士论文,2012,5.
关键词:聚类分析;福建省;港口物流;竞争力
中图分类号:U691 文献标识码:A
Abstract: As a starting point of maritime silk road, the degree of development of port logistics in Fujian is socially significant.This paper based on the major ports in Fujian province, design 11 key indicators from the perspective of port logistics in harbor and city dimensions. Then gather the country's 18 major ports data in 2014, use cluster analysis to analysis and classify the data, get conclusion of the three major ports in Fujian province at the posterior segment in the national rankings. Then summarizes the main issues, proposed to improve the collection and distribution system, improve the level of intensive port, harbor and accurate positioning of targeted policy recommendations.
Key words: cluster analysis; Fujian province; port logistics; competitiveness
0 引 言
水路运输作为最主要的国际运输方式,对国际贸易的进一步发展和全球一体化的进一步深入贡献巨大。在新加坡、香港等经济较为发达的国家和地区,港口逐渐成为其参与国际贸易的主要通道。港口物流是随着现代港口的发展逐渐发展起来的,它是指中心港口城市利用其自身口岸优势,以先进的软硬件环境为依托,强化其对港口周边物流活动的辐射能力,发展具有涵盖物流产业链所有环节特点的港口综合服务体系。港口物流主要功能包括货物集港、拼箱运输、到港拆箱、送货,以及包括报关、信息管理、咨询信息、供应链金融等相关服务[1-2]。随着“一带一路”政策的提出和实施,福建省作为海上丝绸之路的起点,如何进一步结合自身特色推进港口物流发展,成为大家关注的焦点。
本文以2014年全国18个主要港口数据为基础,结合城市和港口物流方面的主要指标,通过系统聚类分析法得出福建三大主要港口在全国港口中的发展地位,进而提出针对性的发展建议。
1 聚类指标及港口选择
聚类分析是一种多元统计分析方法,通过设立合理指标对观测对象间的相似程度进行分类,达到“物以类聚”的目的[3],聚类分析需先构建聚类分析指标体系,有效的指标体系设计需要遵循科学性、系统性、动态性等多重原则[4]。福建省港口物流对于福建省经济的进一步发展影响巨大,为了进一步发挥海上丝绸之路的优势,本文在系统分析近几年来港口物流主要文献基础上,立足福建省港口物流情况,主要设计港口指标(货物吞吐量、外贸吞吐量、内贸吞吐量、集装箱吞吐量)和城市指标(GDP、第一产业产值、第二产业产值、第三产业产值、进出口总额、人口、面积)两类共11个。
福建省经过几年的整合形成三大主要港口,分别为厦门港(原厦门港和漳州港合并)、福州港(原福州港和宁德港合并)、湄洲湾港(湄洲湾南北两岸港口合并)。本文以福建三大主要港口为基础,选择长三角港口群(上海港、宁波港、连云港和南京港)、珠三角港口群(广州港、深圳港和汕头港)、环渤海地区港口群(大连港、天津港、青岛港、日照港)、西南沿海港口群(湛江港和海口港)以及内河港代表重庆港和九江港等15个港口为对比对象,搜集整理2014年相关数据(按照货物吞吐量降序排列)如表1所示。
货物吞吐量指标显示福建三大港口均排在中后部,与上海港、天津港、广州港等港口相比差距较大。在集装箱吞吐量方面,厦门港要稍好,处于中游,福州港与湄洲湾港属于垫底层次。
城市方面,由于福建港口进行了一系列的资源整合,因此本文采用的城市指标数据分别是厦门和漳州总和、福州和宁德总和、泉州和莆田总和。GDP指标显示,福建三大港口所在城市的GDP处于中游偏下的位置,上海遥遥领先,天津、广州、深圳、重庆等市紧随其后。上海和深圳两地的进出口总额独占鳌头,而厦门港所在城市的GDP在中游偏上位置,福州港和湄洲湾港所在城市的GDP则在中游偏下的位置。
2 聚分析过程及结果
2.1 聚类指标数据标准化处理
本文选取的指标数据单位和变异程度有一定差异性,比如城市GDP是以亿元为单位的,但面积的单位却是平方公里。因此需要对这些数据进行标准化处理,本文采取SPSS22.0求变量Z分数,它能真实地反映出变量之间的相对距离,经过SPSS的无量纲化之后,这些变量值的平均值和标准差分别为0和1[5-6]。
在SPSS软件的数据试图中,输入标准化后的数据,在菜单栏中选择系统聚类选项。并将港口名称标注成个案,可以更方便地观察聚类结果。在聚类方法中选择“组之间的链接”选项,样本与小类、小类与小类的距离测量方法选择“欧式距离平方”选项,经过SPSS软件的运算之后,得到的输出结果如图1所示。
2.2 聚类分析结果
聚类分析可以按照需求分成无数个类,若分成三类,则上海港为第一类,重庆港为第二类,其他港为第三类;若分成四类,则深圳港从其他港口中单独出来;若分成五类,广州港、天津港、大连港、青岛港及宁波港从其他港口中独立出来;若分成六类,则广州港、天津港为第四类,大连港、青岛港和宁波港为第五类,其他为第六类。但分至第四类后,第五六类的各港口之间差距已经非常小。上海作为中国最大的沿海城市,经济实力雄厚,上海港港口功能齐全、各项指标均处前列,排列第一当之无愧。重庆作为中国的直辖市之一,城市较大、人口众多,在西部城市中经济实力雄厚,贸易往来丰富,城市指标的靠前一定程度上弥补了港口相关指标的不足。而福建三大港口均处于最后一类,并且三者之间的差距非常小,虽然厦门港集装箱吞吐量等相关指标处于中等,但是城市较小、经济实力一般,对港口的带动作用还有待进一步加强,综合而言其类别处在后列,福州港和湄洲湾港类似。
3 福建省港口物流问题总结及发展建议
通过聚类分析结果可知,福建三大主要港口在选取的18个港口中表现差强人意,处于中后段位置,特别是与上海港、深圳港等国际大港相比有较大差距[7],集疏运体系的不完善、临港产业不发达、港口集约化程度低、港口整合有待进一步加强等问题制约着福建省港口物流的进一步发展。
福建省港口要进一步提升竞争地位,在全国港口中脱颖而出,为海上丝绸之路做更好的贡献,需要结合自身特点,不断改善软硬件环境,完善集疏运体系、提升集约化水平。
首先,不断完善集疏运体系。福建省应以整合后的福建三大港口为重点,加快集疏运体系建设,打造集公路、铁路、水路运输结合的综合集疏运体系。应加大投资,建立港口专用铁路支线,形成水铁无缝衔接,并积极落实部分干线快速铁路的客货兼运模式,提高铁路货运能力。同时,福建省需要提升现有疏港公路等级,实现沿海港口与干线公路、国省道、工业区之间的顺畅连接。
其次,提升港口集约化水平。集约化水平的提升可以很好地解决港口分散、规模化和专业化不足的问题。加快大型港区与周边小港区的整合,整合现有资源打造“两集两散两液”:即厦门港海沧港区和福州港江阴港区重点发展集装箱运输,罗源湾可门港区和湄洲湾北岸港区致力打造大宗散货运输中心,湄洲湾南岸港区、漳州古雷港区则重点发展以临港工业为依托、液体散货运输,以减少资金分散使用,发展几个重要港口,实现以点带面。
第三,大力发展福建临港产业。福建各港口可根据自身独有的资源禀赋和临港企业的分布状况,大力发展具有战略性的临港新兴产业,培育现代化的临港物流和产业集群,如福州罗源湾可大力发展电力、冶金、机械等临港产业;漳州东山湾大力发展石化临港产业。同时,还需不断扩展相关临港产业的现代物流功能,建设综合型的物流园区。
第四,深入整合各港区。继续深化福建港口管理体制改革,积极学习借鉴国内外先进做法,将福建沿海港口资源和功能进行大整合,统一运营。实现分层建设:第一层重点建设厦门东南国际航运中心和福州集装箱和大宗散货运输相协调的国际航运主枢纽港,形成大码头大城市;第二层服务于主枢纽港的辅助港口的建设,可将泉州湾港口建设成辅助厦门东南国际航运中心和福州国际航运主枢纽港的支线港;第三层是离中心城市较远且经济增长活力不足地区的港口建设,如宁德港、漳州港,实现有主有辅,各有侧重。
4 结 论
海洋经济是21世纪各国经济新增长点,作为海洋大国,古代海上丝绸之路从福建泉州起源,延伸多个国家。如今,我国重启海上丝绸之路大计,作为起源的福建省迎来进一步发展海洋经济及港口物流的契机。本文主要通过搜集国内18个主要港口数据,运用系统聚类分析福建省三大主要港口在全国的地位,通过对其排名中后段的现状分析,总结出问题,并提出不断完善集疏运体系、提升港口集约化水平、大力发展临港经济等政策建议。
参考文献:
[1] 陈梦. 港口物流核心文献综述(2010-2015)[J]. 物流科技,2016(4):86-87,101.
[2] 陈梦. 港口物流文献分析(2010-2015)[J]. 物流科技,2016(3):77-80.
[3] 黄顺泉,曲林迟,余思勤. 中国港口功能的聚类和判别[J]. 交通运输工程学报,2011(4):76-83.
[4] 陈继红,郑师禹,罗萍,等. 基于模糊聚类的长三角港口物流服务功能归类与对策[J]. 北京交通大学学报(社会科学版),2015(10):89-98.
[5] 曾倩琳,王莹. 海峡西岸经济区无水港群的网络布局――基于模糊聚分析法和SPSS17.0软件[J]. 科技和产业,2010(10):1
-4.
【关键词】 会计学;共词分析;知识图谱;研究热点
会计是经济的组成部分,会计学科在社会科学领域占据着重要的位置。随着社会和经济的发展,我国会计也发生了巨大的变化。回顾过去,改革开放的30年,是我国会计弃旧扬新、逐步发展和变革的30年,尤其是进入21世纪后的近5年,我国会计的发展更是迅速。那么会计学现在的研究现状如何,研究热点有哪些,未来有潜力的研究方向是什么等等一系列的问题吸引着越来越多的学者。有关会计研究的文献迅速增长,给广大研究人员从浩瀚的研究论文中把握会计学的研究热点和研究前沿等问题带来了挑战,而科学知识图谱方法可以作为研究人员应对这一挑战的有效工具。本文将基于词频分析和共词分析法,借助科学知识图谱技术对我国会计学论文进行可视化分析,指出我国会计学主流学术领域和研究热点。
一、数据来源与方法
(一)数据采集
本文采用的数据来源于
在知识群2中,环境会计、利益相关者、会计国际化等高频词聚集在一起,表明知识群2的中心是会计政策和形式的选择。不同的利益相关者需要不同的会计信息内容和表现形式。为了与国际接轨,需要会计国际化;为了表现公司的环境责任,需要研究环境会计;为了减缓委托人和人的冲突,需要财务会计信息……因为存在众多的利益相关者,为了较少交易成本,又需要监管层确定会计政策和形式来协调各利益相关者的利益。在这个知识群中,有2个研究热点:(1)会计国际化。由于国际经济发展的需要,客观上要求各国在制定会计政策和处理会计事务中,逐步采用国际通行的会计惯例,已达到国际间会计行为的相互沟通、协调、规范和统一。会计准则的国际协调趋势是研究的热点。(2)环境会计。也称绿色会计,其最早是作为社会责任会计的一部分出现的。随着环境的问题日益严重及可持续发展战略的提出,环境会计成为我国会计研究的热点。
在知识群3中,管理会计、会计信息质量、注册会计师、审计质量、会计盈余等高频关键词聚集在一起,表明知识群3 的中心是会计信息质量。盈余管理、会计稳健性和会计盈余影响会计信息质量;会计制度、会计准则、国际会计准则会影响会计信息披露的质量;公司内部治理状况(公司治理)和外部监督(会计师事务所)也是影响会计信息披露的质量的重要因素。这一知识群中的研究热点有3个:(1)管理会计。以企业现在和未来的资金运动为对象,以提高经济效益为目的,为企业内部管理提供经营管理决策的科学依据为目标而进行的经济管理活动。对成本控制问题是研究的热点。(2)会计盈余。会计盈余和现金流量直接的矛盾一直是现在财务会计理论争论的焦点,新会计准则下上市公司的会计盈余问题和新会计准则对盈余管理空间的遏制作用等问题都是研究的热点。(3)注册会计师的审计质量。加强我国注册会计师审计质量的控制是研究的热点。
三、结论
从对关键词的词频分析可以看出,会计学研究里最常出现的关键词是会计准则,其次是与会计信息质量有关的内容。从共词知识图谱可以看出,会计学论文主要集中在三个知识群,第一个知识群的研究热点都是围绕着新会计准则,第二个知识群是以会计政策和形式的选择为中心,第三个知识群是对会计信息质量的热点研究。会计准则给予了会计政策的选择空间,会计政策的选择影响了信息质量。所以第二个知识群是第一个知识群和第三个知识群的连接和过度。
上述研究大致勾勒出我国会计学论文的研究热点,揭示出知识群的内部结构。我们可以发现,会计学研究里最关心的是会计信息问题,从信息的披露到信息的形式和质量,由于信息的复杂性和无穷性,未来仍然可以做出更深层次的研究;其次,会计的研究紧紧围绕会计实践,这从围绕准则的研究可以看出,有理由推测以后的会计研究仍然会遵循这一原则;最后,对前沿的课题诸如环境会计、人力资源会计所做的研究仍不全面,这意味着未来有很大的研究空间。
当然由于cssci并未能全面搜集我国会计学的论文,以及与国外会计学论文的研究热点相比,我国会计学的热点是否紧跟前沿,都是今后仍需研究的地方。
【参考文献】
[1] 陈超美.citespaceⅱ:科学文献中新趋势与新动态的识别与可视化[j].情报学报,2009(3).
[2] 刘则渊,王贤文,陈超美.科学知识图谱方法及其在科技情报中的应用[j].数字图书馆论坛,2009(10).
[3] 李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[j].情报科学,2008.
印度黄檀是一种喜光落叶大乔木,属于豆科蝶形花亚科。它起源于印度干旱地区,具有速生、耐旱和耐瘠薄等优良特性。一年生印度黄檀幼苗的树高可达3m,胸径可接近10cm。在印度的分布区域内其绝对最高温度39qc~49℃,绝对最低温度4oC~6oC,年降雨量760~4570mm。印度黄檀能在瘠薄、疏松或低盐土中生长,但在干硬的粘土中,容易受到病害,成活率低J。印度黄檀具有多种的用途。它的叶子可以作饲料和药材,主干可以被加工制成世界上名贵的红木家具。在印度,除了柚木之外,印度黄檀是最重要的栽培树种。由于它的速生、耐旱和耐瘠薄等优良特性,无论在印度还是美国都被认为是一种理想的城市和园林绿化树种引。
2印度黄檀适生陛区划方法的研究现状
树种的适生性区划是林业区划的一种表现形式。林业区划是指根据林业的特点,在研究有关自然、经济和技术条件的基础上,分析、评价林业生产的特点与潜力,按照地域分异的规律进行分区划片。中国在1950年以后,为了大力发展农业,提高农业的经济效益,借鉴前苏联的农业科学技术,开展了农业区划工作。当时林业区划从属于农业区划。随着国民经济的发展,国家对林产品的需求量越来越大,而由于受林业本身生长周期长、见效慢等特点以及中国复杂的地理环境的影响,合理的林业区划对降低林业生产的风险、提高林业工作的效率和质量具有重要的作用。
目前,常用的林业区划方法可分为与计算机结合的数量定量区划方法和基于地理信息系统技术的区划方法7.引。在树种适生性区划研究当中,用得比较多的数量定量区划方法为传统的聚类分析方法、主成分分析法、模糊数学法和灰色关联度法。基于地理信息系统技术的区划方法是利用ArcGIS或ArcView等软件的空间分析和制图功能,结合由数量定量方法所建立的数学模型进行区划。
树种的区域性试验为数学建模提供了基础数据。显然,区域性试验数据的正确性是保证区划结果正确的前提。因此,对树种区域性试验方法的研究是适生性区划研究的一个重要部分。
2.1印度黄檀的区域性试验研究
由于印度黄檀对环境的适应能力比较强,许多国外学者对其进行了深入的研究,其中大多数的研究都从微观的角度来分析印度黄檀的生理特征,而对印度黄檀的区域性研究较少。国内对印度黄檀的专项研究仅见于中国林业科学研究院资源昆虫研究所对印度黄檀木材解剖构造及物理力学和化学性质的初步研究’加J,而对其区域性试验和适生性区划尚未见报道。印度黄檀的区域性研究主要体现在不同试验方法下印度黄檀与其它树种在适生性方面的比较研究。
IanHUNTER在印度的卡纳塔克邦对一年生的印度黄檀、赤桉和大桉幼苗分别做了4种不同的灌溉水平和9种不同的施肥量的研究。最后发现充足的水分和N肥量是印度黄檀快速生长的关键因素。PSMINHAS等用咸水和正常的沟渠水分别对印度黄檀和埃及树胶进行灌溉,得出咸水灌溉使得印度黄檀的生长量比用灌溉时少了53%。BSINGHandGSINGH在焦特布尔对4个月生的印度黄檀的繁殖苗做了5种不同灌溉水平的试验,证明了水分是影响印度黄檀生长的关键因子¨。由于印度黄檀属于喜光树种,在一定的水肥条件下,它的存活率跟种植密度大致成反比的关系。
在印度黄檀的区域性试验中,许多学者主要考虑了水分、土壤性质和种植密度的问题,而忽视了温度因子。在同一气候类型的区域内,由于地形起伏造成局部温度的差异也反映在同种植物生长的差异性上。
在印度黄檀的区域性试验中,应该重点考虑温度、水分、土壤性质和种植密度与生长量、保存率和结实率的关系,并对这些因素做出详细的数据记录,为适生数学建模提供准确的数据。
2.2数量定量区划方法
从2O世纪80年代末开始,数量定量的区划方法应用到林业区划当中,逐步取代传统的带有很大主观臆断性的林业区划方法’。康志雄等应用谱系图聚类分析方法,划分了长江流域以南的杨梅适生性分布区。谱系图聚类分析方法应用简单,但最大的缺点是聚类图不直观,而由星座图聚类分析方法得出的聚类图的效果显然是比较好的。陈建新等运用了主成分分析方法,突出了广东秃杉区划中贡献率较大的因子和优化了各因子在区划中的综合贡献率,取得了良好的区划效果。主成分分析法对多个变量起降维的作用,减少了计算量,但存在丢失有效信息的现象,并且不同统计软件下的主成分分析结果有一定的差别。
在区划过程中,有些个体是介于两个或两个以上的类别之间,带有模糊性。利用模糊数学进行区划更加符合实际。朱斌等对安徽省栽培苹果的生态气候条件进行了模糊聚类分析,初步划出了安徽苹果经济栽培南线引。宋于洋等将层次分析法和模糊数学综合评价法相结合,对新疆天然甜型葡萄酒原料种植区域进行了区划研究,得出了各个地区的适生性评分¨。模糊函数在确定适生性阀值水平时带有主观性,结合其它方法可以提高区划的准确度。
从系统论的角度看,林业生产系统是一个典型的本征灰色系统。树种适生性区划可以用灰色系统理论和方法来解决。张志刚等运用灰色关联度法分析了l0个杂种棉后代在不同生态点的主要农艺及经济现状进行了分析。为了更加客观地进行分类,李宝根在福建省森林景观资源等级区划中,先用灰色关联度法确定各因子的关联度值,再用聚类分析法进行分类,取得了满意的效果。灰色关联度法的计算比模糊数学法要简单,但是容易丢失区域间的边界信息。
利用数量定量方法进行区划,主成分分析法和聚类分析法忽略了引种地与种源产地之间的关系,模糊数学方法虽然较为合理,但计算量比较大。灰色关联度法相对模糊数学方法来说,虽然计算要简单,效果相似,但是与其它数量定量区划方法一样,模型需要大量的原始数据,并且区划结果难以保持区块的空间连续性和行政界线的完整性。
2.3基于地理信息系统技术的区划方法
应用地理信息系统技术进行树种适生性的区划,是目前比较流行的林业区划方法。相对于数量定量方法而言,它具有节省大量外业和内业的工作量以及制图效果好等优点。地理信息系统技术的区划一般先确定区划需要考虑的环境因子,利用DEM图、行政区划图等生成数据底图,再通过数量定量的方法建立各因子对区划的综合评价模型,得出各因子的评分,通过空间叠加分析生成区划图。
朱琳等采用模糊数学的综合评判方法,计算出各要素的隶属度,建立了单因子栅格图层。张超等先用逐步聚类的方法对福建永安县森林资源进行了预分类,然后用ArcGIS得出了以林班和以村为单位的永安市林业区划图引。数量定量方法得出的区划图往往忽视了地域之间的连续性。数量定量的方法与ArcGIS软件结合,能较好地保留地域间的连续性和快速有效地取得区划结果。数学模型是地理信息系统技术进行区划的基础。
ArcGIS在区划中的一个突出特点是可以通过空间插值的方法,根据已知点的数值来生成一些未知点的值J。姚圣贤等在樱桃气候的区划中运用ArcGIS的三角网距离加权平均法对光、温和水三要素进行内插J。为了达到空间插值的目的,在ArcGIS中建立环境因子数据库,利用现有的数据建立一个函数关系式,使这个关系式最大限度地逼近已知空间点的数据,通过ArcGIS的空间分析功能求出某一环境因子或综合的环境因子在某个地区的空间分布规律。ArcGIS的空间插值和分析功能节省了区划工作中大量的外业工作,提高了区划的精度。
3存在的问题及发展方向
印度黄檀是一种抗旱、抗瘠薄的喜光树种。在热带或亚热带地区,水分和土壤性质对其生长起重要的作用。许多研究针对其生长状况与水分、土壤肥力和种植密度之间的关系进行研究。对于区域性试验来说,目前的研究还不能全面反映综合的环境因子对印度黄檀生长状况的影响。
传统的林业区划方法与统计软件和分类绘图软件相结合,大大减少了计算量和提高了制图的效率。其应用简单、数量关系明确等优点仍然使它广泛应用于林业区划工作当中。但是,传统的林业区划方法需要大量的外业数据,而中国地形复杂多样,很多山头地块的数据难以从气象台站或外业调查中获取,区划图精度较低,效果粗糙,只能勉强满足大尺度范围内的区划要求。
利用地理信息系统技术进行区划,克服了传统林业区划中的缺陷,既节省了大量的外业工作,又提高了区划图的精度和效果。基于地理信息系统技术的区划结果,其准确性与选择的数学模型有很大的关系。数学模型的建立只是根据某一时段的环境值建立的,而且区划的效果也因不同的数学模型而有所差异。因此,如何选择和建立合适的数学模型以及如何开发出一个相对通用的区划系统必然是以后研究的方向。
在印度黄檀的适生性区划中,根据研究区域地形和气候的复杂性,可以把整个研究区域分成若干小区,实行分区建模,克服用一个模型推算整个区域环境因子空间分布情况的缺陷,提高区划的精度。