时间:2023-07-11 17:37:18
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇社交媒体文本分析,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:金融学研究;文本大数据;数据挖掘;深度学习
在针对金融学领域进行实证研究时,传统研究方法通常选择结构化数据作为研究依据,常见类型如股票市场数据、财务报表等。大数据技术发展后,计算机技术逐渐成熟,在实证研究中可获取更加多样化的数据,非结构化文本大数据得到应用,例如:P2P网络借贷文本、财经媒体报道、网络搜索指数、上市公司披露文本、社交网络文本等。本文探讨了相关文本可读性、相似性、语气语调与语义特征等。
1.在金融学研究中文本大数据的挖掘方法
传统研究方法通常采用人工阅读方法对文本信息进行识别,因为文本数量庞大、信息构成复杂,人工识别效率较低,而且信息识别质量不稳定,信息识别效果受到阅读者专业素养、理解能力等多方面因素影响。计算机技术发展后逐渐被应用于分析文本大数据,利用计算机技术获取语料,对文本资料进行预处理、文本表示、抽取特征等操作。完成上述步骤后,在研究分析中使用文档特征,从而开展深入分析[1]。在分析文本大数据时,主要采取如下流程:(1)从众多信息来源中获取语料,对语料文档进行解析,明确文本定位,清洗数据,获得文本分词,标注词性,将其中停用词清除。(2)构建词云、词嵌入、词袋模型与主题模型。(3)分析文本情绪、可读性、相似性,分析语义关联性。(4)监督机器学习、词典语法处理[2]。
1.1获取语料
获取语料的方法主要分为两种:(1)人工获取;(2)利用网络工具爬取或抓取。其中人工获取语料投入成本较高,耗时较长,需要投入大量人力,因此网络抓取的可行性相对较高[3]。网络抓取方法可有效应对大量文本量,在一定程度上降低文本大数据获取难度。在网络抓取语料时,需要借助编程语言,通过直接抓取或爬取的方法获取文本大数据。采用此种语料获取模式具有两方面显著优势,不仅获取文本信息耗时较短,效率较高,而且可直接使用编程语言整理内容和规范形式,为后续文本分析工作奠定基础[4]。
1.2预处理环节
获取目标语料后,前期需要预处理文本,解析、定位文本,清洗数据,标注分词与词性,最后去除停用词。金融市场通常要求企业采用PDF格式作为信息披露文档格式,文本预处理中首先需要解析富格式文档,获取文档信息。定位文本和清洗数据环节中,利用计算机程序定位文本信息[5]。在该类研究中,MD&A研究热度较高,使用正则表达式进行财务报告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心内容结构外,还包括超文本标记语文、脚本语等代码信息、图片信息、广告信息等,该类信息在文本分析中属于噪声内容,需要删除和清洗相关信息,从文本中筛选有价值的核心内容[6]。文本分词处理与文本语言密切相关。英文文本使用空格划分单词,即自然存在分词形式,也可采取提取词干、还原词形等方法划分单词。中文文本中不使用空格分词,根据中文语言习惯,词语为最小语言单位,可独立使用。基于此种背景,分析文本时需要专门分词处理中文文本,例如:使用Python开源“jieba”中的中文分词处理模块处理文本,股票论坛帖子文本、年度业绩说明会以及企业财务报告均可使用该类工具处理,完成分词。在针对中文文本进行分词处理时,其中实施难度较高的部分是识别新词、歧义词与控制切分颗粒度。在处理歧义词时,需要科学选择分词方法,采用“jieba”针对文本进行分词处理时,选择分词模式是否科学直接影响分词精准度。分词处理新词时,需要用户在相应模块中自行添加新词,完善自定义词典,从而使分词软件识别新词[7]。语义信息被识别的关键依据是词性等语法特征,词语切分后标记词语词性操作被称为词性标注。词性标注操作可帮助计算机进行词语种类识别,避免词语歧义,对语法结构进行有效识别,从而促进计算机顺利进行语义分析。词性标注时,中英文操作方法不同,词性划分英文单词要求比较严谨,利用词尾变化反映词性变化。在英文词汇中,许多固定词尾可提示详细词性信息。在处理中文词语中,并无明确词性指示,词性识别依据主要为语法、语义等。简言之,英文词性识别标记注重形式,汉语词性标记以语义为主。在处理文本信息时,需要将文本信息中停用词去除,从而保证文本挖掘信息具有较高精度。所谓停用词,即自身词义表达有限,然而对于句子语法结构完整性而言非常重要的词语。停用词导致文本数据具有更繁琐维度,导致分析文本的成本较高。英文中动词、连词、冠词均为常见停用词。中文处理方法比较复杂,必须结合语言习惯分析停用词,不仅需要处理特殊符号、标点符号,还需要处理连词、俚语。除此之外,应根据具体研究内容确定停用词。在进行文本情绪研究时,特定标点符号、语气词等会影响文本表达的情感信息,对于此类信息需要予以保留,从而保证文本情感程度得到准确分析。
1.3文档表示环节
文本数据为高维度数据,具有稀疏特点,使用计算机处理文本数据时难度较高,预处理实施后,必须通过特定方式表示文档信息,通过此种处理降低后续计算机分析和人工研究难度。词云、词嵌入、词袋模型、主题模型均为核心表示方法[8]。词语技术具有可视化特点,是文本大数据技术之一。所谓本文可视化,即使用视觉符号显示复杂内容,展示文本规律。根据生物特性,人们习惯于通过视觉获取文本信息,实现文本可视化可提高信息提取效率。使用词云技术可有效描述文本中词汇使用频率,采用醒目形式显示高频词汇。词袋模型的构建基础是无严格语序要求的文字词组存在[9],以此种假设为前提,文本相当于众多词语集合,采用向量化方法表达文本,在此过程中只计算各个词语出现频率。在词袋模型中含有两种构建方法:(1)独热表示法;(2)词频-逆文档频率法。前者的应用优势是可行性较高,操作难度较低。例如:现有如下两个文档:(1)文档一:“经济学中文本大数据使用”;(2)文档二:“金融学中文本大数据使用”。以文档一、文档二为基础建设词表,根据词序实施词袋化处理,确定词袋向量。对于出现的词,以“1”表示,未出现的词以“0”表示。但是在实际操作中,不同词语在文档中出现频率存在差异,通常文本中高频词数量较少,许多词汇使用频率较低。为体现文档中不同词语的作用,对单词词语赋予权重。TF-IDF是计算文档定词语权重的有效方法。含有词语i文档数描述为dfi,集合中文档总量描述为N,逆文档频率描述为idfi,第j个文件中词语i频率描述为tfi,j,第j个文档内词语数量描述为aj,第i个文档内词语i权重描述为tf-idfi,j,则公式应表示为[10]其中,的前提条件是不低于1,0定义为其他情况。较之独热表示法,TF-IDF方法的特点是对每个单词赋予不同权重。在赋予其权重的基本方法时文本中该词汇出现频率越高,其重要性越高,与此同时语料库中该词汇出现频率越高,则其重要性相应降低。词嵌入处理中,主要是在低纬度连续向量空间嵌入指定高维空间,该高维空间维数包括全部词数量。在金融学领域中进行文本研究时,词嵌入技术通常采用Word2vec技术,该技术中主要使用CBOW技术与Skip-Gram神经网络模型,针对神经网络进行训练,促使其有效捕获词语中包含的上下文信息,对词语进行向量化映射,得到的向量语义信息更加丰富,信息密度更大,信息维度更低。主题模型中应用频率较高的是LDA模型,应用此种模型进行文本分析属于无监督机器学习法,通过此种方法才能够大量集中语料中提取主题信息。在应用该方法时,将生成文档的过程分为两步,首先假定各文档具有对应主题,从这些主题中抽取一个主题,然后假定文档具有对应词汇,对比之前抽取的主题,从词语中选取一个与主题对应的词语。完成上述迭代后,将其与文档中各词语拟合,从而获得各文档主题、主题中词语分布情况。LDA模型主要优势是,与手动编码相比,该模型性能更完善,可有效分类大规模文档。该模型做出的文本主题分类支持复制,准确性较高,而采用人工手段分类文本时较易受到主观性影响。此外,使用此种模型时,无需人工分类进行关键词、规则设定。LDA模型的缺点是在主题预设个数时,受到研究者主观因素影响,选择主题个数的数量受此影响显著,因此生成主题过程与归类文本主题时较易受到相关影响。
1.4抽取文本特征的方法
文本特征是指文本可读性、相似性、文本情绪以及语义关联性。其中文本可读性即读者在阅读文本时是否可较容易地理解文本信息。在编辑文本时应保证文本具有较高可读性,保证投资者通过阅读文本可有效理解文本信息,即确保文本对投资者投资行为产生积极影响。有研究者在文本分析中使用迷雾指数,该类研究认为,迷雾指数与年报可读性呈负相关。年报文本字数、电子文档规格也是影响年报可读性的重要因素。在使用迷雾指数评价文本可读性时,常见的问题是,随机排序句子中词语将导致文本难以理解,然而正常文本和经过随机排序处理的文本在分析计算时,显示相同迷雾指数。不仅如此,在进行商业文本测量时采用迷雾指数作为依据具有显著缺陷,例如,当对企业披露信息进行可读性分析时,难以有效划分年报可读性与该企业实际复杂性。基于此种背景,在针对年报文本可读性进行评价时,需要结合企业业务复杂性等影响,提出非文本因素[11]。在提取文本情绪时,通常采用有监督机器学习法与词典法进行提取操作。词典法即在文本情绪、语气语调研究中使用情绪词典辅助分析。词典确定后,该类研究即支持复制。不仅如此,建设词典时还需要融合大量金融学专业知识,从而使词典与金融文本分析需求一致。使用现有多种类词典、文献等分析媒体报道情绪,针对财务报告进行语气语调分析,以及进行电话会议等进行语气语调分析等。中文大数据分析时,通常是以英文词典、词库等为模板,构建中文情绪词典。使用该类词典辅助分析股票成交量、收益率,评估股市崩盘风险高低。在词典法应用中需要结合加权法进行文本情绪分析[12]。有监督机器学习法包括支持向量机、朴素贝叶斯等方法。采用此类方法时,重点环节在于对分类效果进行检验和评价。交叉验证法是常见检验方法。有监督机器学习法的缺点是必须人工编码设置训练集,工作量较大,并且人工编码较易受到主观因素影响,分类效果鲁棒性较差,并且研究难以复制。其优点是分类精确度较好。
2.文本大数据分析
大数据分析主要是进行财务报告等公司披露文本信息、搜索指数、社交网络文本以及财经媒体报道等进行分析。通过文本挖掘从海量文本中抽取核心特征,分析其可行性、相似性、语义特征、语气语调等,然后分析股票市场行为与文本特征等相关性。分析披露文本信息时,主要是利用文本信息对企业财务、经营、管理层长效经营信息等进行研究。在进行此类研究时,重点是分析文本可读性、相似性,以及分析语气语调。披露文本可读性较高时,有利于投资者有效获取公司信息,影响投资行为。迷雾指数理论认为,财务报告具有较高可读性的企业通常具有更长久的利润。此外,有研究者提出,财务报告可读性直接影响盈余预测离散性和可靠性。财务报告可读性较低时,公司为减轻此种消极影响,可采取自愿披露措施缓解消极影响。管理者通过控制财务报告可读性可对投资者行为做出影响[13]。在针对企业发展情况和股票市场发展趋势进行分析时,披露文本语气语调具有重要参考价值。相关研究认为,MD&A语气内含有增量信息,该类信息为企业长效经营能力进行预测,同时可根据该类信息分析企业破产风险。管理者情绪状态可表现在电话会议语气中,此种语气分散情况与经营决策具有相关性,同时语气对投资者感知、分析师评价产生影响。分析财经媒体报道时,主要关注媒体情绪,分析媒体报道着眼点,针对经济政策进行分析,了解其不确定性,此外还需要研究媒体报道偏向信息、假新闻等。进行社交网络文本研究时,主要是分析策略性信息披露情况与文本情绪。搜索指数研究方面,主要通过搜索指数了解投资者关注度。
结语
我们都知道数据可以分为两大类,一类是数字和符号这样的结构化数据,另一类则是文本、图像和音频这样的非结构化数据。如今,IT领域谈到的“大数据”中,80%以上属于非结构化的数据,而文本又是非结构化数据中最重要的部分。尽管现有技术对数字信息进行分析有相对成熟的方案,但如何高效地分析海量文本信息一直是业界的一道难题。
微软亚洲研究院网络图形组主管研究员刘世霞博士告诉CHIP,之所以现有的文本挖掘技术不够用,首先是因为目前技术尚处于研究阶段,精准度不够;其次是因为技术的灵活性不足,很难满足不同人的需求。她和同组的副研究员崔为炜以及香港科技大学屈华民教授共同主导的TextFlow项目在破解这个难题方面提出了新的思路,他们将文本挖掘技术与可视化这种交互技术结合在一起,不仅突破了传统静态文本挖掘技术的限制,而且能让人利用直观的流式图形迅速把握海量信息的发展脉络。在国际最顶尖的信息可视化学术会议IEEE InfoVis 2011上,TextFlow论文的引发了业内人士的关注。有评委表示,“该论文的主要贡献是在海量文本分析中引入主题合并和分裂的理念,这是分析主题演化时面临的最大挑战之一,从文本挖掘和可视化两个角度来说都意义非凡。”
有趣的是,他们在论文中以自身最熟悉的领域——可视化研究作为其中一个案例,将2001年至2010年间发表在IEEE Vis和InfoVis两个学术会议上的933篇论文作为文本数据集合,通过TextFlow模型得出了与实际学术发展潮流相当吻合的图表,其结论令人信服。例如,整体上看,过去10年间Vis相关主题有日渐式微的趋势,2006年之后各个主题独立发展;InfoVis与之相反,整体的趋势是上升的,主题之间的合并和分割非常多,说明该领域的研究更活跃。
他们是如何做到的呢?崔为炜向我们解释了文本可视分析的步骤(如上图所示)。首先,主要由机器来完成海量文本的收集和预处理工作。然后,利用自然语言分析中的概率模型HDP(Hierarchical Dirichlet Process)计算出文本所属的主题(topic)。这里假设每个主题都是由一组关键词来描述的,关键词以不同的概率出现在不同的主题中,每篇文章自然也会以一定的概率属于不同的主题(注:传统聚类方法会认为每个文本只属于一个主题)。刘世霞强调,HDP模型的优势是可以自动确定文本中的主题数量,但是它只能计算出一组静态文本数据的主题,无法进一步找出主题之间的关系。2010年的时候,他们成功改进了HDP模型,将这个语言模型扩展到能处理动态的文本数据流。简单地说,就是跟踪比较T1和T2两个时刻文本内容的变化情况,由此来确定主题之间是否发生了合并或者分裂。文本分析的最后一步就是利用前面得出的主题演化结果,计算出其中的关键事件和关键词,从而更好地展示事件发展的来龙去脉。
在谈到TextFlow模型对于主题合并和分割判断的准确率时,刘世霞表示目前还没有一个固定的样本集可供测试,但把多个领域的分析结果拿给相关领域专家查看时,他们都认为结果比较准确,可以达到满足应用的水平。另外,我们还了解到TextFlow模型的主要算法本身与语言是无关的,中文与英文的区别主要在于海量文本预处理阶段的分词技术,这方面已经有成熟的技术可以完成。
William Ribarsky是北卡罗莱纳州大学Charlotte可视化研究中心创始董事,非常关注微软亚洲研究院在文本可视分析方面所做的工作,他在美国召开的一次学术会议的发言中提到刘世霞所做的交互式可视文本分析,并称“这项成果令人刮目相看”。在扑面而来的大数据时代,相信未来利用TextFlow模型可以做许多帮助企业提升生产效率的事情。崔为炜向我们演示的案例中既包括对历史新闻事件的回放,也包括跟踪社交媒体的数据预测即将发生的新闻事件。由此引申开来,所有之前难以度量的文本数据或许都能迎来一次重生的机会。在信息时代,谁能把握住信息的脉搏,谁就能更好地把握住时代的脉搏。
文章开头虚构的面试题,大家找到答案了吗?
声音
我们应该把文本挖掘技术和可视化这种交互技术结合在一起,让人去做人擅长的事情,机器去做机器擅长的事情。机器擅长做什么呢?机器比较擅长去存储,做大数据量的运算,而人有分析的能力。因此,我们的工作主要就是把人的智能和机器的计算能力结合在一起。
——刘世霞
微软亚洲研究院网络图形组主管研究员
通过对海量新闻的集合进行数据挖掘,可以知道大概发生了什么事件,但我们利用文本可视分析还可以在此基础上得出这些事件之间的关系,从而帮助人们更准确地把握信息的脉搏。
本文将首先讨论非结构数据处理流程涉及到的主要算法和技术,并在最后列出非结构化处理在典型行业的一些实际应用案例。
一 非结构化数据处理流程
非结构化处理流程主要以网页处理为例来阐述,包括三个阶段,分别是信息采集、网页预处理和网页分类。
信息采集是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程;网页预处理主要是进行一些数据清洗的工作,保证分类质量;网页分类工作则是通过数据挖掘算法训练出来的分类模型,对分类数据进行分类提炼,得出有价值的信息。
信息采集
信息采集面对的是特定的专业人群,其采集的信息只限定于特定的主题和相关的领域,出于对性能和成本的考虑其不必也不可能对整个互联网进行遍历,因此主题信息采集中通常需要研究以何种方式预测链接指向的页面与主题的相关性,并判断其是否值得访问;需要研究以何种爬行策略访问Web,以在尽可能多地采集到主题相关页面的同时尽可能少地采集到主题无关的页面。
信息采集的基本方法是通过预先设定的种子链接集,利用HTrP协议访问并下载页面,在用各种分析算法分析页面与主题的相关性之后提取出待访问的链接,预测链接指向主题相关页面的可能性,再以各种不同的爬行策略循环迭代地访问网页。
信息采集根据基于主题的不同可分为以下两类:一类是基于内容的主题信息采集:它需要建立一个针对主题的词表。另一类是基于超链接的主题信息采集:它是基于网页之间的引用关系,类似Page rank算法。
网页预处理
网页预处理部分本文主要介绍一下网页去重,网页去重可以归为两类:一类是基于URL的对比去重,它适用哈希算法;另一类是基于内容的对比去重,它适用基于信息指纹的文本相似度算法。
网页去重需要先对文档对象的特征抽取,需要将文档内容分解,由若干组成文档的特征集合表示,该步骤主要是为了方便特征比较计算相似度。之后需要针对特征的压缩编码,主要通过哈希编码等文本向数字串映射方式以方便后续的特征存储以及特征比较,起到减少存储空间,加快比较速度的作用。最后需要进行文档的相似度计算,这一步需要根据文档特征重合比例来确定是否重复文档。一般是对网页提取一个信息特征,通常是一组词,或者是词加权重,调用特定的算法,转化为一组代码,也被称为指纹。若两个页面有相当数量的相同指纹,那么可以认为这两个页面内容重复性很高。
网页分类
分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确地分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有以下用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的URL所属的类别来推断检索串的类别等等。
网页分类方法有SVM分类方法和朴素贝叶斯方法:其中比较推荐的是SVM分类方法,Vapnik等人在多年研究统计学习理论基础上对线性分类器提出了另一种设计最佳准则。其原理也从线性可分说起,然后扩展到线性不可分的情况。甚至扩展到使用非线性函数中去,这种分类器被称为支持向量机(SupportVector Machine,简称SVM)。支持向量机的提出有很深的理论背景。支持向量机方法是在近年来提出的一种新方法。
典型的SVM分类有两种,一种是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;另一种是基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
典型的朴素贝叶斯分类,它可以分为模型训练、模型分类和分类结果评估三个阶段:模型训练阶段,主要计算训练集下所有类别的先验概率,以及所有特征词在每一个类别下的条件概率;模型分类阶段,对训练集建立模型;对每个待分类文档计算后验概率,后验概率大的类别为文档所属类;分类结果评估阶段:对分类结果进行抽样、人工检验。分别计算出每个类别分类的查准率和查全率,通过F―度量公式评估模型准确度。
二 自然语言处理的典型方法与应用
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
自然语言处理部分主要以舆情分析为例,舆情分析系统的数据来源有三个渠道,一是网络上公开的信息,如各大交易所每日评论,社交网络各方观点和财经门户网站。二是从合作方获取的信息,如交易信息等。三是微博、人人网等社交网络信息。
网页信息摘要
网页信息摘要需要将同一主题下的多个文本描述的主要信息,按压缩比提炼出一个文本的自然语言处理技术。对于互联网上海量的期货分析报道,如果能从中提炼出一个覆盖性强、形式简洁的摘要将具有重要的意义。
如何收集企业的战略信息?面对海量信息,一个研究员需要花费4个小时阅读相关信息。借助语义引擎,把50篇文献缩略成10余条概要,面对概要信息,一个研究员需要花费3分钟阅读相关信息,并形成思考。借助文字情绪引擎,把概要内容指数化、知识化,面对指数信息,一个研究员需要花费2秒钟阅读相关信息,并获得决策支持所需的知识。
热点事件预测
热点事件的发现与预测的算法有很多,最行之有效的方法是做大规模的逻辑回归。在大数据的背景下,我们拿到的数据是全量并非抽样,这使得类似逻辑回归等简单算法起到事半功倍的效果。通过历史事件传播数据,提取向量,并做逻辑回归出规则,就可以做很多预测。例如美国大选,疾病传播,甚至预测死亡。
维克托・迈尔-舍恩伯格写的《大数据时代》一书中就有这么几个关于热点事件预测的案例:
案例一:华尔街“德温特资本市场”公司首席执行官保罗霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。他的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。这一招收效显著――当年第一季度,霍延的公司获得了7%的收益率。
案例二:美国一个超市将女性顾客中的孕妇视作购物的黄金消费者。为了将这部分目标人群在怀孕前就争取过来,该超市通过调查罗列出几十种购物偏好,当某位顾客的收银条上集中呈现这类商品时,就会被认定为可能是孕妇或家中有孕妇,超市随后向其发送孕妇产品广告。一次,当有人以“家中并无孕妇却总是收到相关产品广告”为由控告这家超市后,却发现原来是自己还在上高中的女儿怀孕了。
案例三:2009年甲型H1N1流感病毒出现,在没有疫苗的情况下,公共卫生专家能做的只是减慢传播速度,要做到这一点,专家必须先知道流感出现在哪里,这只能依靠各地医生发现并告知疾控中心,信息肯定是滞后的。可是,Google的工程师们比疾控专家更早地判断出流感从哪里传播出来,他们依靠的就是Google所掌握的大数据。
历史相似事件可使用文档相似度比较。文档相似度比较算法首先采用TF-IDF方法把文档建模为词频向量,然后使用向量距离计算算法求得。常用的距离计算方法如:Jaccard距离、欧式距离、余弦相似度等。
情感分析
正负情感度量化统计分析一般用于分析金融机构和大众对期货产品的态度、情感和观点倾向,对行情走势往往具有十分重要的意义。通过对收集来的信息进行情感度分析后,可以统计出社会舆论对期货未来走势的观点倾向度。通过计算历史舆论观点与走势的相关度可以验证情感度分析模型的有效性。
情感词监测模块是通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,实现热点信息的实时发现。通过搜索引擎抓取情感关键词热度,计算关键词与趋势相关性。
主题词表的优劣在相当程度上影响了系统后续的信息采集内容和效果。首先,由领域专家给出相关领域的权威网站作为基础语料来源,通过对权威网站网页内容的整站抓取获得领域语料资源。之后对语料资源进行中文切分词和词频统计,获得一张高频词表。再由领域专家对高频词表中的高频词汇进行整理,人工选取出与领域相关的词语。然后,对从高频词表中选取出的领域主题词进行上位词(花是鲜花的上位词,植物是花的上位词)、下位词、同义词、近义词扩展,去除重复词汇,从而最终形成相关领域的主题词表。在信息采集系统后续的采集中还将不断收集相关领域的新词汇,在发现领域新词后加入到领域主题词表中,形成系统性的反馈机制,从而不断对主题词表进行更新维护。
正负情感度量化统计分析是从抓取的文章中进行情感度分析打分,分数范围为不等。负数越大表示负面观点强度越强,正数越大表示正面观点强度越强,0表示持有中立态度;通过情感度分析可以统计出一段时间内社会舆论对于某个话题的正负面态度,舆论压力往往可以导致市场波动。
情感词检测通过对金融期货网站定时采集更新,对舆论话题进行连续监控,提取热点关键词,出现频率较高的词语作为热点信息词,实现金融热点的实时发现。
趋势分析和预测
根据交易的价格曲线走势,与综合指数对比,使舆论指数趋势体现与交易价格曲线的相关性和一定的前瞻性。通过构建时间序列模型,对未来走势进行预测,如图1所示。综合指数包括各个相关因素的变化趋势(天气因素等)以及舆论指数。
三 行业应用案例
数据挖掘和自然语言处理的应用范围广泛,其中也不乏一些有意思的案例,它可能应用于运营商、银行、传统企业和券商,挑选几个具有代表性的案例与大家分享。
电信行业
某城市电信运营商的上网日志分析系统,该系统通过收集用户上网日志历史记录数据,分析出每个用户的偏好。首先该系统通过并行统计清洗出每个人有效历史上网日志URL;然后从日志URL中抓取网页内容,提取正文,并通过文本分类算法计算分类;最后通过统计出每个用户上网关注类别总数,分析出每个用户的偏好。
金融行业
某大型股份制商业银行供应商风险评估系统,该系统通过抓取供应商内部数据,如企业年报、公司变动、领导情况、财务状况等数据,分析公司运营指数;通过计算各供应商社交数据,对其社会影响力做评估;通过同行之间的数据分析对比,对供应商进行实力评估。这些数据指数可以有效协助商业银行进行供应商风险评估。
地产行业
某房地产企业的社会化品牌实时营销系统,该系统通过社交媒体(微信、微博等)数据,进行网络口碑监测,负面情绪被及时发现并制止;通过与客户进行互动,争取客户忠诚度;通过监控同行及竞争对手的各方面资讯,量化评估竞争态势;快速提升品牌知晓度和美誉度,将媒体影响力转换为客户量,缩短人气聚集周期。
证券行业
【关键词】移动互联网 运营模式 澎湃新闻 今日头条
作为上海报业集团改革后问世的第一个新媒体成果,澎湃新闻自2014年推出以来,其网站、微博、微信公众平台及新闻客户端等多款新媒体产品共同推进,作为传统媒体数字化转型的样本,澎湃新闻的多媒体融合及数字化发展模式具有一定的研究意义。
今日头条则是完全脱胎于互联网环境、基于数据挖掘技术的新媒体产品,以移动客户端为主打产品。自2012年8月上线至2015年12月以来,今日头条已吸纳用户超过3.5亿,且在2014年6月获得1亿美元的C轮融资,并仍保持每天超过3500万的用户增长速度。这一基于数据挖掘技术和数据算法来完成的新媒体项目,对媒介融合和新媒体的创新发展也具有可研究价值。
一、平台:多渠道并进与专注APP的差异
(一)多渠道并进的澎湃新闻格局
媒介渠道是新闻信息流动的通路,合理有效的媒介布局是信息有效传播的基础。①向社交媒体平台延伸已成为传统媒体应对移动互联网时代的挑战、寻求生存渠道必不可少的转型方式之一。具备多元化传播渠道的澎湃新闻,不仅注重多平台内容传播,也重视不同平台间的关联性。基于网络端与移动端的使用差异,其界面设计和部分细节功能上也有所差异,而且相较于网站或WAP网页版的运作,澎湃新闻更重视对移动客户端的推广,例如其网站首页右侧顶端吸引用户的位置展示对移动端的推广信息,首页右侧则放置了微信二维码提醒用户扫码下载客户端。这种推广趋势意在表明,移动客户端在未来将会成为澎湃新闻的主要推广平台,也是其未来应对移动互联网发展进行多媒体转型的主要渠道。但重视推广移动客户端的同时,与同类新闻客户端相似,澎湃新闻也在客户端的文章结尾处提供了微博、微信等社交媒体的分享按钮,以期以此形成信息的多平台、多层次传播。
尽管如此,澎湃新闻以移动客户端为主要新媒介传播平台的渠道战略趋势仍较为明确,例如在其新浪微博和腾讯微博的每条博文中,都附有下载移动客户端的超链接,其官方微信账号的菜单栏设置有“下载APP”的按钮,且每篇推送文章结尾处也都提示读者通过“阅读原文”下载移动客户端。值得注意的是,除了澎湃新闻的官方微信之外,其运营团队还推出了包括“市政厅”等与其新闻客户端的子栏目同名的微信公众号,并分属给各自的内容团队运营,从而形成多平台紧密联系又各有专攻的渠道运作结构。
(二)以客户端为主的今日头条数据挖掘者
今日头条平台最大的特点在于它以自己的客户端为连接点,链接各大新闻门户网站的热门新闻,使其以新闻聚合工具的身份出现在媒介市场和公众视野。根据其对自身“基于数据挖掘的推荐引擎产品”而非新闻客户端的定位,今日头条得以运营、推广和盈利的基础是技术。如何实现网络媒体资源的再利用和再传播是今日头条的关注焦点。作为新闻聚合类应用,今日头条的算法模式与美国Prismatic公司有相似之处,即“收集网上资源并排序,这种排序建立在文本分析、用户喜好、社交网络普及和大数据分析的基础之上。”②这与其公司属性有关:虽然今日头条是新闻类产品,但其公司六成员工为技术开发人员,使该产品可以根据算法技术对用户偏好进行较为精准的分析与判断,并通过智能推荐方式,根据用户对推送设置的偏好,向用户实时推送信息。
同时,作为一款社交媒体,今日头条并不局限于重点打造的客户端平台,与澎湃新闻的多媒体关联运作方式相似,今日头条的客户端也通过分享功能将其与自身的微信、微博等其他社交媒体平台相关联,为用户收藏、分享或转发新闻资讯提供可能。这一方面使用户成为今日头条资讯的二次传播者;另一方面,通过用户自发传播的方式,今日头条也通过其他社交媒体平台再次推广了自己的移动客户端。
二、内容:侧重时政与海量信息的差异
(一)专注时政与思想的澎湃新闻
澎湃新闻的定位是“专注时政与思想的互联网平台”,以此定位为基础,“内容原创”成为澎湃新闻致力发展的目标和方向,同时也是其重点打造的核心竞争力。凭借上海报业集团的新闻品牌和公信力优势,澎湃新闻采集并汇聚大量原创报道,突出内容的独特性和不可替代性。而且澎湃新闻的采编队伍依托其传统媒体――《东方早报》,在内容采编观念上与传统媒体“内容为王”的核心理念相契合,使其能够利用并强化基于纸媒基础发展起来的深度报道特长,将内容集中在“时事、财经、思想、生活”四个方面,以时政新闻报道为主。同时,澎湃新闻并不拘泥于单一的新闻报道角度,而是多视角、多方面地报道同类新闻。
此外,澎湃新闻还推出“问吧”栏目,以此来汇集互联网的海量、碎片化的优秀原创内容,从而实现内容生产的规模化。这种富有针对性的内容生产方式,加之其传统纸媒的内容生产基础,使其在新媒体产品的界面设计上也继承了传统纸质媒体的特点:简洁、干净。以其移动客户端为例,首页为重大时政或财经事件的图片新闻,每则新闻的布局为上图下文,且文字不超过两行,一目了然。界面左侧的下拉菜单为不同栏目的菜单栏,右侧的下拉菜单则是为用户提供了可定制的新闻选择项目,用户也可以根据自己的偏好设置该移动客户端界面,但并不会对该客户端界面的基本布局和设计做出较大改观。
关键词:在线产品评论;文本评论;文本挖掘技术
基金项目:教育部人文社会科学研究青年基金项目:“网页中产品属性文本信息对消费者购买决策的影响机制研究”(编号:14YJC630204)
中图分类号:F724.6 文献标识码:A
收录日期:2015年5月31日
网络购物用户在网上购物时很多人都会浏览参考其他人对商品的评论信息,并且在购物后进行在线评论。2006年开始对在线产品评论的研究不断增多(李恒,2015)。由于该研究主题涉及信息系统、电子商务、消费者行为、图书与情报科学等多个不同领域的交叉,相关研究文献较难得到系统性的整理。本文拟从在线评论的特征、作用、分析技术这三个方面对这些文献进行梳理。值得注意的是,由于文献涉及范围过于广泛,为了使本文综述主题聚焦,文中关于在线评论的文献仅局限于商家购物网站的购买者评论,也称为在线产品评论。其他在线评论或者在线口碑形式不在讨论之列,比如第三方平台的评论(影评、试乘试驾评论、点评网站评论等)、社交媒体中的产品或企业评论(各类口碑、舆情、内容营销及互动等)。
一、在线产品评论特征
李恒(2015)把消费者的在线评论特征总结为分属于评论星级和文本评论两种形式下的12种维度。其中,评论星级指的是购买者对该次购物的总体评价。这种形式中没有分出更多的维度,因此评论星级就是一个维度。在文本评论这一形式中,有评论标题、评论内容一般特性、评论内容的语义特征、评论内容的时间特性这四类。在这四类中分别包含了评论标题、评论质量、评论数量、评论长度、评论差异性、评论效价、评论类型、评论可读性、评论强度、评论及时性、评论时效性等11个维度。这12个维度具体的隶属关系以及其研究焦点属性本文将其整理至表1中。接下来本文针对表1中的各种在线评论特征维度和其研究焦点属性逐一进行解释。(表1)
评论星级指的是购买者对该次购物的总体评价。这种形式中没有分出更多的维度,因此评论星级就是一个维度。通常的研究焦点在于评论星级的极端性与中立性的作用。以大部分购物网站采用的五星评分制度为例,评论星级的极端性即一星为代表的极端负面评价与五星为代表的极端正面评价,而三星反映中立态度。
接下来的文本评论中包含了网购用户有文字留言内容的评论中的各种特性的研究维度。大略可以分为文本评论标题和文本评论内容两类,文本评论标题是评论者对评论内容的文本概括,在除了在线产品评论以外的在线评论中比较常见。通过评论者自拟的标题使浏览者容易从标题的关键词以及总体情感倾向中搜索以及快速知晓评论整体内容,但是在购物网站的用户评论中设置标题的并不多,比如国内的淘宝、京东等购物网站的用户评论中均没有设置文本评论的标题。因此,本文中不再赘述。文本评论内容就是网购用户用文字留下的购买感受的评价内容,李恒(2015)将其特性分为一般特性、语义特征和时间特性三类。本文在介绍完表1这些特征之后,再对其中未包含的一些特征进行补充。
评论内容的一般特性包括评论的质量、数量、长度和差异性。其中,数量和长度比较好理解,就是该产品下购买者的累计评论的总数和评论的文字字数长度,其研究属性也是总数和字数长度的计量值。评论质量特性借鉴了霍夫兰德的说服模型中信息内容对说服效果的影响作用,强调了在线产品评论作为消费者用来参考购买的有用信息,信息的浏览者对于产品评论信息的真实性、可靠性、内容与其所评价的产品的相关性以及是否为后续购买者提供了大量有用的信息这几个方面的主观感知(郭国庆,2010;李宏,2011)。其研究属性也基本围绕这几个有关信息质量评价的主观因子展开。评论差异性,即评论离散度,能显示不同评论中购买者态度或观点上的分歧程度。其研究属性通常采用评论者对网络平台设置的评分项打分的方差或标准差来度量。
评论内容的语义特征包括评论的效价、类型、可读性和强度,这些特性都与文字评论的文本内容的表达有关。简单来说,效价代表了文本内容的词语描述中总体体现出来的情感倾向,其研究属性有正面、负面和中立(或综合)之分;类型代表了文本词语中对产品属性及其体验的描述是客观还是主观之分;可读性代表了评论文本词语中每个评论者其自身带有的语言习惯表达、拼写、词汇选择、句长句式语法等是否容易让浏览阅读的人理解,因此其研究属性也是浏览评论者的一种主观性的感知(Korfiati,2012);强度代表了评论文本词语措辞中表现出的情感态度的强烈程度,其研究属性主要集中于浏览者对负面口碑中负面情绪强度的感知程度(黎小林,2007)。
评论内容的时间特性包括及时性和时效性,这两条特性与评论的时间信息有关。评论及时性代表评论时间与购买时间的间隔远近,研究属性是评论发表的天数,但是究竟天数长好还是短更好可能并不是简单的线性关系,因此到底是否及时的判断也就比较模糊了;而时效性代表评论时间与现在(浏览时间)间隔远近,以及是否在最近有频率较高的密集评论,这反映了该产品的近期火热与流行程度,研究属性是评论浏览者对时效性强与弱的主观评价(刘逶迤、逯万辉,2010;郭国庆等,2010;龚思兰等,2013)。
其他表1中未提及的较为重要的特性还有评论者特征等等。评论者的特征包括评论者是否匿名(身份知否披露)、评论者的专业性、评论者的声誉、排名等等(Racherla P,Friske W,2012;Hyunmi et al.2012)。这个部分我们只是将这些现有研究中涵盖的特征进行了简单归类和罗列,其中有些特征在技术、功能和研究范式发展过程中会出现不同程度的交叉重叠和所属类别上的变化,在后文中会有所提及。
二、在线产品评论作用
以上谈到的是在线产品评论的特征,对于在线产品评论的功能研究者们也有所探讨。在线评论的功能一方面包含有大量产品属性、使用价值方面的描述信息可以给潜在购买者信息上的借鉴,帮助他们降低不确定性风险;另一方面评论中含有大量购买的情感体验和表达信息,对商品有强大的推荐作用,大量比较集中的正面或者负面评论会引起潜在购买者的从众行为,影响他们购买或者不购买的最终决定。遵从这些意见购买产品(Park DH,et al.2007;Duan W J,et al.2008)。关于评论功能的衡量焦点主要集中在评论信息质量(评论有用性),评论可信度和消费者态度形成与改变以及具体的销量数据等。
Mudambi和Schuff(2010)从信息经济学中信息的诊断性角度定义了评论信息质量。早期的评论信息质量的评价并不局限于文本评论,但随着研究者对评论内容特征的关注,评论质量越来越多用来反映文本评论内容对浏览者的信息参考价值。正如上文中提到对于文本评论而言评论质量包含真实性、可靠性、相关性、有用性四个方面。借鉴技术接受模型TAM中人们接收新技术会受到对新技术感知有用性的影响这一思路,评论质量中关于评论有用性的评价指标更加受到重视,并成为判断评价信息功能的主要研究变量。早期的评论有用性研究将评论星级及评论长度作为评论有用性的衡量指标,其好处是指标简单,易量化。后期产品评论研究的重点转向文本内容认知,对于文本内容有用性的划分采用了评论长度和可读性两个维度来衡量,有的研究中也将评论有用性定义为评论感知价值(Schindler&Bickart,2012)。由于当前对文本内容分析的方法是基于文本语义属性的挖掘方法,对于在线产品评论相关特征的数据采集和统计大都是通过网络信息搜索软件实现,因此目前评论有用性的衡量通常是用网站中评论有用性的排名数据统计来替代。但是并不是所有购物网站的评论系统中都会设置评论是否有用这一浏览者打分机制,并且受到文化的影响,即便网站设置了这一功能,国内的消费者也没有去给评论打分的习惯。因此这种衡量方式的有效性也一直受到争议。
研究中与评论有用性常常共同出现的一个衡量评论的功能的变量就是评论的可信度。由于在交流有关研究领域发现可信度与劝说性之间的强相关,可信度被用来作为评论信息是否对潜在消费者态度以及行为有强的劝说性的衡量指标。从信息传播的角度来说,信息源、消息和接受者是信息评价的3个主要的信息元素。因此相比于有用性,在线评论的可信度更强调从评论强度、信息源的可信度、评论间的一致性、评论累积排名等维度来度量,从已有的研究文献来看,其中又主要侧重于对信息源可信度的判断,也就是对评论者的可信度的判断(Cheung等,2009)。Lis(2013)将信息源的专业度和值得信任程度作为信息源可信度的衡量标准和评论排名一起作为评论可信度的决定因素,其中值得信任程度中包含评论内容的质量、与其他评论的一致性以及其他消费者对评论的认可这几个方面。因此,评论可信度与评论有用性是有交叉又各有侧重的两个研究变量。研究者会根据研究方法以及目标选择其中合适的变量作为对评论功能的衡量。不过由于目前侧重于文本评论数据挖掘的研究方法所限,还是以有用性的排名统计作为评论价值功能的衡量更多见。
其他还有一些研究变量,比如将浏览者看完评论信息以后持有的态度作为衡量评论功能实现的衡量指标,比如对产品的购买意愿、感知的产品质量、满意度、忠诚度等(Reyes A & Rosso P,2012;Chang & Yen,2013),以及直接用企业经营数据,比如产品的销量、企业收入、公司股价来作为评论的作用,不过后两者多用于第三方评论或者公众舆论有关的评论效果研究中,与在线产品评论有关的经营数据最主要的还是被评论产品的销量数据(Sonnier等,2011)。
三、在线产品评论分析技术
在线评论信息挖掘研究集中在信息系统、电子商务管理科学等领域。近几年,在线评论信息挖掘日益成为在线产品评论研究的热点,由于文本挖掘技术的研究进展还处于不太成熟的阶段,各领域中计算机科学和信息科学领域对文本挖掘技术的研究居多。文本挖掘技术和自然语言处理等技术现在已经能对半结构化和非结构化数据进行挖掘,在线评论的表现形式为数量众多且非结构化的文本,但是如何提高对在线评论的挖掘精确度也一直是技术研究领域关注的焦点。目前,在挖掘技术上的研究集中于信息抽取、情感分析和文本分类这三类主流研究方法。信息抽取是情感分析的基础,同时信息抽取和情感分析又是文本分类的基础。信息抽取主要是通过对评论中描述产品性能或功能的名词或短语进行关键词的抽取,情感分析是通过语义分析对评论中需要联系上下文才能理解评论者表达效价进行情感倾向的判断,挖掘出的信息结果包括抽取的主题特征 (价格、质量、外观等)、情感倾向 (正面、中立、负面)、文本类别(主题和情感类别)。以情感分析为例,当前所广泛采用的文本语义属性分析的挖掘方法是不够成熟的,无论是词语极性推测法、点互信息法、抽取主观表达式法还是构造情感词典法,都是基于文本内容字面信息的加工和处理,而文本内容所包含的潜在信息却是无法挖掘的,如说话人的语言风格所反映出的评论人所属的用户群体或专业程度等,因此仅从字面来进行情感倾向的判断存在一定的不精确性。
但是也有越来越多的学者在信息抽取和文本挖掘的基础上从实证研究角度对在线评论的有用性、对消费者态度以及商家销量的影响等进行研究。有学者利用主题特征信息抽取技术从在线评论中抽取产品特征和主题信息,并以此研究发现评论中消费者提及最多的产品主题特征并不一定对他们的满意度影响最大(You WJ,et al.2012)。Cao等(2011)运用潜在语义文本分析文本挖掘法(LSA)应用logit回归模型研究了评论星级、评论时间、评论字数、评论中包含的句子数、语义特征(评论中的情感倾向)对评论有用性投票数的影响,经过发现评论的语义特征对评论有用性影响最大。Min和Park(2012)从评论者经验这一角度出发应用文本挖掘和实证分析方法研究如何根据评论者经验识别出高质量评论。还有研究者通过对手机评论进行情感分析,识别手机是否存在过度的功能设计并以此获得更多的顾客满意度来提高销售绩效(Liu P,et al.2010)。未来随着文本挖掘技术的进步,分析精确性不断提高,相信这类结合实证方法证明在线产品评论商业应用效果的研究也会越来越多并得出更有价值的结论。
四、结语
综上所述,在线产品评论现阶段为止的研究有以下三个方面的特点:第一,研究中关于在线产品评论的一般特征,内容特征,评论者特征等等这些特征形式早期研究较多。虽然在研究发展过程中会出现不同程度的交叉重叠和所属类别上的变化,但随着购物网站评论体系设置的成熟化,这些特征形式基本稳定下来,并且主要的特征属性都集中在评论文本的特征描述中,这也说明了文本评论的重要作用。因此,现阶段的研究主要集中于评论文本内容的深度挖掘带来的新的特征属性;第二,文本挖掘技术和自然语言处理等技术现在已经能对半结构化和非结构化数据进行挖掘,而在线评论的表现形式为数量众多且非结构化的文本,如何提高对在线产品评论的挖掘精确度也一直是技术研究领域关注的焦点。正因为文本挖掘技术的研究进展还处于不太成熟的阶段,现阶段的挖掘主题比较少,情感分析精度也不够高,因此其他领域即便将现有挖掘技术应用于实证研究中,也难以得到稳定的和有价值的结论。相信未来随着文本挖掘技术的进步,这类结合实证方法证明在线产品评论商业应用效果的研究也会越来越多,并得出更有价值的结论;第三,在商业应用研究领域,如何选取合适的研究变量和指标,比如消费者行为变量及观测指标来与文本挖掘技术得到的计量数据相结合,从而实现更准确有价值的实证研究,也是在研究方法上需要继续探索和解决的问题,比如目前用网站评论有用性的排名数据统计来替代评论有用性度量的方式过于单一且准确性受到质疑。
另外,还有两个在线产品评论研究中比较集中的主题未来也可能会继续发展:一个是购买者参与评论的动机及其在社交网络中的作用;另一个是对购物网站上越来越多出现的虚假评论现象的研究,目前的研究集中在虚假评论的识别以及其影响方面,未来随着消费者的经验增加以及网站成熟运作,这方面的研究还会有新的热点出现。
主要参考文献:
[1]李恒.在线评论特征的维度综述[J].企业技术开发,2015.1.
[2]李宏,喻葵,夏景波.负面在线评论对消费者网络网络购买决策的影响,一个实验研究[J].情报杂志,2011.5.
[3]龚思兰,丁晟春,周夏伟,巢乃鹏.在线商品评论信息可信度影响因素实证研究[J].情报杂志,2013.32.11.
[4]宋晓晴,孙习祥.消费者在线评论采纳研究综述[J].现代情报,2015.1.
[5]罗彪,丛日飞.留、传、搜、用:消费者行为视角下的电子口碑研究综述与展望[J].外国经济与管理,2015.37.8.
[6]You WJ,Xia M,Liu,L,et al.Customer knowledge discovery form online reviews[J].Electron Markets,2012.7.7.
关键词:大数据;电信行业;精准营销;客户管理
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)17-0275-02
1概述
随着互联网技术普及与应用,全球数据生成量呈现爆炸式增长从开始的字节、经过KB、MB、GB发展到TB、PB,甚至EB、ZB级,大数据具有4V特征:Volume(数据规模大),Velocity(数据流转快),Variety(数据类型多),Value(数据价值大)。各行业将面临对海量数据的处理和分析,运用大数据技术挖掘出有价值的信息,将是行业发展面临的机遇和挑战。如今大数据在行业领域已经得到广泛应用,取得不错商业价值,如搜索引擎Google、电子商务平台阿里巴巴、亚马逊等。
麦肯锡咨询公司曾经预测:“数据,已经渗透到当今各行业领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。中国移动前董事长王建宙用两句话概括大数据对企业发展重要性:第一,企业利用大数据资源分析处理,运用分析结果,产生新的商业价值;第二,大数据改变了人们观察世界的方法,抽样样本从原来的片面、有选择和数量有限的样本到现在的全体数据、随机性的样本,这样产生的结果说服力强,具有代表性、可行性和实用性。
电信运营商采集到数据信息,这些数据来源广、数据类型丰富和关联性强等特性。有财务收入、业务发展量等方面结构化数据,还要涉及文本、图像、动画、音视频等非结构化数据。信息来源渠道有电子渠道、实体渠道及直销渠道等途径。有的来源于终端信息、位置信息、互联网行为、用户身份、网络信息节点、CRM信息及消费行为,也会涉及公众客户、政府客户、企业客户和家庭客户。如何充分利用这些大数据,挖掘分析更大的价值,提高运营商经济效益,笔者重点就如何充分利用大数据在电信行业市场与精准营销和客户关系管理两个方面进行分析。
2市场与精准营销
电信运营商通过各种商业化平台采集到大数据,通过数据分析,可以洞察客户的消费心理与消费行为,可以帮助企业定位合适的客户,选择合适的推广内容和渠道、优化产品质量。
2.1客户画像
客户画像就是对客户信息进行标签化,分析客户行为、生活、消费习惯,为企业提供精准的用户群体和用户需求等信息。客户画像是大数据运用的根基所在,一个完整用户画像有战略解读、建模体系、维度分解和应用流程四个阶段。而电信运营商可以根据客户基础属性、位置信息、互联网行为等丰富的数据资源,为每个客户打上人口统计学特征、消费行为和上网行为标签,并借助数据挖掘中关联规则分析、聚类算法分析、RFM模型(Recency最近一次消费、Frequency消费频率、Mone-tary消费金额)等手段对潜在客户进行分群,完善客户的360度画像,提升广告投放的精准度。
2.2关系链研究
关系链研究就是大数据之间关联分析,通过大数据之间关联性,寻找商机。电信运营商可以通过分析客户通讯录、通话行为和社交圈等数据信息,开展交友圈交往信息,通过社交网络对用户进行分析,通过大数据分析方法发现朋友圈关键人员,如家庭、政治和企业的重要客户,寻找圈子营销机会。为提高营销精准度,假设通过朋友圈大数据分析有很多高流量的用户,我们就可以向这部分群体推荐4G套餐业务,还有在这部分高流量用户群体中,发现有异网用户存在,我们就可以向这类人群推广4G业务,从而把异网高流量用户引导我们的网络,从而扩大消费群。
2.3精准营销和实时营销
精准实时营销就必须依靠先进的技术手段实现,就是在合适时间和合适地点给合适用户推荐合适的内容及产品。首先对客户特征的深入分析,建立客户基本信息、资费套餐、终端设备类型等信息,然后在网络上精准匹配,满足客户需求基础上选择合适时机,合适方式推广合适产品,实现精准营销。可以根据用户终端偏好、合约机到期时间、消费能力等信息,及时捕捉特征时间,从而预测客户购买需求,通过短信、呼叫和营业厅等渠道投放营销广告。在精准营销方面,英国O2免费推出WiFi服务就是一个例证,该服务积累更多用户,收集大量用户数据,是运营商做媒体广告和营销的基础。
2.4个性化推荐
为进一步提升客户体验和感知,以适应市场需求,通过观察客户数据,预测客户行为关联性,为客户提供个性化服务和营销方案。利用客户终端信息、消费特征、行为习惯和交友圈等客户数据仓库,运营商可以为客户提供定制化的服务,优化产品、流量套餐和定价机制;或在应用商城、电商平台和社交网络实现个性化推荐。
3客户关系管理
3.1客服中心优化
客服中心是运营商和客户接触最多的部门,拥有大量的客户呼叫行为和需求基础数据。运用大数据技术可以深入分析客服热线呼入客户的行为特征、选择路径和等候时长,并关联客户历史接触信息、业务特征、客户机型等数据,在客户投诉智能识别系统,运用大数据进行智能语义文本分析,识别热点问题及用户情绪,及时预警和优化,降低客户投诉率,每年节约成本达到数百万。
3.2客户生命周期管理
客户生命周期管理是按照客户关系发展分为新客户获取、客户提升、客户成熟、客户衰退和客户离网五个阶段,关于客户生命周期划分,不同<矣胁煌阶段,个人认为将客户生命周期分5个阶段还是比较适合电信运营商的实际情况。在新客户获取阶段,我们可以通过算法挖掘和发现潜在客户,通过合适渠道提供合适价值定位;在客户提升阶段,通过关联规则技术,挖掘商业通过刺激需求产品组合和服务组合进行交叉销售,培养高价值的客户;在客户成熟期,可以通过大数据分类分析、聚类分析和RFM方法进行客户分群并进行精准推荐新产品,对培养客户忠诚度;在客户衰退期,利用大数据进行客户预警机制,提前发现高流失风险客户,及时推出新产品,延长生命周期;在客户离网阶段,利用大数据挖掘技术赢回客户,国内外运营商在客户生命周期管理方面有很多成功案例。如T-Mo-bile公司采用Informatica平台,通过大数据综合分析客户流失的原因,使某一季度用户流失率减半。
想做互联网产品方面的创业,首先要考虑的是“到底要做什么样的产品?它要满足哪些需求?这些需求的必要性如何?”。
之后便会考虑,“该如何延长这款产品的生命周期,不至于很快过眼云烟?”,这个问题恐怕是许多互联网产品都存在的,也是创业者最费心的问题。因为,决定做什么不难,难的是如何持久。
最后,一个很隐晦的问题便会出现。“满足需求和产品生命周期之间究竟有没有关系?”“如果有的话,又是什么样的关系?”
大家的讨论七嘴八舌,各有见地,不过我却上了心,对创业风起云涌的时代“究竟该如何做互联网产品?”这个问题细细想了一番。
一、“我认为产品好,一定能大卖”的时代早已过去;做互联网产品应从“产品思维”向“用户需求思维”转变
仍以想做大数据产品的朋友为例。
对方问:
我想做一款基于大数据分析的平台,这个平台会通过大数据精准分析用户需求,然后我们向品牌商提供用户分类数据,帮他们向用户精准推送品牌广告。我们从品牌商处收取费用。这个有没有市场前景?
我提出问题:
第一点,这种精准分析和精准推送,应该更像微信能做的事情啊。你的竞争力是什么?最重要的是,你如何先在自己的平台上积累用户资源?如果没有用户资源,你的大数据分析不就是幻想吗?
第二点,你有没有调查过你的目标用户?他们为什么非需要你这样一个平台?仅仅就是为了看广告吗?他们有什么样的需求?如果能满足这个需求,才能把他们吸引到平台上来。
第三点,即便你的目标用户有需求,那么还要看这个需求的大小程度,因为需求大小决定了他们黏在平台上的时间长短。比如需求小,大多数用户就是为了获得奖励才去你的平台,然后就跑路了,那么,你那些后续的精准推送广告还有什么意义和价值呢?
对方一时无言,又讲了几个能吸引用户到平台上来的方法(此处保密),不过在我看来更多是一厢情愿的想法。
其实我们的对话,反应出了两个关键问题:
1、“我认为产品好,就想当然认为一定能大卖”的想法,至少做互联网产品不能依赖了。
我不否认朋友对做新产品的初衷想法是极好的,但这个想法是典型的“产品思维”,没有考虑用户到底需不需要,为什么需要?这种思维是站在“产品”角度考虑的,比如,我只想着如何做出各种强大的功能,但我没考虑这些功能为什么一定能吸引用户过来。我自认为产品好,就觉得一定会很有市场。
技术和世界经济的飞速发展,早已导致各种产品极大丰富,且同质化严重,竞争前所未有。这也就让垂直领域和细分领域产品更加的细分化。其实,细分就意味着把原来某个大群体“看似”共同的需求,切割成不同小群体的各种各样的需求。今天的互联网产品就是在这样的局面下生存的。所以,互联网产品只能更加艰难地挖掘小群体用户的需求,甚至又把需求打散分成好几类,然后抢占其中的某一小类需求市场。今天做互联网产品面临着比以往任何时候都要困难的竞争和挑战。
所以,过去那种“一款产品通吃天下”、“一个广告招揽所有人”的“大产品”和“大广告”的美好年代早已一去不复返,也将成为幻想。
也有人说“定位理论”已经失效,未必见得。只不过,如今的“定位”已经不再站在产品的角度去定位了,而是站在“用户”的角度去定位。
2、“用户需求思维”应该主导今天的互联网产品
尤其对于互联网产品来说,用户对其看重的更多是“能否满足我的某种需求”,而对其“品牌”的重视要小于对传统行业中的品牌重视。比如,现在的用户使用某个平台或某个APP,不会凭借它是BAT的产品就断然使用,而更多的看这款产品本身是否符合了我的需要,对它是谁家的、谁做的不太关心,或者说关心度要小的多。
这与传统行业有较大不同。在传统行业,一个新产品如果要脱颖而出,难度非常大,因为它面对的是与大品牌的竞争,并且在几乎没有知名度的情况下,需要大量广告投入才可能让消费者了解到它,经过反复广告后,消费者形成印象,从而可能去尝试这个品牌。此时,消费者的行为和心理路线是:认知——情感——行动。人们更愿意相信“品牌”的价值。
而互联网产品似乎是相反的路子,只要产品满足了用户的某个需求,那么,用户便会使用,使用后感觉好,便会在社交平台上告知分享给朋友,朋友体验的好,又会告知分享给其他人,如此形成了口碑传播链条。此时,用户的行为和心理路线是:行动——认知——情感——分享传播。人们更愿意相信“满足我体验/需求”的价值。
我经常会给学生讲一个“雨伞”的例子,形象地对比这两种思维。假设有一家制造太阳伞的公司,该公司自认为造出了世界上最牢固的伞,使用的材料环保、坚固、抗摔、抗磨、防晒…。总之,从产品本身看,的确是一把好伞。企业在这款产品的众多功能中,选择了一个它认为最重要的功能(坚固耐用)作为“卖点”和“广告诉求点”。然而,它的伞并没有像它想象的那样大卖,销量惨淡。原因何在?
这就是典型的用“产品思维”做产品。它没有考虑到,太阳伞的用户是年轻女性,她们需要的不是多么结实、多么牢固的伞,她们最本质的需求就是防晒功能一流,美观。至于是否结实只是她们考虑的次要因素。对于用户来说,不管这款产品有多少功能,他们最“看重”的就是“防晒”这个主要功能,“时尚”是附加功能。所以,如果这家公司能够提前做一点调查,抓准目标用户的真实需求,并且把这个“防晒”需求和产品的防晒特点结合起来,就会找到准确的广告卖点(防晒)。只需一句简单易懂的广告语——“用了这把伞,怎么晒都晒不黑”,或许就轻松搞定了销量。
举这个例子可能并不太准确,但至少可以形象地反映出,目前做互联网产品的两种思维方式:“以我为出发点”和“以用户为出发点”。
二、社交媒体时代,用户需求的三个层次:本质需求、附属性需求、边缘性需求。本质需求是“拉力”
假设在做一款互联网产品之前,已经准确了解到用户的需求了,这意味着这款互联网产品一定会被用户广泛使用或者长期使用吗?仍然不一定。那么,这时的决定因素是用户需求层次。也就是,看你的产品能解决哪个层次或哪几个层次上的用户需求?
心理学家马斯洛在1943年曾提出过著名的马斯洛五个层次需求理论,由下而上依次是:生理需要、安全需要、情感和归属的需要、尊重的需要、自我实现的需要。从此,这个需求层次理论便应用于广告、营销、商业等领域。
当然,今天的人仍有这样不同层次的需要,但可能有些许变化。在今天的社交媒体时代,环境让人的需要变得更加多样化,需要的重要程度也有改变。
因此,根据需要对用户的重要程度不同(触及人的痛点的程度不同),我试着把今天用户的需求归为三个层次(如图所示):
第一个层次是本质需求,这些需求主要包括:通讯、社交、生理、本能的渴望或欲望等。
生理需求自不多说,是最基本的需求,主要包括:吃、穿、住、行等。本能的渴望或欲望,是潜藏在内心深处的,主要包括:性、色、金钱、求偶等。对于社交而言,人生活在今天的信息社会之中,本能地有与他人沟通交流的需要,不同的通讯媒介都是满足社交需求的手段。所以,我将社交需求也看成是一种本质需求,而通讯需求自然是满足社交需求的必须条件,所以也是本质需求。总之,本质需求都是最能触及人的痛点的需求。
第二个层次是附属性需求,这些需求主要包括:价值观、意识形态、某种心理需求等。
这个层次的需求并非人的必需品,但却依附在人身上,受到人所在的特定环境或社会境况的影响。比如,90后人群比较追求自我价值的实现,喜欢个性和与众不同等等,这些都属于价值观层面的东西。意识形态主要包括:观念、态度、生活形态等。而某种心理需求则包括,认同感、成就感、虚荣心、表现欲等。附属性需求所触及的痛点程度要小于本质需求。
第三个层次是边缘性需求,这些需求主要包括:兴趣、爱好等。
之所以称为边缘性需求,并非说这些需求不重要,而是因为这些需求虽然更多涉及精神层面,但在触及痛点的程度上相对要低于本质需求和附属性需求。
在这三个层次中,本质需求是最核心、最根本性的需求。
就好比,人只有满足了基本的生存问题,才会考虑精神享受一样,如果是饿肚子的状态,那么心理只会想着吃,绝不会再考虑静静欣赏美景或一本书。
所以,如果不能满足用户的本质需求而单单空谈附属性需求或者边缘性需求时,互联网产品是没有根基的,也未必能长久黏住用户。比如,之前一段时间在微信上火极一时的“足迹”、“脸萌”等产品,其设计初衷是希望满足人的爱表现或好玩或扮情怀的心理,通过用户使用后在微信里的分享传播迅速聚集越来越多的用户。但这些用户多是一次性用户,因为当满足了这些心理(附属性需求)后,也尝鲜之后,便没有其他理由让用户长期留在此地。
此类产品层出不穷,但死掉的也一波接一波。原因在于,这类产品只满足了附属性需求或边缘性需求,但这些需求并不能真正触及用户痛点,用户来的快走的也很轻松。其实,缺少的或许就是“满足本质需求”这一“拉力”。有了这个“拉力”,产品便会形成闭环。
或者换句话说,互联网产品越能满足用户的本质需求时,用户越难以轻易放弃这款产品。而越接近边缘性需求时,相对来说,用户放弃这款产品几率越大。
三、如何根据用户的三个层次需求来设计互联网产品?
虽然用户的需求是多层次的,但是互联网产品不可能同时满足所有层次的用户需求,只能满足某一个层次中的某一个或某几个需求。比如像现在的某些美食O2O产品,以吃为由头,做线下社交活动,其实满足的是生理+社交需求,是本质需求层次上的需求组合。微信满足的是用户在移动互联网时代的即时通讯+社交需求,也是本质需求层面的组合。美图则满足了用户的虚荣心理,爱美、遮丑是一种与生俱来的本能欲望。
或者满足某两个层次中的某几个需求。比如现在刚兴起的一些O2O产品,其实都是在本质需求的基础上,与附属性需求结合或与边缘性需求。有的产品以吃为引线,聚集用户到私厨进行厨艺切磋和交流,让美食不再单是吃,而变成一种审美体验,让人感受一种生活状态和生活态度,这种体验就是意识形态层面的东西。这种产品满足的是本质需求(食)+附属性需求(意识形态)。而有的产品则仍以各种美食为主题,聚集对做美食感兴趣或爱好做美食的群体,前来交流。这样的产品满足的是本质需求(食+社交)+边缘性需求(兴趣+爱好)。但同样是美食O2O产品,因为满足的需求不同,它们之间便有了差异化。
纵观一些成功的互联网产品,其实质都是,要么满足了用户最本质的需求,要么是在本质需求层次上添加了其他层次的需求,以此做出创新和特色,并提供差异化的功能。
仅按照上面说的用户三个层次需求,就可以有三大层次的组合出现:
1、本质需求+附属性需求;2、本质需求+边缘性需求;3、附属性需求+边缘性需求。在此基础上,如果将不同层次中的各种需求细分后再尝试排列组合,那么就可以产生很多种类型的互联网产品想法。(如下图所示)
但仍需要强调的是,产品满足的用户需求层次不同,用户对产品的依附程度也是不同的。我仍认为,满足了本质需求的产品,用户的依附程度最高,而单单满足附属性需求或边缘性需求的产品是缺乏持久力的。本质需求依然是产品的核心拉力和根基,这个层次中的某个需求可以不作为产品的主要功能,但却可以做为让用户不轻易离开的一种理由。
当然,上面的组合都是假设你打算做某款互联网产品时,需要首先进行的需求定位。但是,在这之前,最重要的工作仍然是你需要先调查目标用户,到底有哪些层次的需求,哪些是主要的,哪些是次要的,然后将产品现有的功能和用户需求进行匹配,或者重新设计能够满足用户需求的功能。
四、然而,想了解用户的真正需求有那么容易吗?
今天很多人都在讲“用户思维”,其实“用户思维”本质上应该叫做“用户需求思维”。然而,真正站在用户需求思维想问题,了解用户的真正需求,是一件很难的事。
在了解用户需求上,目前大致有两种做法。一种是凭借心理学分析,分析用户的想法、态度、意识形态、观念等心理层面和精神层面的东西。另一种则是完全依赖技术,通过大数据分析或者传统数据来分析用户行为,对用户画像,从行为推断需求。两种方法各有利弊。
如今,在广告和营销领域,许多大公司仍然喜欢利用传统的调查方法去调查和分析用户的真实需求,比如通过面对面的深度访谈和科学的抽样问卷调查,这些方法有很多好处。
也有人会认为大数据会搞定一切,但是大数据也很难分析出准确的用户需求。首先,公司要有大量用户数据源,或能找到相关数据源,其次,你要考虑这些数据源中的数据有多少是有用的,有多少是干扰的,否则都是没价值的,就没有分析的必要。第三,即便前两者都达到了,你也不能单分析这些数据,还要考虑用户有某种行为时处于什么样的场景,了解用户处于什么场景下做出的这种行为,才能分析用户当时真正的需求是什么。但要做海量的用户行为场景还原简直不可能。
比如,今天某电商平台推送了一件衣服给我,我就买了,那么大数据就会认为我喜欢这种类型的衣服。但是,电商平台不知道,我到底为什么买这件衣服?我心情好,一时冲动买的,还是真的喜欢这种类型才买的?假设我就是心情好,冲动买了,买了就后悔。但电商平台不知道,它一定会给我继续推送类似款,但不会再引起我的二次购买行为,甚至这些信息会对我造成干扰。对于我当时“为什么买”这个场景,仅靠分析大数据是很难准确判断的。然而,“为什么买”的场景才能反映出我的真正需求。
所以,了解用户需求并非一句口号那么简单。利用大数据时要拼命绞尽脑汁还原场景,或者未来利用算法通过文本更准确分析用户意图(比如情感分析、情绪分析等,但目前都处于最初级阶段)。而利用传统调查方法时,要去做大量访谈,或者利用心理透射法,在此基础上利用心理学做文本分析,真正的需求才可能探测出来。
关键词:网络日志; 目的地形象; 质性分析; 华山
收稿日期: 2011-03-14; 修订日期: 2011-07-01
基金项目:
国家自然科学基金项目《区域旅游流对旅游网络信息的时空响应研究》(41001077)、陕西省教育厅科学研究计划项目《基于信息共享平台的关―天经济区旅游联动发展研究》(2010JK114)
作者简介:
张高军(1988-),男,陕西师范大学旅游与环境学院硕士生。李君轶(1975-),男,博士,陕西师范大学旅游与环境学院副教授,研究方向为旅游市场开发及旅游信息化。张柳(1985-),女,陕西师范大学旅游与环境学院硕士生。
1 引言
长期以来,旅游目的地形象研究一直是国内外旅游研究的热点。在评价目的地旅游发展和目的地营销成功与否的过程中,学界广泛认同旅游目的地形象是一项重要指标(Tasci,Gartner,2007)。Greaves和Skinner(2010)以英国皇家迪恩森林为案例地的研究表明,良好的目的地形象可以有效提高游客的重游率,Chi和Qu(2008)利用结构方程研究了旅游目的地形象感知,认为积极的旅游目的地形象感知对目的地满意度和忠诚度的提升具有积极影响。国内旅游学界对旅游目的地形象的研究也表明,旅游目的地形象将对旅游者的消费决策产生相当影响,它是旅游目的地营销的重要内容(黎洁,吕镇,1996)。旅游目的地形象对于旅游目的地发展的重要性在国内外已达成普遍共识。
借助中国知网和springer link、EBSCO等数据库进行文献梳理后发现,国内外目的地形象感知研究普遍采用问卷调查方法获取原始研究数据(Chi,Qu ,2008;O’Leary,Deegan,2005;张宏梅,等,2011;李祗辉,2011)。然而,随着互联网的发展与普及,“互联网络的作用已从一个信息交流工具扩展到数据与观点来源、公共话语空间乃至具有重要现实影响的社交空间”(于海波,2011)。越来越多的游客通过网络获取旅游信息,“利用网络相互分享旅途体验或感受,从而使得有关旅游的大量舆论信息在网络平台上得以有效地交汇”(姚占雷,等,2011),这就使得利用网络获取数据来研究旅游现象成为可能。
网络日志自由、开放和共享的特性能够较充分地反映出游客对旅游目的地形象的认知和感受,可以藉此内容研究游客对目的地形象的感知。已有一些学者进行了相关研究,如:Choi等(2007)使用CATPAC Ⅱ软件,验证了“文本分析方法不仅可以进行定性研究,而且可以进行定量研究”,进而研究了澳门的旅游目的地形象。Huang等(2010)通过对网络日志的研究认为,积极的旅游目的地形象感知对游客的购买行为具有正面影响;张文和顿雪霏(2010)以网上发表的大陆游客赴台游记为样本,就大陆游客对台湾旅游目的地形象的感知进行了归纳和分析,发现“大陆赴台旅游者对台湾旅游目的地形象的感知主要以正面评价为主”;高静等人(2009)以网友点评为基础,通过文本分析和对应分析对国内4个海滨旅游城市的感知形象进行了分析,结果表明“国内旅游者对海滨旅游城市整体形象的感知主要集中于风景/自然吸引物、海滩、城市卫生/干净、特色美食/小吃/饮料等方面”。综观以网络日志为数据源的研究成果,略显不足的是,对目的地形象感知的研究多倾向于讨论积极感知,而对目的地形象消极感知的关注有所欠缺。基于此,延续已有研究成果的方向,本文通过采集有关华山旅游的网络日志,运用质性研究的文本分析方法和扎根理论的方法,试图从中系统地提取出华山旅游形象的积极感知因素和消极感知因素,既可以为目的地管理者提供参考,也可以作为丰富目的地形象研究方法的一种尝试。
2 案例地择取
华山是我国著名的“五岳”之一,位于西安市以东120km的华阴市境内,北临黄河,南依秦岭。华山作为国家级风景名胜区、5A级旅游景区,以“险”著称,在国内外享有很高声誉,其2010年游客接待量153万人次。但是华山风景区在旅游收入、接待游客人次方面和其知名度不相匹配,均远远落后于同类型山岳景点
接待人次数据的比较参见“中国旅游百强景区”排行榜(2010),其中:庐山483万、九华山423万、衡山420万、泰山396万、云台山391万、五台山321万、武当山230万。该榜单由“中国旅游总评榜组委会”(其成员为全国22家主流媒体),详见:http:∥.bqjq/。
。与此同时,互联网上存在大量与华山旅游相关的网络日志及网友点评,便于从中分析游客对华山旅游形象的感知,以探究提升华山旅游形象和吸引力的途径。因此,本文选择华山作为研究对象。
3 数据获取
本文通过以下途径收集研究资料:百度、Google等知名搜索引擎的搜索结果;携程、驴妈妈、游多多、到到旅游网以及华山吧等旅游虚拟社区;新浪网、新华网等知名网站旅游频道。由于所获相关游记数量过于庞大(仅通过百度搜索关键词“华山游记”就获得相关词条达一百多万条),故按以下条件进行筛选:① 2008-2009年之间点击量超过2000次的游记和2010年以来点击量超过1500次且回复超过10条的游记(考虑到网络日志对潜在游客的影响力);② 游记中对华山旅游有细致的和带有情感倾向的描述(入选日志必须信息完整且可用于文本分析)。经过筛选,截至2011年2月14日,本文最终得到92篇网络日志
通过对表1所列各大旅游网站的检索(截至2011年2月14日),共得到2046条网友点评,其中好评1874条,好评率91.59%(见表1)。有172条对华山旅游不足之处的评论,连同华山吧内9条对华山旅游的负面评论,共搜集到对华山旅游的181条负面评论。这92篇华山游记和181条负面评论即为本研究的原始数据。
4 华山旅游形象的积极感知因素分析
对92篇网络日志进行分析和归纳,从中提取出华山旅游形象的积极感知因素主要有7个,分别是:险峻壮观、自我挑战之地、圆梦之地、武林圣地、风景俊秀、寄情之地、红色旅游之地(见图1)。其中华山之“险”在92篇游记中有89篇提及,占样本总量的96.74%,远远领先于其它积极感知因素;“自我挑战之地”、“圆梦之地”、“武林圣地”可分为一组,对游客影响比较明显;其余3个为第三类积极感知因素,对游客吸引力有限。
华山之“险峻壮观”无疑令游客印象最为深刻,在日志中游客多次使用“自古华山一条道”、“华山真是太险了”、“刀劈斧砍”等语句形容华山。从样本来看,华山游客最主要的旅游体验就是“险在华山”。如网友“老陆”所说:
“华山,是我心仪已久的一座山,因为一个险字吸引了我。”
“自我挑战之地”为华山形象的第二大积极感知因素。随着游客旅游观的逐渐成熟,他们需要更高层次的旅游体验,即自我实现。正如网友“我是麒麒妈妈”在游记中所说:
“华山之行存在于我们的计划中很久了,不仅仅是为了征服五岳,还因为它出了名的险峻,总是忍不住让人生出挑战的欲望。”
“圆梦之地”是华山形象的第三大积极感知因素。由于种种原因,使得部分游客对华山向往已久。到访华山,不是因为别的,仅仅是和华山有个约定。如网友“mdxlaichen”所说:
“有朋自远方来,华山是重要一站,正好一道了却我的小小心愿。”
排在第4位的华山形象积极感知因素是“武林圣地”。金庸、古龙、梁羽生等人的武侠小说几乎影响了所有中国青少年,在青少年心中埋下了亲近华山的种子。样本分析也显示了武侠小说塑造的华山形象对游客产生了很强的吸引力,18.48%的游客在游记中坦言受到武侠小说的影响。正如一位携程网会员所言:
“金庸的武侠小说,伴随很多人的成长。令人向往的独孤九剑、气势磅R的洪七公大战欧阳锋、小龙女的活死人墓、全真七子、袁承志等让人耳熟能详的桥段,总是让人在午夜梦回中,彷佛置身处华山之巅,与重阳真人论剑谈道,与周伯通左右互搏。而这一天,终于与心爱的老婆携手登上华山,感受一下诸多侠义之源:华山!”
令人意外的是,山岳景观中一般比较重要的积极感知因素――山岳风景在华山游客心目中只排在第5位,仅有11.89%的游客认为华山“风景俊秀”对自己而言是积极感知。从游客日志中可以看出,山岳风景之所以在华山游客心目中吸引力有限,并不是因为华山风景不美,而是因为人们对华山之“险峻”的强烈感知遮蔽了对“俊秀”的感知。如网友“学习游”所说:
“山美。想了半天形容华山的词字,不知取舍,最终指尖敲出的却是这俗俗的“美”字。华山以险著称,世人尽知,“刀削斧劈”,贴切真实。不过,也许人们有先入为主的感觉,到了华山,只关注其险,却错过了其他。”
华山旅游形象的第6个积极感知因素是“寄情之地”。作为“中华五岳”中的西岳,华山在游客心中是一座具有恒久魅力的山,从游记中可以读出作者被华山强烈地吸引,“情有所系”。这部分游客的行为动机可能源于对华山的一种情感依恋。如网友“daiao”和“角落里的娃娃”在游记中写道:
“最近一些日子想爬华山的冲动越来越强烈,于是约了几个好友,打算亲自体验一下华山的情怀。”“那里有座山在等我,一直都这么觉着。”
“红色旅游之地”是华山形象的第7个积极感知因素。该部分游客数量不多,他们的旅游动机中渗入了一些个人的特殊情感。如一位游多多网友所言:
“小时候在野外看智取华山的电影,给我的童年留下来深刻的印象,今天能够亲自来登华山,心里觉得很是兴奋。”
由上述可知,从92篇游客的网络日志中提取出7个华山旅游形象的积极感知因素,但是我们发现,华山旅游资源中非常重要的两类资源――文化旅游资源和地质旅游资源,却被网友忽视而未出现在华山旅游形象的积极感知因素之列。
华山跻身“五岳”之一,其本身所蕴含的文化内涵必然极为厚重,但通过对网络日志的分析后发现,仅有两篇游记提到华山的文化旅游资源。其一为网友“丹凤街”在游记中写道:“这座自古以来被人津津乐道的奇险天下第一山,儿时的我已有了诸多幻想:‘沉香劈山救母’、‘吹萧引凤’、‘韩愈投书’、‘华山论剑’种种传说已使我神游许久”。其二为网友提到了西岳庙是历代皇帝祭祀华山神的地方。仅此而已,在92篇日志中仅有两篇。
其实,华山的文化底蕴丝毫不逊于其它名山大川。华山是道教圣地,道家老祖陈抟、华山派创始人郝大通、以及历代文人墨客都在此留下了种种胜迹和传说。华山的地质旅游资源非常丰富,如地质遗迹、岩石遗迹、构造遗迹、花岗岩山峰地貌遗迹、花岗岩山谷地貌遗迹、花岗岩微型地貌遗迹、地质灾害遗迹等等。游客对华山的这两大资源的忽视,反映出华山对这些资源还未曾开发或开发力度不足,也说明了这些方面是华山进行深度开发,继续提升旅游竞争力的重要着力点。
5 华山旅游形象的消极感知因素分析
相比游客对华山旅游形象的积极感知因素,点评中所指出的华山旅游的不足更加值得深思。这些不足直接制约着华山旅游的开发高度。要将旅游业做大做强,一方面要保持自身的优势,另一方面要尽可能的弥补劣势,修复旅游开发过程中的短板因素。游客对华山是宽容的,在181条负面评论中鲜有差评,但这并不意味着华山旅游尽如人意。诚如一位游多多网友在点评中所写:
“身为一名陕西人,华山又是陕西的品牌,我实在是不愿意给华山差评,但华山里面的住宿实在是太差了,价格贵就不说了,被褥还又湿又潮,而且在餐厅吃饭时候还吃出来乱七八糟的东西。”
本文使用扎根理论的方法对181条游客的负面评论进行概念化、逐一登录并提炼,经过三级编码过程,最终将这181条负面评论凝炼为5个核心类属、13个二级子类,如表2所示。
从表2中可以看出,在所列5个核心类属中,“旅游体验”类消极感知因素所占比列最高,为28.18%。旅游体验所蕴含的需求结构是构成旅游竞争力的重要因素(龙江智,2010),因此,如何在原有基础上丰富游客体验成为弥补华山旅游短板的首要问题。在与旅游体验相关的负面点评中,有一部分问题可能是缘于游客自身的个体因素,包括个体的体质、旅游阅历及旅游态度等。还有一部分问题是客观因素造成的,如网友提到的由于天气原因没能看到日出;对于这样的情况,景区可以通过完善气象监测系统来预先告知游客,以避免游客出现过大的心理落差而导致旅游体验降低。游客还提出了旅游开发过程中华山景观遭受破坏的问题,对此开发者应慎重对待。
在负面评论中占比第二的核心类属是华山景区的旅游基础设施。在此核心类属中包含了游客最为不满的二级子类问题,即华山的食宿问题。样本中13.81%的负面评论指向华山的食宿。另外,被游客广为诟病的景区厕所问题在华山景区同样存在,华山的服务设施不完善也引起了游客的负面评论。
在“旅游安全”核心类属中,“财产安全”问题更令游客担忧,其在负面评论13个二级子类中位列第五。安全需要是人的本能需要,安全问题是人们出行时考虑的重要因素,安全保障欠缺的旅游目的地将弱化其本应有的吸引力。
在“旅游服务”核心类属中,游客主要对华山景区工作人员的服务意识缺乏、人员素质和服务效率等有所不满,而工作人员服务意识的落后将直接影响到游客的旅游体验。
在有关华山景区环境问题的负面评论中,游客的批评多指向华山的卫生环境。虽然在多数情况下卫生环境的破坏是由于部分游客乱扔垃圾造成的,但景区保护环境的宣传和管理不力也是原因之一。随着华山游客的增多,华山景区的卫生环境问题已日渐凸显。
6 研究结论
本文以华山为案例地,利用网络日志研究旅游目的地形象,取得了良好的研究效果。在研究过程中使用了文本分析法和扎根理论的方法,系统地提取出游客对华山旅游形象感知中的积极感知因素和消极感知因素,主要结论如下:
(1) 游客对华山形象的积极感知因素主要有7个,分别是:险峻壮观、自我挑战之地、圆梦之地、武林圣地、风景俊秀、寄情之地、红色旅游之地。
(2) 华山旅游形象的积极感知因素来源中不包括两个重要的类别――华山的人文旅游资源和地质旅游资源。这两类资源在网友的游记中极少被提到,反映出华山在旅游开发中对自身所具有的深厚的文化底蕴和丰富的地质资源未予以应有的重视。
(3) 游客对华山旅游形象的消极感知因素可分为5个核心类属和13个子类。应采取切实措施对这些不足加以改进,以提高游客满意度,进而提升华山的旅游形象。
本文的不足在于,研究过程中只是对网络日志和点评进行了简单的量化,并未考虑权值因素,如依据网络日志作者在论坛或网站上的威望或等级赋予相应权值。这是本文的一大缺憾,需要在以后的研究中予以完善。オ
(注:本文还得到陕西师范大学中央高校基本科研费项目《旅游信息科学的若干理论和方法初步研究》(09SZZD06)的资助。)
参考文献:
[1] Chi C G Q,Qu H.Examining the structural relationships of destination image,tourist satisfaction and destination loyalty:An integrated approach[J].Tourism Management,2008,29(4):624-636.
[2] Choi S,Lehtoa X Y,Morrison A M.Destination image representation on the web:Content analysis of Macau travel related websites[J].Tourism Management,2007,28(1):118-129.
[3] Greaves N,Skinner H.The importance of destination image analysis to UK rural tourism[J].Marketing Intelligence & Planning,2010,28(4):486-507.
[4] Huang Ching-Yuan,Chou Chia-Jung,Lin Pei-Ching.Involvement theory in constructing bloggers’ intention to purchase travel products[J].Tourism Management,2010,31(4):513-526.
[5] O’Leary S,Deegan J.Ireland’s image as a tourism destination in france:Attribute importance and performance[J].Journal of Travel Research,2005,43(3):247-256.
[6] Tasci A D A,Gartner W C.Destination image and its functional relationships[J].Journal of Travel Research,2007,45(4):413-425.
[7] 李祗辉.大型节事活动对旅游目的地形象影响的实证研究[J].地域研究与开发,2011(2):110-113.
[8] 高静,章勇刚,庄东泉.国内旅游者对海滨旅游城市的感知形象研究――基于对携程网和同程网网友点评的文本分析[J].消费经济,2009(3):62-65.
[9] 黎浩,吕镇.论旅游目的地形象与旅游目的地形象战略[J].商业经济与管理,1996(6):62-65.
[10] 龙江智.旅游竞争力评价范式:反思与启示[J].旅游科学,2010(2):26-39.
[11] 姚占雷,许鑫,李丽梅,等.网络游记中的景区共现现象分析――以华东地区首批国家5A级旅游景区为例[J].旅游科学,2011(2):39-46.
[12] 于海波.网络话题作为定性数据来源的研究方法探讨――以旅游动机研究为例[J].旅游科学,2011(1):46 -53.
[13] 张宏梅,陆林,蔡利平,等.旅游目的地形象结构与游客行为意图――基于潜在消费者的本土化验证研究[J].旅游科学,2011(1):35-45.
[14] 张文,顿雪霏.探讨大陆旅游者对台湾旅游目的地形象的感知――基于网上游记的内容分析[J].北京第二外国语学院学报,2010(11):75-83.
A Research on Tourism Destination Image Perception of
Huashan Scenic Spot:Based on Text Analysis of Weblogs
ZHANG Gaojun, LI Junyi, ZHANG Liu
(College of Tourism and Environment Sciences,Shaanxi Normal University,Xi’ an 710062,China)
Abstract:
This paper studies tourists’ perceptions of tourist destination images through weblogs and comments collected from Baidu,Google and some other tour websites.With the 92 weblogs and 181 negative evaluations selected under some determined conditions,the authors used text analysis method to study the visitors’ perceptions of the image Mount.Huashan.The result shows that it’s a proper way to research perception through weblogs.The authors extracted 7 main active perceptions from 92 weblogs and 181 negative comments which include 5 key kinds,and 13 small classes of negative perceptions as well.It is also found that the rich culture deposits and geological resources of Mount.Huashan,which are active perception,deserve in-depth development.
关键词:虚拟社区;文本信息;敏感词;过滤系统
中图分类号:TB
文献标识码:A
doi:10.19311/ki.1672-3198.2017.16.093
1 概述
中国互联网络信息中心(CNNIC)了第38次《中国互联网络发展状况统计报告》(以下简称《报告》),《报告》显示,截至2016年6月,中国网民规模达7.10亿,上半年新增网民2132万人,增长率为3.1%,我国互联网普及率达51.7%,与2015年底相比提高1.3个百分点,超过全球平均水平3.1个百分点,超过亚洲平均水平8.1个百分点。由以上数据不难发现,我国现阶段互联网发展水平无论是从规模还是网民数量上都呈现出较强的增长趋势,客观上对于过滤技术的研究与发展起到了一定的推动作用。
互联网同时还具有资源共享、实时交互性、个性化、虚拟化等特点,其中尤其以实时交互性与虚拟化的特点为突出,正如前面提到的,中国网民规模已达7.10亿之多,用户范围广,数量大,而且互联网的实时交互性拉近了人们彼此间的距离,促成了论坛等社交工具的诞生。然而网络的虚拟性导致人们不必在意交谈对象的构成,可以随心所欲表达自己的观点,这种现象也在一定程度上导致网络言论质量的参差不齐,甚至出现一些低俗污秽言论。因此对于网络环境净化平台的需求由此而生。
由于时间及能力有限,并结合虚拟社区这一特殊信息载体,本文只针对网络净化平台下的敏感词过滤进行相关分析及研究。
2 相关理论与技术
2.1 网页文本提取和分类技术
2.1.1 HTML标签分析
HTML文档主要由和两部分标签组成。标签主要是用来标记文档标题、作者等特征项内容,部分则是HTML文档主体的记录。每一部分都有相对而言特征值较为明显的子标签,如:中的、等,而在中又会有(加粗)、(超链接)等视觉体验较为明显的标签,具有较高的特征值。因此,在分析HTML标签时,大多数分析器会着重进行特征标签的分析。此外,Lin Shian等还将HTML标签分为了Informative、Skippable、Uninformative、Statistical四种类型。
2.1.2 网页分块分析
一般来说网页内容并不是一个整体,而是由各个部分组成的,如:导航条、正文等,同样,每一部分对于用户浏览的影响程度也是不尽相同,如:导读内容会大于正文内容,而正文内容的重要性又大于广告部分。于是可以将网页划分成语义不相关的几部分,每一部分叫作语义块。而分块也可以根据视觉特征和内容特征进行划分。
2.1.3 中文分词技术
利用计算机进行语言处理,首先要让计算机能够以人的思维方式和习惯对文本进行处理,而中文分词相对于英文分词的难点在于分词符无法确定,英语基本上是以空格为分词符的,而中文并不能以单字进行划分,而且词语字数也并不唯一,多字词语的出现给中文分词提出了更高的要求。现阶段按照分词依据大体可分为如下三类:基于字符串的分词技术、基于理解的分词技术和基于统计的分词技术。目前比较成熟的是基于字符串的分词技术,也叫基于词典的分词技术,是按照事先确定的某个机器词典对用户输入内容进行处理,匹配特定的词语。因此又被称作机械分词算法;基于理解的分词技术是通过计算机模仿人的思维对句子进行理解,基于句法、语法分析,同时结合语义分析,通过对前后文的语境内容进行分析,达到识别效果,一般这种方法分为三个子系统:分词子系统、句法语义子系统、总控部分;而基于统计的分词技术则是较为理性的一种方法,这种方法的核心是找到构成词语频度较高的单字,从而进一步对这些单字及其前后组成的词语的频度进行统计,计算词语准确度;而分词的准确度对于接下来要进行的语词相关处理工作是基础工作,所以如何提高分词的准确度是重中之重。
此外,还有基于DOM树的技术等。
2.2 敏感信息检测技术
2.2.1 基于文本内容的敏感信息检测
基于文本内容的信息检测是通过运用数据分析与挖掘、语言处理等相关方法和技术,根据语言环境、写作背景等相关要素,分析理解文本语义,从而发现目标信息的识别技术。区别于关键字匹配方法,基于文本内容的信息检测方法是根据整个网页结构进行综合全面分析,因此可以更加准_识别内容。
2.2.2 基于图像内容的敏感信息检测
该检测方法是利用图像处理技术以及人工智能等多种相关技术,通过分析图像内容以及图像相关特征量并与特征量数据库进行比对,自动识别图像中是否包含敏感信息,或者其特征量当中有相应的敏感信息,从而无法通过检测,禁止用户访问。
2.2.3 智能多媒体混合方法
是近些年来为解决网络上多种媒体混合而对传统敏感网页识别和过滤技术带来挑战的问题而提出的新方法。主要是将图像与文本的敏感信息检测技术进行联合,共同对文本内容进行判决。
2.3 敏感词变体处理技术
在实际处理过程中,存在着一些难以处理的敏感词,其中以敏感词的变形最为突出。恶意用户发表的不良敏感信息会将词汇语言文本进行错误拼写、同音字等变形处理,将导致现有对于基础词汇的过滤技术不能够有效应对。李少卿等学者提出了“脏话”词汇变形体识别算法。该算法按照目标字符是否有与字母字形相似的特殊字符分别采用不同公式进行计算,公式主要是针对字母语音进行分组,同时根据字母的字形异同分成不同组别并赋予每组分数,采用编辑距离的思想对目标字符串计算分数,分数越低则同组相似度越高。
2.4 信息过滤技术
2.4.1 网页内容分级
网页内容分级法,即针对不同的网页信息按照统一的分级标准进行分级标注,当用户访问时可以根据分级标注的信息对用户进行反馈,一般分级方式有自我分级和第三方分级两种,现有的国内外的分级标准主要有:多方标记和分级模式(MPLRM:Multi-party Labeling&Rating Model)、PICS(platform for Internet connect selection)技术标准、RSACi系统等。
2.4.2 URL地址过滤
在Internet上使用统一资源定位符URL标记互联网的各级文档,使得文档都有自己唯一的标识符,并将用户从客户端发出的请求中的URL地址取出,与已经准备好的URL地址数据库进行匹配查询,并根据查询结果判断用户请求的URL地址是否合法,进而决定请求是否被允许响应并返回结果。
2.4.3 内容过滤
内容过滤即对用户输入的网页内容做敏感词过滤,并对匹配出的敏感词进行符号或警示信息代替。针对文本内容过滤,主要是根据事先编写好的主题词典,通过对用户输入的文字信息进行语义分析及比对,判断词语是否是敏感词,如果是敏感词,则进行拦截并运用符号或警示信息进行替代;如果不是,则进入下一词语的判断。
另外还有多媒体信息过滤等技术。
3 基于敏感词的信息过滤算法
目前大多数学者主要是针对文本内容敏感词过滤相关算法进行研究,有如下几种常用算法。
3.1 BM算法
是Boyer-Moore算法的简称,是一种实用的完全匹配算法,核心思想是逆向比较,即从右向左比较,同时通过两种不同的启发式规则计算出跳转距离,选择距离较大的进行跳跃,从而减少了比较次数,提高了比较效率。两个规则分别为坏字符规则和好后缀规则。具体为:(1)坏字符规则。匹配过程中若有不匹配,则不匹配处的字符即为坏字符,若坏字符没有在模式串中出现则直接跳过进入后面一个字符,若出现在模式串中,则移动模式串至第一个字符和坏字符对齐,继续进行比较。如图1。
(2)好后缀规则:若匹配过程中发现了坏字符并且在该坏字符后面有一个已经匹配过的子字符串,则该子字符串即为好后缀,若好后缀在模式串中的m处出现,且前一个字符不同,则将模式串右移至m处,若没有出现,则在模式串中寻找好后缀的子串并右移模式串到相应位置。
3.2 AC算法
是Aho-Corasick有限自动机算法的简称,是一种基于模式树的匹配算法,基本思想是采用有限自动机的原理把多个模式串合并在一起组成一棵模式树,模式树中每一个前缀代表一个状态,待匹配字符串的检索通过状态转换完成。模式树的构建过程如下:依次读入模式串,按照前缀进行分类并添加到模式树中,并构建三个函数:转向函数、失效函数和输出函数,完成构建工作。匹配过程主要是依次读入待匹配文本并和模式串进行比对,通过转向函数以及失效函数进行判断并转移,直到输出函数不为空时完成匹配,并输出结果。
3.3 WM算法
该算法采用跳跃不匹配字符策略和hash散列方法,对过滤文本进行预处理,构建SHIFT、HASH和PREFIX三张表。该算法在处理字符串时,是处理X长度的字符串(X>=1)。同时在处理字符串时要求每个字符串长度相同,同时要求在处理每个字符串时只处理前m长度的部分,m为定义字符串的最短长度。
3.4 SWDT-IFA算法
该算法主要是先将目标文本进行去除HTML、停用词过滤等预处理,然后利用敏感词决策树构建算法把敏感词库搭建成一棵分流树,提高利用效率,而后将预处理后的文本以数据流的形式通过检索敏感词决策树,并将文本中有关敏感词的频率、区域位置等信息进行记录,再通过计算公式,计算得出文本敏感度,再根据给定阈值将对应网页划分为敏感网页和非敏感网页。
此外还有Trie树(字典树)等方法。
4 敏感信息检测和过滤系统分析与设计
4.1 需求分析
本系统主要是以武科大沁水青山bbs论坛为代表的虚拟社区为目标设计中文过滤系统,论坛的内容具有半结构化特性,因此需要对用户的提问及回答进行文本提取,判断提取的文本内容是否合法,如果合法,则直接在前台页面显示,否则将进入过滤系统,对文本内容进行过滤,而后再提交到前台页面进行显示,以达到过滤敏感词等不良信息的目的。
4.1.1 设计原则
本系统设计需遵循如下原则:
(1)由于论坛属于实时交互的页面,因此本系统需要保证及时性与交互性,需要对用户输入的文本进行及r提取和处理,并通过对话框的交互形式对用户进行反馈,同时还应保证尽量对用户的正常访问不产生影响;
(2)由于系统是嵌入浏览器服务器的,需要尽可能减少系统所占用的内存空间,同时应提高系统处理效率,尽可能减少系统不必要的配置;
(3)易于扩展。由于作者水平能力有限,目前仅考虑对于文本内容的过滤处理,正如前文所讲,不良信息敏感词不仅仅只存在于文本内容中,还包括图片、音视频等多媒体信息中,这就需要系统需要较强的可扩展性,为日后系统维护升级奠定基础。
4.1.2 用户特点
本系统主要针对的是论坛群体,因此用户主要分为两类:以大学生为主的普通用户群体以及以校园管理机构为主的管理用户群体,针对不同的群体的系统应有不同的侧重点。针对普通大学生用户群体,系统界面应当做到简洁明了,同时需要较快的响应速度,良好的交互性能够使大学生在不小心或无意间了敏感词信息时能够得到及时的反馈;而针对管理用户群体来说系统界面应当做到全面,能够使系统管理员尽快的发现存在敏感词等不良信息的文本并及时进行处理和采取措施,如对不良信息的用户采取禁言等措施,以保证网络环境的优化和净化。
4.1.3 系统功能需求
本系统主要是针对论坛中用户的提问及回答等文本内容进行敏感词不良信息筛查及过滤,提取到用户的文本信息后在系统内部进行筛查,而传递给管理用户的参数除了处理后的文本信息,假如包含了敏感词,管理用户将对该普通用户采取禁言措施,如果不包含,则允许在前台页面进行显示。因此系统应具备如下功能:
(1)自动启动功能。要求在服务器启动的同时,过滤系统自动启动,无需人工手动启动;
(2)自动获取功能。即自动对用户输入的文本内容进行提取。
(3)重定向功能。在处理文本内容后,如果文本内容包含敏感词,需要管理员禁言,同时普通用户页面应当重定向为提示页面。
4.2 整体流程设计
基于功能分析,系统流程主要包括如下部分:启动部分、获取部分、处理部分、反馈部分,因此,整体流程设计如下:
4.3 数据库设计
结合系统功能分析,本系统数据库包括如下几个表:用户信息表、敏感词表两个表。
4.3.1 用户信息表
用户信息表结构设计如表1。
4.3.2 敏感词表
该表主要是用于记录过滤系统处理过的文本内容中出现的敏感词,以方便后期提高处理效率,该表需与系统连接,允许添加。
5 关键模块和功能实现
本系统功能较为单一,即针对用户登录武汉科技大学论坛后所的中文问题和回答的内容进行敏感词不良信息的筛查与过滤。由于论坛的半结构化特性决定了论坛每一条内容的长度是有限的,因此我们决定采用基于字符串匹配模式的查询算法,根据前文所讲算法内容并结合论坛的实际情况,具体采用BM算法,并重点关注坏字符规则。
系统首先确定敏感词表内容。通过团队成员的共同努力,以及参考业界同仁的相关研究成果,确定出符合本系统的基于论坛的敏感词表,词表共计收录词条约400条,并且预留了一定的空间供后期系统维护及扩展后的敏感词表使用。
确定好敏感词后系统进入实际运行阶段。首先,系统在校园网服务器启动时可自行启动,而后对系统缓存进行初始化,以免受前一次过滤行为影响,待用户文本内容时,首先获取用户的登录名并反馈给管理用户,为接下来的用户行为监测奠定基础。然后,捕获用户的文本内容,按照中文分词对文本内容进行切片,将切片后的文本内容逐词与敏感词表进行比对,判断是否为敏感词,如果是,则对敏感词进行过滤处理,将处理后的文本内容反馈给管理用户,同时将该用户的User_level参数设置为1,一并传递给管理用户,并发送对话框提醒管理用户需要对该用户采取禁烟措施。而管理用户在收到消息提示后对用户进行禁言管理,则该用户将在一定时限内不得在该论坛文本内容,处理完毕后系统清空缓存,继续等待用户下次输入。
具体流程如图5所示。
6 结论
本文主要是针对以武汉科技大W沁水青山bbs论坛为代表的虚拟社区为基础的中文敏感词过滤系统研究,现阶段的互联网飞速发展,但是网络环境的匿名性等特性为系统开发提供了基础条件,同时目前针对敏感词的过滤技术主要有网页文本提取、分类技术,敏感词及其变体处理技术,信息过滤技术等几类,而针对敏感词过滤的算法主要有SWDT-IFA算法、WM算法、Trie树(字典树)、BM算法、AC算法等,同时简要设计了符合论坛的嵌入服务器的过滤系统的初步模型,为今后的系统扩展奠定基础。
参考文献
[1]中国互联网络信息中心.第38次中国互联网络发展状况统计报告[J].互联网天地,2016,(7).
[2]张海波.面向主题的网页过滤机制研究[D].兰州:兰州大学,2007.
[3]张慎.基于串匹配和文本分类的中文网页过滤系统设计[D].武汉:华中科技大学,2009.
[4]陈欣.基于文本和图像内容分析的中文敏感网页识别关键技术研究[D].北京:北京工业大学,2010.
[5]李少卿.不良文本及其变体信息的检测过滤技术研究[D].上海:复旦大学,2014.
[6]方柯.面向网络不良文本过滤的概念网技术研究与实现[D].上海:上海交通大学,2007.
[7]聂晓珂.互联网违法文本与图像信息监控系统研究[D].重庆:重庆大学,2009.
关键词 虚拟社会资本;消费者在线行为;扎根理论;数字营
中图分类号G206 文献标识码A
一、研究概述
“社会网络传播快乐、宽容和爱。社会网络影响着我们的选择、行为、思想、情绪,甚至是我们的希望。”社会资本作为嵌入在社会网络当中可利用的现实与潜在资源的集合,它对人们在社会网络中所发生的行为和关系均有显著影响,例如社会资本有利于社会组织当中新知识资本的创新,社会资本影响着人们使用媒介的频率和习惯等。社会资本理论广泛用于解释与研究品牌传播方面的问题得益于数字技术的飞速发展与社交媒体的普及。由于在社交媒体环境下,消费者趋向于在与他人在线互动中获取品牌信息,并且通过互动所获得的品牌信息相对于品牌主传播的品牌信息更具影响力,社会资本产生于个体之间的互动,因此许多研究者基于社会资本理论视角探索影响消费者在线行为的因素。那么,社会资本对消费者何种在线行为有影响?是如何影响的?以上是本研究拟回答的两个主要问题。因此,本研究首先提出“虚拟社会资本”和“消费者与品牌相关的行为”两个概念并解释其涵义;再通过文献综述总结前人对虚拟社会资本对消费者行为影响的研究成果;再次通过深度访谈与扎根理论建立虚拟社会资本对消费者与品牌相关的在线行为的影响机理模型;研究最后对该模型进行解释。
二、相关概念与文献述评
(一)虚拟社会资本
虚拟社会资本来源于社会资本的概念。关于社会资本,至今仍没有一个明确的界定,在多数情况下,如何界定社会资本取决于研究问题所属的领域。在营销传播领域,对社会资本的界定主要从个体(用户/消费者)的角度结合两种视角进行定义,即关系视角与资源视角。关系视角认为,社会资本是由社会网络中个体与他人互动过程中所产生的所有关系的总和,是嵌入于两个或多个个体之间的关系结构(Yuping Liu-Thompkins,2012)。资源视角采用林南(2001)及Janine Nahapiet(1998)对社会资本的界定,认为社会资本是嵌入于社会网络中个体可利用的现实与潜在的资源的集合,并认为社会资本具有结构社会资本、关系社会资本与认知社会资本三种维度(Chien-Chin Huang,Tung-Ching Lin,Kuei-Ju Lin,2009;Rebeca San Jose-Cabezudo,Carmen Camarero-Izquierdo,2012)。
本研究认为,社会资本是极为抽象的概念,存在于社会网络当中的关系本就作为个体可利用的一种资源,它既是关系同时也是资源,因此社会资本是嵌入于社会网络当中个体可利用的所有关系与资源的集合。虚拟社会资本的概念始于对网络虚拟社区的研究,之后被广泛用于网络新媒介的研究,也称为“在线社会资本”,张洪忠等将其定义为“在网络空间中所形成的社会资本”。虚拟社会资本与传统定义的社会资本区别在于其发生的场域从线下转到了线上,本研究将之定义为嵌入于在线社会网络当中个体可利用的所有关系与资源的集合。新信息技术的发展使个体能够创造新的社会网络,个体通过电子邮件、移动设备以及其他互联网媒介(脸书等)去增加他们的社会联结,当个体归属于某个在线社会网络之时,他就产生了社会资本。虚拟社会资本与传统意义上的社会资本一样,对在线社会网络当中的个体参与者产生影响,同时形成在线社会网络成员共有的规则、规范,促进在线社会网络协作效率。
(二)消费者与品牌相关的在线行为
消费者与品牌相关的在线行为(consumers’online brand-related activities,简称COBRAs)由Daniel G.Muntinga等(2011)在《引入COBRAs模型,探索消费者与品牌相关的社会化媒体使用动机》一文中提出,作者认为以往对于消费者在线行为的研究均采用分割的视角,例如对在线口碑传播(eWOM)的研究只聚焦于消费者与消费者之间的传播行为,用户生成内容(UGC)的研究只聚焦于用户内容生产行为,而COBRAs模型作为一种消费者行为的结构性框架,为研究者提供了研究消费者与品牌相关的媒介使用行为的一个整合性视角。
作者将消费者与品牌相关的媒介使用行为由低到高分为三种类型,即消费、贡献、创作。消费是消费者与品牌相关的媒介使用行为当中最低层次的行为,其中包括观看、收听与品牌相关的视频、图片、网络广播,加入品牌社区,在社会化媒体中观看与品牌相关的评论信息或产品介绍,等等;贡献行为包括在社会化媒体中评价产品或品牌,参与完善社会化媒体中品牌简介的写作,在网络虚拟社区或者社会化媒体中融入与品牌的互动,评论出现在博客、脸书、视频、广播等等网络媒介中的品牌信息;创作是最高层级的行为,其中包括与品牌相关的博客,下载与品牌相关的视频、音频、图片,撰写与品牌相关的文章或评论。
然后,作者通过消费者动机产生行为的逻辑关系,使用访谈法总结了消费者基于娱乐、获取信息、获取报酬从而产生消费者使用社会化媒体的消费行为;基于个人身份、整合与社会互动、娱乐产生贡献行为;基于个人身份、整合与社会互动、赋权与娱乐产生创造行为。Daniel G.Muntinga等所提出的COBRAs模型关注的是消费者与品牌相关的社会化媒体使用行为,本研究认为此模型同样适用于在线社会网络当中消费者与品牌相关的行为研究,其中消费行为指消费者于在线社会网络点击阅读或观看与品牌相关的链接、推送或文章、观看或收听与品牌相关的视频或音频、参与品牌社区;贡献行为包括消费者于在线社会网络中对与品牌相关的信息进行评论或转发至其网络空间;创作行为包括消费者于在线社会网络中撰写与品牌相关的文章、创作与品牌相关的音频或视频。(表1)
(三)消费者维系、获取与投资虚拟社会资本的动机
消费行为学家Fishbein Martin对消费行为的产生作过以下阐释:对消费者在未来是否会采取某种具体行为的最直接的预测方法就是了解他们采取该种行为的倾向,探索消费者行为的另外一种视角是通过研究消费者动机来预测其可能发生的行为。因此,虚拟社会资本与消费者在线行为动机有没有关系?是什么关系?这是虚拟社会资本对消费者在线行为影响的新视角。国外研究社会资本的学者提出,个体维系、获取、投资社会资本是目前社会资本研究亟需补充的研究课题,包括个体如何维系、获取、投资社会资本;个体维系、获取、投资社会资本会对其在社会网络中的行为有何影响。强联结本身就是个体行为的一种重要动机,换言之,社会资本作为消费者行为的一种重要动机,消费者基于维系、获取、投资在线社会网络中社会资本的动机会引发其一系列行为。消费者维系、获取与投资虚拟社会资本分别是什么涵义?消费者于在线社会网络中,是否具有维系、获取与投资虚拟社会资本的需求呢?对于以上问题,国内外相关文献已予以回答。
Putnam认为社会网络中的关系传播是产生和维系社会资本的关键前提,换言之个体维系社会资本的行为即维系社会网络中个体的种种关系;童程芹在其硕士论文中通过Maloney,Preece及Nahapiet和Ghoshal有关维系社会资本的阐释,将社交网络里的消费者维系社会资本定义为“通过互动促进与社交好友的沟通与交流”,并认为消费者维系社会资本是消费者转发行为的重要动机。张倩认为消费者使用社交媒体的根本原因是获取在线社会资本,并且将消费者获取在线社会资本的类型分为人脉、情感、信任与信息资本,换言之即消费者获取来自于社交媒体所组成的在线社会网络中的人脉、情感、信任与信息资源。杨洁、陈雅琪均对消费者使用社交媒体网站的行为与虚拟社会资本的关系进行研究,结果均显示消费者使用社交媒体网站与消费者获取虚拟社会资本之间存在着显著的关系,即消费者使用社交媒体网站正向影响了其获取虚拟社会资本。李六在其博士论文中提出个体参加社会网络关系从本质上看就是投资社会资本的行为,个体投资社会资本是个体理性选择的结果,因为个体参与社会网络可以为合作的产生提供必要的条件,这也可以理解为,个体投资社会资本是个体维系与获取虚拟社会资本的前提条件。
综上所述,本研究认为:消费者只要参与入社会网络,就有维系、获取与投资虚拟社会资本的需求,消费者维系虚拟社会资本是维系在线社会网络中消费者与他人的关系、情感、信任和资源;消费者获取虚拟社会资本是消费者希冀从在线社会网络中获取自身所需的关系、情感、信任与资源;消费者投资虚拟社会是消费者建立和发展在线社会网络中的关系、情感、信任与资源。这些需求对消费者参与社会网络的种种行为都产生了影响,是消费者参与社会网络行为主要的动机。(图1)
以上文献多数是从消费者使用媒体的角度进行的研究;并且现有文献均片面或单一地对消费者维系、获取与投资虚拟社会资本进行研究,并无完整详尽的将消费者维系、获取与投资社会资本进行研究,更没有分别对消费者维系、获取与投资虚拟社会资本会产生何种行为进行研究。作为品牌的消费者,其在线行为与作为媒介用户的消费者一定有所差异。因而从品牌消费者的角度研究虚拟社会资本对消费者有关品牌在线行为的影响是一项探索性的研究,以下将通过深度访谈法探究虚拟社会资本对消费者有关品牌在线行为的具体影响,并通过扎根理论探索其影响路径。
三、研究设计
(一)研究方法概述
深入访谈法是一种通过与被调查者深入交谈以此了解某一社会群体的生活方式和生活经历,探讨特定社会现象的形成过程,提出解决社会问题的思路和办法,它能够较为深入地、准确地挖掘影响消费者行为因素的研究方法,它相对于调查法更客观。扎根理论适合用于探索性研究,它为研究人员提供一套完整的从原始材料中归纳与建构理论的方法和步骤,通过对原始资料的不断比较、思考、分析将资料转化为概念,并建立概念之间的逻辑关系,最终形成理论。本研究将根据研究问题,通过对样本的深入访谈,获取初始材料,再通过扎根理论的开放式编码、主轴编码、选择性编码并以故事线方式建构理论。
(二)深入访谈样本的选择
与调查不一样,定性访谈不管是访谈者还是调查访谈者,都必须相当熟悉访谈的问题,因为只有这样,访谈才可能顺利、自然地进行。由于个体自身个性因素、喜好因素、使用在线媒介习惯的不同,本研究采用目标式(或称判断式)的抽样方法,基于以下两个原则选择访谈样本:第一,活跃于各个社会化媒体之间(微博、论坛、微信、美拍、小红书、知乎),频繁地使用各种社会化媒体;第二,频繁地发生与品牌相关的在线行为,即消费(点击、阅读、浏览等行为)、贡献(评论、转发等行为)、创作(撰写评论、拍摄图片或视频等行为)。通过于在线媒介中(微博、微信、美拍、小红书、知乎)的观察,最终挑选出52位活跃度高、频繁地发生与品牌相关行为的目标样本。由于扎根理论提出了“理论饱和度”的原则,访谈和分析在实际研究中是密不可分、相互关联的,每进行一次深度访谈后就需要立即对访谈资料进行整理和分析,在此基础上建构初步的理论假设,然后再抽样、再修正理论,循环往复,直至所建构理论假设中的概念、范畴体系达到完善,不再出现新的概念类属的时候,就可以认为已经达到理论饱和,不再需要增加访谈量了。本研究首先对目标样本进行编码,采用随机抽取某一目标样本进行访谈,访谈后将之从编码框中去除,再进行随机抽样,到受访者数量到达第31位之时,理论达到了饱和状态,最终访谈样本情况如表2所示。
(三)研究过程
本研究深入访谈从2015年11月2日起,至2015年12月10日结束,由于受访者来自各个城市,采用一对一电话访谈结合即时通讯工具访谈的形式,每次访谈时间约为70分钟。定性访谈是根据大致的研究计划在访问者和受访者之间的互动,而不是一组特定的、必须使用一定的字眼和顺序来询问的问题,因此本研究采用半结构化的访谈提纲,在正式访问前已向受访者介绍相关概念与释义,提纲由以下问题组成:您是否有维系、获取、投资网络中您与他人的关系、情感、信任与信息资源的需要?某个品牌/产品相关的信息是否会影响您维系、获取、投资网络中的关系、情感、信任与信息资源?您为了维系、获取、投资网络中您与他人的关系、情感、信任与信息资源,您可能会发生什么与品牌相关的行为?您在发生与品牌先关的行为时,会考虑什么因素?或者是什么因素会阻止或刺激您发生这样的行为?定性访谈是持续性的,在研究过程中需要一再地修正问题的形式,因此在访谈过程中不一定固定于以上的问题,而是根据受访者的回答不断修正提出的问题,以期获得有关本研究更准确的材料。
(四)编码过程
本研究使用扎根理论的三种主要编码方式,即开放式编码、主轴编码与选择性编码。通过开放式编码与主轴编码将深度访谈的初始材料进行分析与归纳,使用选择性编码及故事线的方法发现概念、范畴之间的逻辑关系,并建构理论模型。开放式编码是扎根理论的第一步编码过程,要求研究者摒弃先有的概念束缚,保持开放的研究态度对原始的访谈资料进行详细分析并归纳出研究的简短并精确的初始代码系统。开放式编码在原始访谈资料分析时可以采用逐词编码、逐句编码或者事件编码,本研究使用逐句编码的方式进行开放式编码,即从受访者回答的有关影响消费者生成广告行为因素的句子中进行编码。经过多次分析原始访谈资料,整理出236条原始语句,并在剔除了只出现过两次以下的概念与重复概念后,最终得到了本研究的十八个初始概念,并根据开放式编码形成八个初始范畴,即联结强度、信息安全性、奖励因素、在线社会网络的压力及归属规范、消费者喜好因素、消费者品牌/产品经验、消费者先前行为经验、信息特征。一般主轴编码依照寻找开放性编码形成的所有范畴当中的内在逻辑,其方法可以是寻找因果关系或是中介关系、从属关系等,并由此总结出具有概括性、综合性的逻辑范畴。本研究按照因果与从属关系将开放式编码得到的十四个初始概念进行归纳,最终形成四个主范畴,即刺激因素,包括奖励;社会网络因素,包括联结强度、在线社会网络的压力、归属规范;品牌/产品信息因素,包括信息特征、信息安全性;消费者经验与喜好,包括消费者的品牌/产品经验、消费者先前行为经验。选择性编码围绕着核心范畴,分析哪些范畴与核心范畴相关,并研究主轴编码形成的范畴之间的内在关系、验证所归纳的关系,最终构建扎根的理论模型。本研究通过选择性编码,将主轴编码所形成的四个主范畴归纳为外部因素,其中包括社会网络因素、刺激因素、信息因素;消费者内在因素,其中包括消费者经验与喜好。(表3)
四、理论模型的建立与阐释
(一)理论模型的建立
通过以上扎根理论的编码方式,获得了影响消费者维系、获取、投资虚拟社会资本以及消费者与品牌相关的在线消费、贡献与创作行为的社会网络因素与信息特性因素,本研究拟采用故事线的方式发现各个范畴与核心范畴之间的关系,“故事线”是以一句话总结个案故事的主要线索从而发现许多个案共同存在的故事线,最终总结成围绕核心范畴的各个逻辑关系的理论模型。本研究围绕着“虚拟社会资本对消费者与品牌相关的在线行为影响”的核心范畴,形成消费者对虚拟社会资本的动机引发消费者与品牌相关的行为,同时外部因素与内部因素均对消费者动机与行为产生影响的初始模型。(图2)
再通过反复分析初始访谈材料,挖掘因素之间的逻辑关系与更为细致的影响路径,最终形成虚拟社会资本对消费者与品牌相关的在线行为影响模型。通过对目标样本的一对一深度访谈,验证了消费者于在线社会网络中具有维系、获取与投资虚拟社会资本的需求,并且无论哪种需求都可能导致消费者对品牌信息的消费、贡献与创作行为。然而在消费者基于维系、获取、投资虚拟社会资本的需求导致其发生与品牌相关的不同在线行为的过程当中,动机与每种行为受到不同因素的刺激或影响。这些影响因素分别是联结强度、信息安全、在线社会网络中的压力归属规范、消费者喜好、消费者品牌经验、行为经验、信息特征、外部奖励,它们或促进或阻碍消费者发生与品牌相关的行为,以下将分别对影响因素及影响路径进行阐释说明。(图3)
(二)理论模型阐释
本研究所建立的虚拟社会资本对消费者与品牌相关的在线行为影响模型分为四个影响路径,消费者根据不同的联结强度与品牌/产品信息是否安全,产生对虚拟社会资本不同的需求是第一个影响路径。在消费者产生维系、获取、投资虚拟社会资本的动机后,其可能发生消费品牌信息行为、评价或转发或参与讨论品牌信息的贡献行为、或是将品牌信息加工、再造等创作行为,在这过程当中,每种行为会受到不同因素的影响。因此第二个影响路径为消费者消费品牌/产品信息会受到在线社会网络中压力、归属与规范、消费者自身喜好的影响。
第三个影响路径是消费者贡献行为会受到在线社会网络中压力、归属与规范、喜好、品牌经验及信息特征的影响;最后一个影响路径是消费者创作行为会受到在线社会网络中压力、归属与规范、喜好、品牌经验、行为经验、信息特征与外部奖励的影响。从模型来看,消费者产生越是高级的行为,受到影响的因素也就越多。
1.影响路径一:在开放式编码过程中,联结强度主要由消费者与他人的联系频率及不同的关系两个初始概念组成,消费者与他人不同的联系频率及不同的关系会导致其产生对虚拟社会资本不同的需要。若是弱联结,即那些与消费者联系频率较低、关系较疏远的成员,消费者更可能产生投资虚拟社会资本的需要,换言之即加强与他们的互动、建立与他们的信任、加深与他们的感情;而对于强联结,消费者更可能产生获取与维系虚拟社会资本的需要,他们更可能从与自身联系频繁、关系紧密的人那里获取有关品牌的信息、评价以及寻求他人的帮助,更可能转发他人所需要的品牌/产品信息、与他人对品牌/产品信息进行讨论。信息是否安全,是否具有明显的广告意图,是影响消费者产生对虚拟社会资本不同需要的另一个重要因素。如果信息不安全,或具有明显的广告意图,消费者发生相关行为会影响其于在线社会网络中的地位与威望,会影响他人对消费者信任程度的降低,因而消费者会产生维系虚拟社会资本的需要,阻止其发生任何行为;若是信息较为安全,广告意图不明显,消费者则会产生利用信息资源,加强与他人的互动、加强与他人的信任、加深与他人的感情、帮助他人或希望受他人帮助的动机。
2.影响路径二:对品牌/产品信息的消费,是消费者与品牌相关的在线行为中最低层次的行为,通过深度访谈,本研究发现消费者最可能产生对品牌/产品信息的消费行为。消费者基于维系虚拟社会资本的需要,他们会阅读、观看、收听有关品牌/产品推送、视频或音频,关注其他成员共同关注的品牌/产品,关注其他成员正在讨论的品牌/产品,以期维护其与其他成员的关系、情感、信任与信息资源;消费者基于获取虚拟社会资本的需要,他们会更为主动的点击、观看、收听他们所需要的来自于其他成员所推荐、转发的品牌/产品信息;若是基于投资虚拟社会资本的需要,消费者会首先消费品牌信息,根据其他成员的需要给予他人帮助、建议等。在以上过程当中,受到在线社会网络的压力、归属、规范、消费者自身喜好因素的影响,当在线社会网络多数成员都在关注或讨论某一品牌/产品时,消费者会迫于压力,消费品牌/产品信息;同时,品牌/产品信息若是与消费者品味、兴趣、利益、正在进行的事情相关,消费者也会产生对品牌/产品信息的消费行为。消费是消费者贡献与创作行为的基础,也是消费者基于维系、获取、投资虚拟社会资本动机所导致的最频繁的行为。
3.影响路径三:通过深度访谈,多位受访者谈及转发、评论是他们维系、获取、贡献虚拟社会资本最主要的方式。“如果我看到或者了解某个品牌/产品,正好这个东西又是我朋友需要的,我会转发给他…嗯,对,就是经常互相帮助感情才会更好嘛!”“我看到他们都在说这款手机,我看到我同学用过,外观确实做的不错但是听我同学说用过一段时间反应速度就很慢,跟他们分享一下。”“你看到我经常在朋友圈转发各种各样品牌的腮红对吧,哈哈,我在我朋友圈里就是腮红方面的专家,她们要买都来问我。”“噢,我刚在淘宝上买了一个旅行箱,我转发那个链接其实就是想让他们知道我准备来一场说走就走的旅行,我就是侧面表示一下。”以上初始访谈资料表明,在消费者发生贡献行为的过程中,在线社会网络的压力、归属、规范、消费者自身喜好、品牌/产品相关经验、信息特征均为刺激消费者贡献行为的重要因素,并且刺激因素越多,消费者越有可能发生贡献行为。例如消费者观察到其网络当中许多成员都在关注的品牌/产品,恰好消费者有相关的品牌/产品经验,他会产生参与评论的行为。
4.影响路径四:创作是消费者与品牌先关的在线行为中最高层次的行为,创作行为是建立在消费者消费与品牌相关的信息基础之上,同时较于贡献行为又更为高一级,要求消费者加入自身的理解、感受对有关品牌/产品信息进行加工,并且公开。消费者无论是基于维系、获取还是投资虚拟社会资本的动机,都有可能发生创作行为,但是在此过程中所受到的影响因素颇多。消费者创作行为的影响因素在消费者生成内容的研究中已得到相关论证,例如王平提出并论证了消费者对品牌的体验经历正向影响消费者对品牌内容的投入行为,王平、陈启杰等用实证研究验证了激励因素(外部奖励)正向影响消费者生成内容的行为,Christodoulides和Jevons在他们研究与品牌相关的消费者生成内容如何真正影响了品牌的文章中,通过文献综述提出了与品牌相关的消费者生成内容的四大驱动因素:共同创造、赋权、社区、自我认识,其中的社区驱动因素中,群体与网络压力、规范与义务责任正向影响了消费者生成内容的行为;在自我认识驱动因素中,消费者自我享受即喜好,正向影响了消费者生成内容的行为。
除了以上学者所提出的消费对品牌的经验、外部奖励因素、在线社会网络的压力、归属规范、喜好因素之外,本研究受访者还提出先前行为经验与信息特征对消费者创作行为具有重要的影响作用。例如受访者所言“以前我也恶搞过某个产品的图片,反响特别好,好多人给我点赞!”“我之前在朋友圈和微博都发了这个洗发水的图片,好多人说我是不是微商,唉,解释起来特别麻烦,以后懒得发了。”“这个广告语对我触动太大了,正好能表达我现在诸事不利的郁闷心情,所以我把它改写了一下。”与贡献行为一样,消费者所受的刺激因素越多,越可能发生创作行为,单一因素的影响或刺激较难引发消费者的创作行为。
五、研究结论与启示
关键词:大数据 大数据分析方法 情报研究 适用性
中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2014)05-0013-07
Preliminary Study on the Big Data Analytics and Its Adaptability in Intelligence Studies
Abstract Big data analytics has brought new opportunities for data-oriented or information-oriented intelligence studies' development. Based on existing research, the author makes a review of three viewpoints of big data analytics based on data, process and information technology, and then summarizes five levels of analytics which including statistics, mining, discovery, predict and integrate, and its 17 kinds of relevant research methods. The adaptability of big data analytics in the intelligence studiesis discussed and it is found that 10 research methods can be directly transplanted to intelligence studies, 2 research methods should be adjusted for transplantation, 2 research methods are inapplicable, and 3 research methods needfurther study.
Key words big data; big data analytics; intelligence studies; adaptability
大数据分析(Big Data Analytics,BDA)是以“深度的发现分析、引领行动”作为目标的工作[1-2],它包括由多个任务组成的高度重复执行的步骤[3-4]。BDA通常要集成多种分析技术与软件工具,以便让海量数据的处理及分析变得更加容易,从数据中提取有用信息并形成结论,用来验证、指导及规范组织或个人的决策行动;BDA的执行过程一般包括问题需求及假设提出、数据获取及记录、信息抽取及清洗、数据整合及表示、选择建模及分析方法、结果诠释、评测结果有效性及监控等几个阶段。从以上BDA的定义及过程来看,BDA与情报学领域中的情报研究(也称情报分析)在本质上是一致的,两者至少在方法与技术(以下简称方法)上可以相互借鉴或补充。本文基于情报学的视角,关注哪些BDA方法可以为情报研究提供借鉴,并解决情报研究的相关问题。因此,本文首先概略总结BDA的方法体系,然后探讨BDA方法在情报研究中的适用性。
1 大数据分析的方法分类
到目前为止,尚没有公认的BDA方法的分类体系,甚至对BDA包括哪些方法,也有不同的认识。本文首先综述现有的相关研究,并以此为基础提出我们的分类体系。
1.1 相关研究
不同学者对BDA方法的看法各有差异,概括起来,主要有三种分类体系,分别是面向数据视角的分类、面向流程视角的分类以及面向信息技术视角的分类。
(1)面向数据视角的BDA方法分类。这类研究主要是以BDA处理的对象“数据”作为分类依据,从数据的类型、数据量、数据能够解决的问题、处理数据的方式等角度对BDA方法进行分类。
Power[5]依据分析需求将数值型数据的分析方法划分为三类:①若是模式理解及对未来做出推论,可采取历史数据及定量工具进行“回顾性数据分析”;②若要进行前瞻及预测分析,可采取历史数据及仿真模型进行“预测性数据分析”;③若要触发事件,可采取实时数据及定量工具进行“规范性数据分析”。美国国家研究委员会在2013年公布的《海量数据分析前沿》研究报告中提出了七种基本统计数据分析方法[6],包括:①基本统计(如一般统计及多维数分析等);②N体问题(N-body Problems)(如最邻近算法、Kernel算法、PCA算法等);③图论算法(Graph-Theoretic Algorithm);④线性代数计算(Linear Algebraic Computations);⑤优化算法(Optimizations);⑥功能整合(如贝叶斯推理模型、Markov Chain Monte Carlo方法等);⑦数据匹配(如隐马尔可夫模型等)。
针对非纯粹的数值型数据,Li、Han[7]梳理了面向“时空数据”(Spatiotemporal Data)的BDA方法,通过对动态数据挖掘出主体的预测性,如运用物理工程领域的傅立叶变换(Fourier Transform)及自相关匹配(Autocorrelation)侦查某一时间区段的信号、发生的事件或生物基因中的周期性节律,也可运用时间序列方法预测地点位置的变化;魏顺平[8]以教育领域为例,梳理了面向学生与学习环境的“学习分析方法”(Learning Analytics),此方法集成了内容分析、话语分析、社会网络分析、统计分析、数据挖掘等多种方法,从中挖掘学习的各种语义关系,并回答“谁在学、学什么、怎么学、学的结果如何”等问题,为教学与优化学习提供参考。
Mohanty等人[3]从数据获取(Data Ingestion)角度,依照处理的数据量从小至大的顺序,区分出八种分析方法:①流分析(Streaming Analytics),以预定模式及时处理数据流;②高速的数据采集(High Velocity Data Ingestion),不转换任何格式,可稍晚处理; ③链结分析(Linkage Analysis),构建不同数据源的关系与链接;④罕见事件侦查(Rare-Event Detection),从庞大数据集中寻找特定模式;⑤数据聚合(Data Mash-Ups),需要对数据属性发展故事线或链接关系进行分析;⑥文本分析(Text Analytics),如观点挖掘或社会网络分析等;⑦时间序列分析(Time-Series Analysis),通过模式侦测及事件发生概率来处理时空数据;⑧数据辩论(Data Forensic),用于数据科学家探索大规模数据集。
Chen等人[9]认为,在商业智能分析发展的过程中,商业智能分析经历了从处理结构化程度较高的数据、到处理网络上半结构化数据、再到处理移动数据的发展,涵盖了五类核心的分析方法:①数据分析,涉及数据仓储、ETL、联机分析及数据挖掘等分析技术,可应用在时间序列挖掘、网站挖掘、空间数据挖掘等;②文本分析,涉及信息检索、查询处理、相关反馈等分析技术,可应用在QA系统、观点挖掘、多语义分析、可视化分析等;③网站分析,涉及信息检索、网络爬虫、日志分析等分析技术,可应用在云计算、社会网络分析、网站可视化等;④网络分析,涉及信息计量、引用网络、数学网络模式等分析技术,可应用在链结分析、社区发现、社会影响力及扩散模式等;⑤移动分析,可应用在移动通讯服务、个性化分析、游戏营销分析等。
(2)面向流程视角的BDA方法分类。这类研究主要是依据BDA的步骤和阶段对BDA方法进行分类。
美国计算社区协会出版的《大数据的机会与挑战》白皮书指出BDA是一个多阶段任务循环执行过程[4],从整体看,其分析的过程包括了五个阶段,每一个阶段都包含该阶段需要使用的方法:①数据获取及记录,从各种感知工具中获取的数据通常与空间时空相关,需要及时分析技术处理数据并过滤无用数据;②信息抽取及清洗,从异构数据源抽取有用信息,并转换为结构化的格式;③数据整合及表示,将数据结构与语义关系转换为机器可读取、自动解析的格式;④数据建模及分析,从数据中挖掘出潜在规律及知识,涉及可扩展的挖掘算法或知识发现等方法;⑤诠释,为了让用户容易解读分析结果,可视化分析技术变得十分重要。此外,严霄凤、张德馨[10]依照搜集、分析到可视化的流程,梳理了适用于大数据的关键技术,包括:遗传算法、神经网络、数据挖掘、回归分析、分类、聚类、关联规则、数据融合、机器学习、自然语言处理、情感分析、网络分析、空间分析、时间序列分析等多种方法。
(3)面向信息技术视角的BDA方法分类。这类研究强调大数据技术本身涉及到的新型信息技术,将大数据处理架构、大数据计算模式、大数据系统等作为BDA方法分类的依据。
孟小峰、慈祥[11]着眼于大数据处理框架,梳理了数据抽取与集成、数据分析及数据解释所使用的分析方法,在数据抽取与集成方面,可区分为基于物化(Materialization)或ETL的方法、基于联邦数据库或中间件的方法、基于数据流的方法以及基于搜索引擎的方法等四类;在数据分析方面,传统的数据挖掘、机器学习或统计分析面临数据规模、算法调整等困难,需进一步发展;在数据解释方面,引入可视化技术或交互式的数据分析过程,有助于用户理解分析结果。覃雄派等人[12]认为,非关系数据管理(如MapReduce)扩展了数据分析的多维视角,使数据分析的生态系统从“大量数据的移动”转向“直接对数据进行分析”。
2012~2013年在印度召开了两次BDA国际研讨会[13-14],会上分别就BDA中的机器学习面临数据规模与多维度问题、可扩展的机器学习算法(如随机映射、随机梯度下降等)、机器学习在MapReduce的应用、社交媒体数据挖掘(如话题检测与跟踪、地点推理、语义连接等)、高维数据降维分析(如主成分分析、因子分析、经典相关分析等)、图像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及图像比对分析(如特征提取、Iterative Methods)等进行了探讨。2013年IEEE计算机协会在美国召开大数据国际研讨会,BDA结合MapReduce、Hadoop等模型的分析方法仍是主流,研究的内容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。
1.2 BDA方法的分类――面向层次的BDA方法框架
上述三种视角的BDA分类各有特点,都有一定的道理。从面向数据的视角来看,BDA方法正从统计(Statistics)转向挖掘(Mining),并提升到发现(Discovery)和预测(Prediction)。基于流程的BDA分类则更能反映BDA过程的集成性(Integration),也就是说,在完成一项分析任务时,需要综合使用多种方法。从面向信息技术的BDA分类中可以看出,这种分类方式强调使用新技术对传统数据处理方法进行改进和创新,同时更重视新型系统架构与分析方法的集成,例如,各种数据挖掘算法的MapReduce化,就是这方面的典型实例。
本文认为,如果综合上述三种分类体系中体现的层次性,将可以更准确描述BDA方法。在此,本文提出一个面向层次的BDA分类框架,将BDA方法分为统计、挖掘、发现、预测及集成五个层次,并初步归纳出17种BDA相关方法(见表1)。
2 BDA方法在情报研究中的适用性探讨
如前所述,BDA与情报研究在本质上有共同之处,BDA方法可为情报研究提供借鉴,因此,探讨BDA方法对情报研究的适用性就很有必要性。以下综合考虑方法本身的完善性及可操作性、情报研究的分析对象特征、方法的可移植性[15]等因素,对本文所列举的17种面向层次的BDA方法在情报研究中的适用性进行分析。
2.1 可直接移植的方法
可直接移植方法是指这些方法的原理、流程、算法等可以直接应用于情报研究,用来对情报研究的数据源(如科技文献、网络资源等)进行处理,解决情报研究过程中的一个或几个步骤中要解决的问题。在本文所列举的17种面向层次的BDA方法中,数据挖掘、文本挖掘、知识发现、观点挖掘、话题演化分析、多元统计分析、时间序列分析、海量数据的基本统计方法、高维数据降维分析方法、多源数据融合方法等10种方法均属于可直接移植方法,其中有些方法在情报研究中已经有多年的应用历史。
(1)数据挖掘与文本挖掘。数据挖掘与文本挖掘是不同概念,两种方法分别使用不同的发现技术,文本挖掘属于基于计算机语言学及统计方法的发现技术,用来揭示文本中的词与句法特征;数据挖掘以数据库中的大量结构化的数据挖掘为基础,用来揭示数据中潜在的、可能的数据模式及关联规律[16]。在情报学领域的实践应用中,数据挖掘多应用在图书馆自动化技术与服务方面,例如,馆藏采购决策、个性化服务、信息检索、读者管理、馆藏布局等。文本挖掘在情报研究的价值在于弥补了情报学专门分析方法对科技文献内在知识挖掘不足的缺欠,例如,祝清松、冷伏海[17]为了解决引文分析方法无法揭示论文的研究内容这个问题,提出引文内容分析,先建立基于规则的引文内容抽取来识别引用句,再通过基于C-value多词术语识别算法找出高被引论文主题,相比于引文分析,这种方法较能提供客观的语义信息与文献之间的语义关系。
(2)知识发现。情报研究中所说的知识发现,主要是指基于文献的知识发现,例如,张树良、冷伏海[18]在共词、共引、文本挖掘等方法基础上,提出了“基于文献的知识发现”,包括:基于相关文献、基于非相关文献及基于全文献三种条件下的知识发现,完整揭示文献的知识结构与演化情况。在网络环境下,李楠、张学福[19]认为关联数据的RDF数据模型、数据访问机制、URIs及自描述数据等规范所形成的数据共享环境,为知识发现提供了新的研究潜力,包括知识发现的范围被扩展成全球数据空间、高效率理解及处理数据间的语义关系等。简言之,知识发现从不同数据源之间的复杂关系中获得隐含的知识或规律,甚至可对未来进行预测。
(3)观点挖掘与话题演化分析。观点挖掘与话题演化分析两种方法实际上是数据挖掘及文本挖掘的具体及深化应用。观点挖掘主要有三种挖掘任务:情感分类、基于特征的观点挖掘、比较语句和关系挖掘[20],例如,黄晓斌、赵超[21]通过对网络舆情信息的文本挖掘,找出不同民众对某一社会事件的情绪、态度及观点,再通过关联分析找出网络舆情信息的各种关联性。赵洁、温润[22]认为微博情感分析的关键是观点句识别,并根据文本特征的差异性,提出了基于新词扩充和特征选择的观点句识别方法,即先扩充情感词典来提高分词准确率,再结合微博特征进行句子选取。话题演化分析方法是近年文本挖掘的研究热点,借助不同的话题模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,获取文本中的一组词语,表示为某一话题的集合,再引入时间信息模拟该话题随着时间推移所表现的受关注程度及关注点的变化[23]。又例如,贺亮、李芳[24]利用LDA模型抽取科技文献中的话题(即主题词),再计算话题的强度与内容演化,从而区分热门与冷门话题及其历年特征词的演化趋势。
(4)多元统计分析与时间序列分析。多元统计分析与时间序列分析两种方法也是情报研究常见的定量分析方法[25],前者研究客观事物中多个变量(或多个因素)之间相互依赖的统计规律,后者则是基于随机过程理论和数理统计学方法,研究动态数据序列的规律性。这两种分析方法的一个重要特点在于能基于历史数据的变化,评价事物现状或预测事物未来的发展。
(5)海量数据的基本统计分析方法。海量数据的七种基本统计分析方法适用于情报研究的原因是,专家们普遍认为,在现有硬件技术条件下要开发一个海量数据分析系统的难度过高,且高性能计算领域也面临许多困难,因而转向寻找共通的基础性计算方法来帮助运算[6],同时这些统计方法也经常应用于数据挖掘或文本挖掘。对情报研究来说,处理的数据量不及高性能计算领域的海量数据,因此可以容易地应用这些基本统计分析方法。尽管如此,随着情报研究处理的文本量增加,包括文献计量或信息计量方法在内的定量分析方法,仍然要经常借鉴基础性的计算方法,并进行公式改进。
(6)高维数据降维分析方法。高维数据降维分析方法反映了海量的数值型数据在数据缩减的重要性,常见的降维(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相关分析、独立成分分析、投影寻踪等[26]。高维数据经常存在大量的弱相关内容或噪音,通过线性(如主成分分析、典型相关分析等)或非线性(如投影寻踪、核方法等)映射可以将数据样本从高维空间映射到低维空间,从而提高机器学习的效率[27-28]。情报研究在处理文本语料时,广泛使用基于向量空间模型来表示文本,形成的高维特征集会对文本分类或机器学习的效果产生很大影响,通过特征选择(如特征频率、互信息等)进行特征抽取(如PCA、LSI、NMF等),转换成一个低维的特征集来提高训练效果,是非常必要的[29]。
(7)多源数据融合方法。多源数据融合方法是解决大数据环境下异构数据整合而提出的方法,例如,为了解决不同研究阶段产生的各类科学数据集成问题,白如江、冷伏海[30]认为解决关键在于中间件构建,例如,通过基于XML模型将异构数据源的元数据映射到全局视图,解决了不同数据源的关系描述问题,并提供用户可灵活订制查询规则;但基于XML模型只能提供语法层次的整合,为了提供数据在语义层次的整合,可通过基于语义模型对XML的对象进行分类,在对象模型的基础上生成逻辑规则,揭示隐含在科学数据中的语义信息。此外,也可以通过基于物化或ETL方法、基于数据流方法或其他方法对异构数据源中的数据抽取出实体与关系,再进行数据集成或数据清洗[11]。多源数据融合方法是进入数据分析之前的重要任务,对情报研究来说,需要多种来源支持情报分析工作,包括同型异源信息、异质异构信息、多语种信息等,都需要通过异源信息字段的映射、拆分、滤重、加权等进行融合分析[31]。
2.2 调整后移植的方法
调整后移植的方法是指其在原本的领域已经成功应用,但由于该方法最早或成功应用的领域在任务需求、数据处理、分析过程有自身的特点,若移植到情报研究时,需要根据情报研究自身的特征进行调整。数据可用处理及分析方法、时空数据分析等两种分析方法就属于这类情况。
(1)数据可用处理及分析方法。大数据环境中容易产生许多劣质数据来降低数据可用性,为了提高数据可用性及数据质量,李建中及刘显敏[32]梳理了数种数据可用性的相关方法,包括高质量数据获取与整合、数据错误自动检测与修复、弱可用数据处理与分析等,分别解决了大规模数据集预处理阶段常见的一致性、精确性、完整性、时效性及实体同一性等问题。对情报研究来说,情报素材、产品形式及工作任务分解的质量控制是情报工作的核心[33],其中,情报素材的质量对后续的情报分析成败存在着至关重要的作用,当数据或信息是错误或不完整时,提炼出来的情报势必会存在缺陷或错误。过去对情报研究的质量控制取决于人,如果能引入数据可用处理及分析方法解决数据或信息源可能存在的不一致、不精确、遗漏、滞后或重复等问题,有助于提高情报分析素材的可用性与正确性。
(2)时空数据分析。时空数据分析是地球信息科学相关领域的研究热点,其中最常使用“周期”(Periodic Behavior)分析,例如天气预报、环境监控、地理信息系统、城市交通网络管理等都是常见的应用实例[7]。现有研究的多数做法是采取基于时间序列的方法进行周期建模,但建模过程容易出现对象可能没有周期、时间点分布不一定呈现周期性等问题,为了解决这些问题,王阅等人[34]提出基于ERP的周期检测方法解决周期长度定义问题,孟志青等人[35]提出多粒度时间文本下的周期模式挖掘算法解决时态文本数据挖掘问题。对情报研究来说,时间是文本中一个重要的属性,如文献发表规律、舆情监控、科研人员的研究主题周期等。在原有数据基础上增加时间维度进行长时段分析是多数研究的常见做法,但并没有呈现出其中的周期性规律,特别是文本中的规律特征较难发现,如果能引入此类方法,将有助于找出情报演化的周期模式。
2.3 不适用的方法
考虑学科领域差异,本文认为 “翻译生物信息学分析”及“学习分析方法”两种专门研究方法不适合情报研究。
(1)翻译生物信息学分析。翻译生物信息学分析是生物信息学的专门分析方法,这种方法是依据特定目的整合多数据源及促进领域知识的有效利用,其结果可应用在生物医学研究、产生支持医疗人员在治疗点中的“可操作的决策”(Actionable Decision),同时能对人类与疾病的关联关系提供更好的理解。生物信息学为了找出更多基因与疾病的关系,通过翻译生物信息学分析,可以将分析方法与工具开发从系统层面横跨到分子、个人或全人类层面,分析视角从单一基因或多肽(Polymorphic)挖掘的研究转向新基因或遗传性状组合与预测研究[36]。从分析方法的操作过程来说,考虑到数据源的特殊性(如DNA编码数据、蛋白质结构等)、分析视角、工具构建及使用等因素,并不符合情报学的学科研究特色。
(2)学习分析方法。学习分析方法是搜集、分析及评测学习者及其学习语境的分析方法,目的在于理解与优化学习及其学习环境[8]。从UNESCO IITE机构在2012年11月出版的学习分析方法政策简报可知,学习分析方法的数据分析功能是基于数据挖掘从而开展相关分析内容,包括行为分析、学习资源浏览分析、各种关联分析与影响因素分析等。虽然数据挖掘是情报研究的常见方法,但学习分析方法的结果意义在于解释学习者的学习语境,为教师或管理者提供决策支持,从而改善学习者的学习习惯及促进学习效果。由于这种方法有其特定的含义和应用环境,离开了学习语境,方法的内涵和外延可能就会产生变化,因此,难以移植到情报研究。
2.4 需要继续关注的方法
基于MapReduce或Hadoop的衍生分析方法、图模型分析与挖掘以及商务智能分析,是近年研究探讨较多的方法,但目前尚未形成一个成熟且完善的方法体系,例如,MapReduce或Hadoop等之类的工具还在持续发展中,本身也存在不断的改进空间,它们与各种分析方法的集成缺乏公认的标准和规范,同样地,对于关注图像与事物之间关联的图模型分析与挖掘也尚没有发展出固定的技术,又例如,商务智能分析被定义为由数据仓库、ETL、联机分析、数据挖掘、客户关系管理、知识管理等多种技术融合的一组系统,通过BI系统管理组织内部及个人相关的商业数据、专家信息及知识,涉及数据的融合、取用及分析等方法与工具[37-38],目前也没有标准化的体系架构。
因此,本文还无法明确回答上述三种方法将如何应用于情报研究、在应用过程中需要做哪些调整、这些方法与现有的情报研究方法的关系如何等相关问题,但可以肯定的是,这些方法对未来的情报研究具有借鉴价值,例如,一旦情报研究的处理对象(即数据)积累到了一定程度,成为传统关系数据库处理不了的大数据,那么,使用基于MapReduce或Hadoop的衍生分析方法就成为了必然。又如,图模型分析与挖掘可补充情报研究在图像分析的不足,而商务智能分析可理解为一套集成系统,可应用在情报机构的知识库或机构典藏,找出组织的知识缺口等方面。
3 结语
大数据时代就是一个数据分析的时代,学界和业界提出了很多大数据分析的方法与技术,这些方法与技术对情报研究产生了积极的借鉴作用,本文总结了大数据分析的方法,提出面向层次的BDA方法框架,归纳总结了其中的17种BDA方法,并从可直接移植、将调整后移植、不适用于情报研究以及需要继续关注等四个方面对这些方法在情报研究中的适用性进行了分析,以期为情报研究借鉴或移植BDA相关方法提供参考,促进情报研究的理论与实践发展。
参考文献:
[1]Lavalle S, Lesser E, Shockley R, et al. Big Data, Analytics and the Path From Insights to Value[J].MIT Sloan Management Review,2011,52(2):21-32.
[2]Russom P. BIG DATA ANALYTICS[R].The Data Warehousing Institute,2011.
[3]Mohanty S, Jagadeesh M, Srivatsa H. Big Data Imperatives - Enterprise Big Data Warehouse, BI Implementations and Analytics[M]. New York: Apress, 2013.
[4]Computing community consortium. Challenges and Opportunities with Big Data[R]. Washington, DC:Computing Research Association,2012.
[5]Power D J. Using "Big Data" for analytics and decision support[J].Journal of Decision Systems,2014,23(2): 222-228.
[6]Nationalresearchcouncil.Frontiers in Massive Data Analysis[R].Washington,DC:The National Academies Press, 2013.
[7]Li Z H, Han J W. Mining Periodicity from Dynamic and Incomplete Spatiotemporal Data[A]. Chu W W,Data Mining and Knowledge Discovery for Big Data[M].Germany:Springer Berlin Heidelberg, 2014:41-81.
[8]魏顺平. 学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术,2013, 23(2): 5-11.
[9]Chen H C, Chiang R H L, Storey V C. Business Intelligence and Analytics: From Big Data to Big Impact[J]. MIS Quarterly,2012, 36(4): 1165-1188.
[10]严霄凤,张德馨. 大数据研究[J].计算机技术与发展, 2013, 23(4): 168-172.
[11]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013, 50(1): 146-169.
[12]覃雄派,王会举,杜小勇,等. 大数据分析――RDBMS与MapReduce的竞争与共生[J].软件学报,2012, 23(1): 32-45.
[13]Sengamedu S. Scalable Analytics-Algorithms and Systems[A].Srinivasa S, Bhatnagar V.Big Data Analytics[M].India:Springer Berlin Heidelberg, 2012:1-7.
[14]Mehta S, Subramaniam L V. Tutorial : Social Media Analytics[M].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013:1-21.
[15]王炼,武夷山. 方法移植对科学计量学研究的方法论启示[J]. 科学学研究,2006, 24(4): 503-507.
[16]Kroeze J H, Matthee M C, Bothma T J D. Differentiating Data-and Text-Mining Terminology: The 2003 annual research conference of the South African institute of computer scientists and information technologists on Enablement through technology[Z]. South Africa:2003:93-101.
[17]祝清松,冷伏海. 基于引文内容分析的高被引论文主题识别研究[J]. 中国图书馆学报,2014,(1):39-49.
[18]张树良,冷伏海. 基于文献的知识发现的应用进展研究[J]. 情报学报,2006, 25(6): 700-712.
[19]李楠,张学福. 基于关联数据的知识发现应用体系研究[J]. 图书情报工作,2013,(6):127-133.
[20]王辉,王晖昱,左万利. 观点挖掘综述[J]. 计算机应用研究,2009,26(1):25-29.
[21]黄晓斌,赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学,2009:(1): 94-99.
[22]赵洁,温润. 基于新词扩充和特征选择的微博观点句识别方法[J]. 情报学报,2013,32(9): 945-951.
[23]单斌,李芳.基于LDA话题演化研究方法综述[J]. 中文信息学报,2010, 24(6): 43-49.
[24]贺亮,李芳. 科技文献话题演化研究[J]. 现代图书情报技术,2012,(4): 61-67.
[25]查先进.信息分析[M].武汉:武汉大学出版社,2011.
[26]Lakshminarayan C. High Dimensional Big Data and Pattern Analysis: A Tutorial[A].Bhatnagar V, Srinivasa S.Big Data Analytics[M].India:Springer International Publishing, 2013: 8302, 68-85.
[27]胡洁. 高维数据特征降维研究综述[J]. 计算机应用研究,2008,(9): 2601-2606.
[28]吴晓婷,闫德勤. 数据降维方法分析与研究[J]. 计算机应用研究,2009,(8):2832-2835.
[29]陈涛,谢阳群. 文本分类中的特征降维方法综述[J]. 情报学报,2005,24(6): 690-695.
[30]白如江,冷伏海. “大数据”时代科学数据整合研究[J]. 情报理论与实践,2014, 37(1): 94-99.
[31]化柏林. 多源信息融合方法研究[J]. 情报理论与实践,2013,(11): 16-19.
[32]李建中,刘显敏. 大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.
[33]王延飞,王林兰. 论情报研究质量[J].图书情报工作,2010,54(10):35-39.
[34]王阅,高学东,武森,等. 时间序列周期模式挖掘的周期检测方法[J]. 计算机工程,2009, 35(22): 32-34.
[35]孟志青,楼婷渊,胡强.多粒度时间文本数据的周期模式挖掘算法[J]. 计算机科学,2013,(S2): 251-254.
[36]Bellazzi R, Diomidous M, Sarkar I, et al. Data analysis and data mining current issues in biomedical informatics[J]. Methods of Information in Medicine,2011,50(6):536-544.
[37]Negash S. Business intelligence[J]. Communications of the Association for Information Systems,2004,13(1):177-195.
为有效提高非结构化Web金融文本情感倾向和强度分析的精度,提出了基于语义规则的Web金融文本情感分析算法(SAFT-SR)。该算法基于Apriori算法对金融文本进行属性抽取,构建金融情感词典和语义规则识别情感单元及强度,进而得到文本的情感倾向和强度。实验结果表明,与Ku提出的算法相比,在情感倾向分类方面,算法SAFT-SR情感分类性能良好,提高了分类器的F值、查全率和查准率;在情感强度计算方面,算法SAFT-SR的误差更小,更接近真实评分,证明了SAFT-SR是一种有效的金融文本情感分析算法。
关键词:Web金融文本;情感词典;语义规则;情感分析;情感倾向
中图分类号: TP391
文献标志码:A
Sentiment analysis on Web financial text based on semantic rules
Abstract:
In order to effectively improve the accuracy of sentiment orientation and intensity analysis of unstructured Web financial text, a sentiment analytical algorithm for Web financial text based on semantic rule (SAFT-SR) was proposed. The algorithm extracted features of financial text based on Apriori, constructed financial sentiment lexicon and semantic rules to recognize sentiment unit and intensity, and figured out the sentiment orientation and intensity of text. The experimental results demonstrate that SAFT-SR is a promising algorithm for sentiment analysis on financial text. Compared with Kus algorithm, in sentiment orientation classification, SAFT-SR has better classification performance and increases F-measure, recall and precision; in sentiment intensity analysis, SAFT-SR reduces error and is closer to expert mark.
Key words:
Web financial text; sentiment lexicon; semantic rule; sentiment analysis; sentiment orientation
0 引言
截至2012年末,我国已拥有超过2494家A股上市公司,然而随着全球金融市场的动荡,股票市场管理与优化及企业财务危机预测成为研究的热点。目前,大部分企业财务危机预测研究是基于财务报表数据来建立金融危机预测模型,但财务报表有以下缺点[1]:1)报表人为操作性强;2)基于静态数据,忽略了企业财务比率的时间序列特点;3)实效性较差;4)未考虑财务比率的历史累积值对现时的影响。因此,单纯利用财务报表进行判断,势必会造成预测结果的偏差。
财务报表和金融数据的局限性,使得人们寻求从其他角度着手于股票市场管理和企业财务危机的预测和研究。随着Internet的高速发展,Web信息量得到了前所未有的增长,公众在互联网上自己对企业的看法已司空见惯,普通投资者的情感倾向是联系投资者与股票市场、上市公司的桥梁,Web新闻或论坛对上市企业的评论可以直接反映出公众对该企业的看法。Web金融信息所具有的实时性、全面性和覆盖性等特点,不仅为财务危机预测研究提供了新的机遇,也为投资者情感分析提供了廉价且丰富的数据来源。由于Web金融信息是非结构化的文本信息,并具有领域知识,因此,如何对其进行深入挖掘,发现其中的情感倾向和强度,对文本挖掘提出了新的挑战。
本文基于语义规则,对Web金融文本进行情感分析,挖掘投资者的情感倾向和强度,并对投资者情感强度变化与股票市场之间的联动关系展开分析,可以为企业财务危机预测和股票市场管理与优化提供新的思路与选择。
1 相关工作
文本情感分析就是对带有情感色彩的词语、句子以及文本进行分析、处理、归纳和处置的过程[2]。文本情感分析可分为基于机器学习的分类方法和基于语义分析的方法两大类。运用机器学习的方法进行文本分类,先人工标注一些文本的情感倾向,作为训练语料,然后通过训练得到一个分类器,最后将测试语料用已训练好的分类器进行分类测试,得到文本的情感倾向。Pang等[3]运用朴素贝叶斯网络、最大熵模型和支持向量机三种分类器对于影评进行了分类研究。Cui等[4]实验证明,当训练语料较少时,uni-gram的效果最优,随着训练语料的增多,n-gram(n>3)效果较好。
基于语义的情感倾向分析研究是对文本计算一个情感倾向值,值的符号表示其倾向性,而其绝对值的大小则反映其情感强度。基于语义的情感倾向分析又分为两类:基于情感词的文本倾向性分析和基于语义规则的文本倾向性分析。基于情感词的文本倾向性分析首先抽取出文本中的情感词,然后对情感词逐一进行情感倾向判断,得到各自的情感倾向值,最后通过累加这些倾向值获得文本最终的情感倾向和强度。代表性的研究有:Turney[5]运用点互信息和潜在语义分析方法计算目标词汇和种子词之间的关联度,进而得出目标词汇的倾向性;Yuen等[6]在Turney研究的基础上,对中文极性词的自动获取进行了研究;朱嫣岚等[7]利用HowNet提供的语义相似度和语义相关场,计算目标词汇与已标注褒贬性的种子词之间的相似度,提出了词语倾向性判断方法。基于语义规则的文本倾向性分析首先建立一个情感倾向语义模式库,然后将文本按照这个语义模式库进行模式匹配,计算得到一系列情感倾向值,最后将这些倾向值进行累加,得到整个文本的情感倾向和强度。代表性的研究有:Wiebe等[8]对语料库标注了级别(文档级、短语级和句子级),在此基础上,利用词语的搭配模式发现文本中的倾向性词语及其搭配关系;Wilson等[9]研究证实了合并语言信息能显著地改进了细粒度情感分析的性能;Takamura等[10]提出了Latent Variable Models用于短语的语义倾向性研究;Matsumoto等[11]从组成或依赖结构抽取子串改善句子层模型的性能;Ku等[12]对新闻和博客文本从词级、句子级和文档级进行了意见抽取,得出观点摘要,进而对文本进行情感倾向和强度分析。
从已有研究可以发现,文本倾向性分析已引起了学者们的普遍关注,但尚未被广泛应用于金融领域。Pang的研究表明,在情感倾向性研究中,统计方法的准确率要高于机器学习方法。因此,本文立足于基于语义的情感倾向性研究,针对Web金融文本的特点,充分考虑句子中否定词和程度副词对文档极性转移的作用及其不同权重,提出了一种基于语义规则的Web金融证券域文本情感分析方法,并在此基础上,对投资者情感变化与股票市场之间的联动关系展开分析。
2 基于语义的Web金融文本情感分析
2.1 总体框架
Web上的金融文本主要分为两大类:一类是各金融网站的新闻、专家评论、公告等;另一类是各股吧论坛中的用户评论帖子。其中,第二类信息,即普通投资者所的信息更能够反映投资者的情感倾向,因此本文选取股吧论坛中的用户评论帖子作为研究对象,在对Web金融文本进行预处理、分词和词性标注后,提取情感词以及可以影响情感倾向的副词和否定词等,通过定义语义规则进行匹配,计算文本情感倾向和强度。情感倾向值计算包含以下几步:1) 文本预处理;2)文本属性(特征)提取;3) 金融情感词典构建;4) 语义规则构建;5) 基于语义规则的情感单元识别和情感值计算;6) 整篇文档的情感倾向值计算。总体框架如图1所示。
2.2 Web金融文本采集
投资者情感来源于网络舆论,包括股吧论坛、博客、微博、社交网站等多种媒体形态,因此数据的采集应考虑大型金融类论坛,研究选用东方财富网论坛投资者评论文本。在文本采集方面,采用网络蜘蛛进行收集。
2.3 文本预处理
2.3.1 网页解析及噪声消除
对下载生成的网页文件,编写Java程序,解析文件,将解析结果导入到数据库中以备后续查询与分析使用,保留的主要字段有股票代码、发表时间、标题、内容、点击量和回复量等信息。
去除噪声文本的方法如下:人工选取有效帖,统计有效帖文件大小、点击量、回复量等帖子特征,统计分析有效帖各特征的合理范围,依据该统计特征去除噪声文本,减小后续数据处理的压力。
2.3.2 中文分词和词性标注
研究以在线评论中的句子为单位,首先对得到的评论语料进行断句处理,按照评论中出现的标点符号(分号、句号、问号、叹号等),空格符等进行断句;同时应用中国科学院分词器ICTCLAS3.0,对评论文本中的句子进行分词和词性标注。
2.4 属性提取
经过噪声处理的文本信息仍然不能满足对情感分析的需要,因为这里面依然含有大量的与上市公司属性无关的描述,这些描述可能含有情感,但是与主题无关,不能计入对上市公司的情感倾向计算。因此,首先应提取上市公司属性(特征),后续只对上市公司属性(特征)所在的句子进行情感分析,以此排除噪声信息的干扰。
设计了一个基于Apriori算法的属性提取算法FEAA(Feature Extraction Algorithm based on Apriori),针对股吧金融文本信息特点,实现从海量文本信息中挖掘投资者情感关注的属性词,具体算法如下:
算法1 基于Apriori算法的属性提取算法。
输入 所有评论文本;
输出 金融文本关键属性(特征)。
1)对股吧评论信息进行中文分词及词性标注,创建关联规则事务文件I;
2) 基于Apriori算法从事务文件I中,找到频繁项集作为候选特征集合I0;
3) 将I0按照邻近规则修剪,成为候选特征集合I1;
4) 将候选特征集合I1按照独立支持度规则继续修正,形成候选特征集I2;
5) 对I2中频繁项名词进一步过滤,去掉非属性名词(如专有名词、时间名词、人称名词、口语化名词等)和单字名词,过滤形成I3;
6) 对未包含在I3中的非频繁项属性名词,人工补充形成I4,得到金融文本关键属性集合。
完成属性提取后,将重点对含有属性词的句子进行情感倾向分析,从而去除无关信息对投资者情感倾向分析的干扰。
2.5 情感词典构建
针对Web金融文本的特点,构建了一个包括基础词典、领域词典、网络词词典以及修饰词词典的情感词典。
1) 基础词典。
基础词典主要利用了《知网》、《情感词典》和《学生褒贬义词典》提供的褒贬义情感词语,通过去重之后作为基础情感词典。
2) 领域词典。
某些极性词只在特定的领域才被使用,且具有情感倾向,如“涨停”“利多”;还有一些极性词在不同的领域修饰不同的特征时会表现出不同的情感,例如“升高”在描述工资收入时是褒义的,而在描述利率时对股票市场就是不利消息,可看成是贬义。本文利用常用的证券操作词汇表,提取具有情感倾向的词语进行人工筛选,构建了一部股票投资领域的情感词典。为了提高情感分析的准确性,还选取一定规模的股吧评论语料,抽取情感词进行人工标注,也加入领域词典。
3) 网络词词典。
大量涌现的网络用语,在一段时间内常被用来表达人们的情感倾向。因此,把使用频繁且带有情感倾向的网络用语加入所构建的情感词典中来,以满足对网络评论信息情感分析的需要。
4) 修饰词词典。
当程度副词或否定副词修饰情感词时,整个情感的情感极性和强度都可能发生变化,因此构建了一个包括否定副词和程度副词的修饰词词典。根据文献[13]中对否定副词范围的界定,选取31个否定副词,采用蔺璜等[14]对程度副词的分类,并结合《知网》中程度副词,选取了212个程度副词。
5) 情感词典扩展。
对于文本中的新词,即在以上构建的情感词典中检索不到的候选情感词,基于点互信息的算法对情感词典进行进一步扩展。
经过以上步骤,构建的情感词典含有31个否定副词,212个程度副词,21333个情感词语,其中7779个正面情感词语,13554个负面情感词语。
2.6 情感倾向和强度分析
基于语义规则的Web金融文本情感分析算法(Sentiment Analysis Algorithm for Web Financial Text Based on Semantic Rule, SAFT-SR)的基本思想是:对文本中的每个存在关注属性(特征)的句子,按照预设的语义规则,计算情感分析单元的情感强度,将这些情感分析单元的情感强度进行累加,求得平均值作为句子的情感倾向,然后对句子情感强度进行累加求平均,作为整个文本的情感倾向和强度。
基于极性累加判断句子的情感强度的算法流程如下:首先对待分析文本进行中文分词和词性标注,若文本中句子不包含属性词和其相关的情感词(正向情感词或者负向情感词),则认为这些句子是中性的,不进行分析,对文本中含有属性词及相关情感词的每一个句子S:sw1,sw2,…,swm,其中swj表示句子S中所包含的第j个属性词所在的情感分析单元,m表示句子S中拥有的属性词的数量,则有:
表1中,PW代表正向情感词,NW代表负向情感词,NA代表否定副词,DA代表程度副词,U表示情感分析单元,E(PW)、E(NW)和E(NA)分别代表正向情感词、负向情感词和否定副词的情感强度。根据程度不同,程度副词的情感强度L(DA)分别设定为0.9,0.7,0.5和-0.5。
若整篇文章包含n个情感句,则篇章情感强度计算可以通过篇章中每个句子的情感强度计算得到,如式(2)所示:
其中:E(T)代表篇章的情感值,由篇章中情感句的平均强度决定;E(Si)是每个情感句的情感强度。基于语义规则的Web金融文本情感分析算法如算法2所示。
算法2 基于语义规则的Web金融文本情感分析算法。
输入 金融评论文本;
输出 文本情感倾向和强度值。
1) 文本预处理(分词和词性标注);
2) 调用基于Apriori算法的属性提取算法(FEAA)抽取出属性(特征);
3) 识别出文本中包含属性词和其相关的带有情感词的句子;
4) 对每个情感句,按照表1识别出情感计算单元;
5) 按照表1和式(1),计算情感句中的每个情感计算单元的情感值并求得每个情感句的情感值;
6) 按照式(2),计算整篇文档的情感值,得出篇章情感倾向和强度。
3 实验及数据分析
3.1 实验数据集
实验数据选取国内最有影响力的财经金融论坛——东方财富网股吧作为文本来源,借助MetaSeeker的两个组件MetaStudio和DataScraper来实现网页的下载,采集2010年10月至2012年5月,沪深300成分股的股吧1000多万个评论帖子作为原始信息数据。
预处理按照2.3.1节提出的方法进行统计分析,获取有效帖的统计特征,按照所获取的特征,将文件容量小于4KB或大于100KB的文件作为噪声帖排除掉;另外通过对股吧评论信息关注特征分析,确定把点击量小于100或者回复量等于零的帖子判定为噪声帖。由此,得到了30万有效帖,为了减少后续人工标注的工作量,随机从30万帖子中抽取1万帖子作为实验数据集。
3.2 数据集标注
选取熟悉领域知识的3个人作为文本情感标注者。将3人中多数人的标注结果作为最后的标注结果。标注完成后,进行标注者间信度分析,然后合并标注后的结果,确定最终结果。表2给出了3个标注者两两间标注相同的百分比和三者标注一致的百分比。
从表2可以看出,标注者间的一致率还是比较高的,主要是因为金融文本的情感倾向一般比较明显。然而随着标注者数目的增加,一致标注的相同率会有所下降。由于只考虑文本的情感倾向,所以剔除了中性的标注结果。最后,实验数据集中只包含了5172条情感倾向为正的文本和3639条情感倾向为负的文本。
3.3 情感倾向和强度评测
3.3.1 情感倾向评测指标
在情感倾向评测中选择了查全率(Recall)、查准率(Precision)和F值(F-measure)三个指标来进行评价。查全率反映了一个分类器的泛化能力,查全率高说明这个分类器能够把正确的类别识别出来。查准率反映了一个分类器对于类别的区分能力,查准率越高,表明分类器识别出的正确分类数与总分类数差距不大,即识别的错误率较低。F值(F-measure)将查全率和查准率一并列入新的综合评价指标。参见表3,正向文本查全率和查准率,负向文本查全率和查准率及相应的F值的定义如下。
3.3.2 情感强度评测指标
在情感强度评测方面,之前标注者在标注时不仅标注情感倾向,同时也标注情感强度,选择将情感倾向标注的多数(两位或三位)作为最后情感倾向,并将其标注(两位或者三位)情感值的平均值作为文本最后的情感强度。算法SAFT-SR的结果与标注结果间的误差计算如式(9):
其中:D(T)表示算法结果和专家标注之间差值的平均值,D(T)值越小,说明算法结果越接近专家标准,反之就越偏离专家标准;n是总的文本个数;E(Ti)是算法SAFT-SR计算出来的第i个文本的情感强度;C(Ti)是专家标注的第i个文本的情感强度。由于D(T)考虑文本中所有情感单元强度计算结果和专家标注结果之间差异的平均值,因此能较好地反映算法计算结果与标注结果之间的误差。
3.3.3 实验结果及分析
使用本文算法SAFT-SR和Ku算法[12]在上述数据集上分别进行实验。表4和图2分别给出了本文算法SAFT-SR和Ku算法对文本情感倾向判断的结果。
从表4和图2可以得出,本文算法在正向文本上的F值是85.26%,相对于Ku算法的72.31%提高了12.95%,正向文本查全率86.62%和正向文本查准率83.94%,相对于Ku算法的正向文本查全率73.49%和正向文本查准率71.17%分别提高了13.13%和12.77%。本文算法在负向文本上的F值是78.22%,相对于Ku算法的59.05%提高了19.17%,负向文本查全率76.45%和负向文本查准率80.08%,相对于Ku算法的负向文本查全率57.68%和负向文本查准率60.49%分别提高了18.77%和19.59%。结果表明本文算法较Ku算法整体提高了情感倾向的识别精度,这是因为Ku算法在句子情感倾向计算时只进行简单的词汇情感统计或只是考虑到否定副词的修饰关系,并没有对其中的程度副词及句子的模式进行更深入的剖析,并且没有设计基于金融领域的情感词典。
由于沪深300包含了300支股票,限于篇幅,表5只列举了两个算法在前四支股票评论文本和所有股票评论文本情感强度上的D(T)计算结果和专家的评分。通过对表5中结果比较可以发现,对于单支股票评论的情感强度,在前四支股票上,仅在南玻A一支股票上,Ku算法略微好于本算法,而在其余三支股票上,本算法都好于Ku算法,情感强度误差值更小。对沪深300所有股票来说,在大多数情况下,Ku算法比本文算法的误差大,在所有股票评论文本上Ku算法的平均误差较SAFT-SR高了0.067,说明本文算法SAFT-SR计算的情感强度更接近专家评分,原因在于SAFT-SR算法考虑了文本金融领域的特点,且设计的语义模式更加符合人的理解模式。
3.4 情感强度对股市影响效应分析
由于投资者情感强度的对数近似服从正态分布,因此对投资者情感强度的对数(ln(ISI))与股票市场特征变量的关系进行相关性分析,考察2010年10月至2012年5月,投资者情感强度与沪深300指数的对数(ln(price))、日成交量的对数(ln(volume))、日换手率(turnover)、日波动率(volatility)和日收益率(DR)等指标之间的相关系数,相关性分析结果如表6所示。
从表6可以看出,投资者情感强度(取对数)与沪深300指数(取对数)呈正相关,相关系数为0.252;投资者情感强度(取对数)与日成交量(取对数)呈正相关,相关系数为0.358;投资者情感强度(取对数)与日换手率呈正相关,相关系数为0.319;投资者情感强度(取对数)与日波动率呈正相关,相关系数为0.346;投资者情感强度(取对数)与日收益率呈显著正相关,相关系数为0.432。在所有股市特征指标中,投资者情感强度与股市收益率的相关系数最大,也最为显著。因此可以认为,投资者情绪与股票市场价格和成交量呈正相关。
4 结语
本文基于语义规则的文本倾向性分析技术,对非结构化的Web金融文本进行情感倾向和强度分析,构建了金融情感词典和语义规则,提出了基于Apriori的金融文本属性抽取算法(FEAA)和基于语义规则的Web金融文本情感分析算法(SAFT-SR)。实验结果表明,与Ku提出的算法比较,在情感倾向分类方面,本文算法SAFT-SR的F值、查全率和查准率均有较大提高;在情感强度计算方面,本文算法较Ku算法的误差更小,更接近真实评分。在今后的研究工作中,将进一步完善语义规则和情感词典,以进一步提高情感倾向和强度的计算精度。
参考文献:
[1] LI G. Sentiment computation of Web financial text based on semantic analysis[D]. Nanchang: Jiangxi University of Finance and Economics, 2012.(李国林. 基于语义分析的Web金融文本信息情感计算[D]. 南昌: 江西财经大学, 2012.)
[2] ZHAO Y, QIN B, LIU T. Sentiment analysis[J]. Journal of Software, 2010, 21(8): 1834-1848.(赵妍妍, 秦兵, 刘挺. 文本情感分析综述[J]. 软件学报, 2010, 21(8): 1834-1848.)
[3] PANG B, LEE L, VAITHYANATHAN S. Thumbs up? Sentiment classification using machine learning techniques[C]// Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2002,10: 79-86.
[4] CUI H, MITTAL V, DATAR M. Comparative experiments on sentiment classification for online product reviews[C]// Proceedings of the 21st National Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2006,2: 1265-1270.
[5] TURNEY P D. Thumbs up or thumbs down? semantic orientation applied to unsupervised classification of reviews[C]// Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2002: 417-424.
[6] YUEN R W M, CHAN T Y W, LAI T B Y, et al. Morpheme-based derivation of bipolar semantic orientation of Chinese words[C]// Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2004:1008-1014.
[7] ZHU Y, MIN J, ZHOU Y, et al. Semantic orientation computing based on HowNet[J]. Journal of Chinese Information Processing, 2006, 20(1):14-20.(朱嫣岚, 闵锦, 周雅倩, 等. 基于HowNet的词汇语义倾向计算[J]. 中文信息学报, 2006, 20(1):14-20.)
[8] WIEBE J, BREUCE R, BELL M, et al. A corpus study of evaluative and speculative language[C]// Proceedings of the 2nd ACL SIGdial Workshop on Discourse and Dialogue. Stroudsburg: Association for Computational Linguistics, 2001,16: 1-10.
[9] WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phrase-level sentiment analysis[C]// Proceedings of the 2005 Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2005: 347-354.
[10] TAKAMURA H, INUI T. Latent variables models for semantic orientation of phrases[C]// Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics. Tokyo: Fuji Press, 2006: 201-208.
[11] MATSUNOTO S, TAKAMURA H, OKUMURA M. Sentiment classification using word sub-sequences and dependency sub-trees[C]// Proceedings of the 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin: Springer, 2005: 301-310.
[12] KU L W, LIANG Y T, CHEN H H. Opinion extraction, summarization and tracking in news and blog corpora[C]// Proceedings of the 2006 AAAI Symposium on Computational Approaches to Analysing Weblogs. Menlo Park: AAAI Press, 2006: 100-107.