本文首发于《管理科学学报》年09期,获上海国家会计学院年度优秀科研成果奖励(优秀论文)。
作者信息马长峰,上海国家会计学院副教授;陈志娟,浙江工商大学金融学院副教授;张顺明,中国人民大学财*金融学院教授。基金项目:上海市社科规划一般课题(BGL);国家自然科学基金青年基金资助项目();国家自然科学基金资助面上项目(和)。
作为一种非结构化1数据,文本大数据最近十年深刻影响会计学和金融学研究。这种影响体现在两类文献:第一类以信息为中心,将文本分析技术用于信息的品质(可读性)和数量(文本信息含量)、信息披露和市场异象等方面的研究;第二类与信息无关,主要是利用文本大数据分析技术构建全新指标,例如基于文本分析的公司竞争力、创新和经济*策不确定性等新变量。本文在梳理上述文献研究脉络基础上,揭示文本分析技术的优缺点,并且指出在会计和金融领域应用文本大数据技术的研究面临的挑战和机遇。可读性;信息;市场有效性;欺诈;创新;经济*策不确定性0引言中共十九大报告提出“推动互联网、大数据、人工智能和实体经济深度融合”,说明大数据研究契合国家经济发展战略,具有重大意义。大数据2多表现出非结构化特征,要求新的数据处理技术(例如机器学习),能够产生新的发现。大数据包括文本、音频、图像和视频等类型。过去十年,文本大数据对金融和会计研究产生巨大影响。本文梳理相关研究脉络,揭示最新研究动态;比较文本分析的优缺点并展望未来研究方向,提供新的研究视角并激发研究思路。
文本分析是计算语言学、自然语言处理、信息恢复、内容分析等领域的交叉学科。应用文本分析进行会计和金融研究的主要步骤如下:采集文档,解析文档,文本挖掘,指标构建,计量分析。由于通常没有现成的文本大数据可用,研究者一般需要开发网络爬虫采集原始文档。解析文档之前可能需要对原始文档进行格式转换,例如中国上市公司年报是PDF格式,须转换为容易被计算机处理的文本格式。解析文档主要是删除图形、表格、标签(例如HTML标签)和冗余标点符号等噪音从而提供干净文本。正如Loughran和McDonald[5]指出,解析文档难度很大,是关键环节。基于干净文本,采用词袋技术等文本挖掘工具,即可构建可读性(Readability)、语调、文档相似性等指标,进而进行计量分析。
随着文本大数据的出现和计算语言学的发展,文本大数据分析成为会计和金融研究的重要工具3。根据研究内容,本文将相关文献分为两类:第一类将文本分析用于信息品质和数量、信息披露和市场异象等问题的研究,第二类用于构建公司创新、竞争力等新指标。
Li[1]是较早关于文本分析方面的研究综述,但该文限于公司信息披露方面的研究。Lourghran和McDonald[7]范围更广,但该文以研究方法为主线,且未包含许多金融和会计重要领域的研究,特别地,该文并没有包含中文文本分析的研究。沈艳等[8]虽然包含了中文文献,但按照学科梳理文献,与本文按照研究内容的视角完全不同。本文根据是否与信息相关来梳理文献,这一新视角是对此前文献综述的发展。同时,相比此前文本分析的文献综述多以英文文献为主,本文兼顾中英文文献,从而使本文的综述更全面。
本文贡献为:(1)总结了应用文本分析研究会计和金融问题的一般步骤;(2)理清了应用文本分析进行会计和金融研究的脉络:按照是否和信息相关,将文献归结为两类;(3)对比了文本分析的优势和缺点,有助于研究者全面认识文本分析并规避方法缺陷;(4)指出未来应用文本分析技术进行会计和金融研究的可能方向,为后续研究提供参考;(5)分析中文文本分析的难度和前景,有利于形成中国特色的会计和金融研究体系。
1信息相关研究金融和会计都与信息密切相关,因此有大量文献应用文本分析在信息品质、信息数量、信息披露和与信息相关的市场异象等方面开展研究。
1.1信息品质--财务文档可读性
作为信息品质的一种度量,可读性反应了投资者获取文档中信息的难易程度,而这与公司信息披露、信息环境和市场对信息的反应密切相关。我们将文献中的可读性指标分为三类:
1.1.1基于词句难度的可读性指标
Fogindex是语言学中度量文档可读性的指标,最先被Li[9]引入会计和金融研究。Fogindex是句子难度(一句话含词越多越难)和词语难度(一个词音节越多越难)之和,具体公式为:Fog=0.4×(平均单词个数/句+多于2个音节单词占比百分数)(1)
Fogindex数值代表第一遍阅读一篇文档时,一个人需要几年的教育才能读懂该文。例如,如果一篇文档的Fogindex是5,意味着至少5年的教育才能使一个人在第一遍阅读时能读懂该文。由于这个指标提出较早,并且适用于大规模文本分析,因此这个指标在财务文档可读性研究中应用广泛。和Fogindex类似,Fleschindex将Fogindex中的第二项换成单词的音节数,而Flesch-Kincaidindex则是将指标变化范围调整到0-。
与Fogindex类似,丘心颖等[10]用笔画数刻画汉字的难度(年报汉字平均笔画数越大,可读性越差),结合句子难度构造了中文年报可读性(复杂性),发现年报可读性越差的公司随后被更多分析师跟踪。王克敏等[11]从文本逻辑和字词的复杂性两个角度刻画中文年报文本信息复杂性,发现管理者会操纵年报文本信息复杂性。
作为最早被引入会计研究的可读性指标,Fogindex为基础的研究延伸到很多领域。Dyer等[12]用Fogindex度量可读性,揭示了-2年间美国上市公司年报可读性下降的趋势。Bozanic等[13]用Fogindex研究律师对信息披露的影响。
Li[9]用Fogindex度量年报可读性,检验“管理层混淆假说”(managersobfuscationhypothesis),发现盈余越低的公司年报可读性越差(Fogindex越大),这是因为管理层为降低市场反应而故意模糊信息。而业绩好的公司年报不存在这样的情况,因此其盈余容易持续。Lo等[14]发现操纵当年盈余高于上一年的公司年报的管理层讨论和分析部分(MDA)可读性变差。Lo等[14]表明盈余水平和MDA部分的可读性负相关,而Li[9]表明盈余水平和年报全文的可读性正相关,这说明年报全文和其中MDA部分的可读性受到管理层区别对待,也表明区分年报不同部分的可读性值得研究,可能的原因是管理层对年报不同部分的