产业研究｜ESG评价的数据问题及建议-北极星碳管家网

投稿

我要投稿

近年来，ESG评级作为引导投资者投资决策的价值判断依据，越来越受到国际投资者的重视，国内投资者也开始关注ESG的信息披露和评级。但由于评级公司采集的ESG数据，特别是数据处理的方法差异较大，不同评级公司的ESG评级结果差异也很大，缺乏行业共识，严重影响了投资者对ESG评级的使用。数据作为支持ESG指标体系功能最重要的输入项，对其处理的方式会直接影响相关指标的打分结果。本文拟对ESG评价中的数据处理问题进行一些探索研究。

（来源：海南省绿色金融研究院 ID：HGFR2018 作者：季宇飞）

一. 国内外评级公司对企业的ESG评级差异巨大

不同评级公司对企业ESG的评级结果，无论国内外，差异都很大。

（一）国际评级公司的ESG评级差异巨大

Billio et al.(2021)研究比较了MSCI（明晟）、Refinitiv（路孚特）、Sustainalytics（晨星旗下产品）和RobecoSAM（为道琼斯可持续指数的数据来源【1】）的ESG评级结果，发现这些评级结果之间的相关性平均只有0.58（最低0.43，最高0.69），这些评级结果之间达成契合的概率平均只有24%（最低19%，最高28%）【2】，评级结果的低相关性与低契合概率【3】，意味着不同评级公司的评级结果差异巨大。

下表给出了四家评级公司对尼桑汽车（Nissan Motor Co., Ltd.）、威瑞森通信（Verizon Communications Inc.）、甲骨文（Oracle Corp. JPN）、古德曼集团（Goodman Group）四家企业的ESG评级结果，结果的差异显而易见。其中Refinitiv、Sustainalytics和RobecoSAM的打分范围是0到100，而MSCI的打分范围是从CCC到AAA。

不同国际ESG评级公司的打分结果（2021年）

资料来源：Billio et al.(2021)

这种巨大的评级差异，会让市场投资者感到无所适从，也难以做出投资价值判断和投资决策。

（二）国内评级公司的ESG评级差异同样巨大

国内ESG评级公司众多，包括万得、微众揽月、嘉实、华证指数、鼎立公司治商、商道融绿、华证碳中和、社会价值投资联盟等等。据万得数据，随机选取华润微、中国石油、胜利精密、中国医药四家国内的上市公司，通过比较可以发现评级之间的差异：万得给华润微AA评级，而微众揽月只给出B评级；社会价值投资联盟给中国石油AA-评级，而商道融绿只给出B+评级；华证碳中和给胜利精密65/4040的排名而嘉实只给出3478/4569的排名；富时罗素给中国医药33/76的行业排名而鼎立公司治商只给出59/79的行业排名。

不同国内ESG评级公司对华润微的打分结果

资料来源：万得

不同国内ESG评级公司对中国石油的打分结果

资料来源：万得

二.当下ESG评价中的数据问题

评级公司对企业的ESG评级差异巨大，背后的重要原因，一方面是因为各个评级公司的目标与价值、评级体系设计原则、指标遴选规则等不同，从而导致评级结果差异。另一方面，数据问题也是不同评级公司结果相差巨大的重要原因。不同评级公司获得数据的渠道、质量不同，处理数据的方法不同，也会带来评级结果的巨大差异。

当下ESG评级中，在数据获取和处理方面，面临原始数据一致性差、参照基准选择随意、丢失值替换过程不确定等问题有待解决。

（一）原始数据不一致性高

这里的“不一致性”并不是强调信息来源的不同，而是重点强调原始数据样本的多维度属性（如具体措辞表述、测量角度、数据单位等形式属性以及平均值、标准差、极值等统计属性）具有很大差异。

评级公司一般从企业每年披露的可持续发展年报或者ESG报告中收集原始ESG数据。但不同企业的可持续发展年报或者ESG报告，相关数据的一致性很低。以“劳工健康和安全”这个议题为例，Kotsantonis and Serafeim(2019)随机选择了Fortune 500（财富500强）中50家大型上市公司的可持续发展报告，经过作者手工收集信息，被用作描述“劳工健康和安全”这个议题的指标如下：损失时间（频率）、损失时间（每百人、每五千人、每二十万人事故率）、导致时间损失的损伤、意外事故率、需要休假的意外事故、因损伤导致的天数损失、因意外事故导致的财务损失、导致超过一天损失的损伤、损伤率、损失天数率、职业性生病或损伤导致的少于61天的时间损失、损失时间（严重事故率）、意外事故数量、未造成时间损失的意外事故数量、损失工作天数、发生严重意外事故数量、每二十万小时工作的损伤率、由工作相关损伤造成的工作天数减少、被申领的时间损失、损失时间、职业性疾病的事故数量、职业性生病率、职业性生病数量、职业性疾病率。

面对如此多样的数据形式，很难确定哪一个指标是衡量企业在“劳工健康和安全”这个议题上表现程度的最优指标。而且这些指标的单位也不尽相同，包括无单位、比率、百分比等不同单位。最重要的是，不同指标的统计分布特征（平均值、标准差、极值等）差异明显，这使得跨指标的比较和数据整合十分困难【4】。

现实的问题是，企业在披露某一议题表现时，往往只会选择对自身企业最有利的指标进行披露。评级公司（数据供应商）对同一家企业不能够获得多个指标，而面对众多企业提供的五花八门的指标，各家评级公司（数据供应商）都有自己的处理方法，各家企业所披露的原始数据的不一致性最终落脚在各家评级公司原始数据整合过程的差异。这里的核心问题在于先有企业的数据，才有评级的标准，数据本身的缺陷自然会遗留在评级结果中【5】。

（二）参照基准选择随意性强

就算原始数据无差别，不同ESG评级公司对同一企业的同一方面表现打分也不相同，其中一个重要的原因是打分参照基准的选择具有很大的随意性。设立不同的“参照基准”，即双重标准或灵活标准，是系统性的改变针对同一家（同一类）企业打分结果的有效手段。

评级公司可以选择将所有企业放在统一的参照基准下评价；也可以依据行业、国别等特征将企业进行分类，设立多个平行的参照基准，而且只把从属于同一子类别的企业放在其对应的参照基准下评价。

使用统一的参照基准，则打分结果具有跨行业的可比性，然而打分结果也不可避免的产生行业性偏差。以环境议题为例，油气行业的表现会天然的低于商业银行。选择只将部分企业放在同一参照基准下评价，则打分结果的行业性偏差较小，但打分结果跨行业的可比性则相应减弱。比降低跨类别可比性更糟糕的是，对不同企业分类以及选择参照基准的过程并不透明，评级公司可以通过对参照基准的自由选择，来实现将同一企业在不同参照基准所对应分布中的相对位置进行移动【6】，从而间接影响打分结果。

此外，如何处理业务多元化的企业也将是一个待解决的问题。

（三）替换值估测不确定性大

ESG评价所需要的数据范围十分广泛，对于某一具体企业来说，往往不会公开（或不能提供）评级所需全部的原始数据，样本中经常会出现丢失值。对于丢失值需要估测，并用估测结果（即替换值）替换，然后继续评价过程。目前，对于无法获取的ESG数据（即丢失值），各家评级公司和数据供应商并没有一个透明、统一、可靠的方法论来估测替换值。

替换值估测过程的不确定性分为两个层面：第一，可供选择的估测方法有很多，不同的方法给出的替换值（估测结果）并不一致，而各家公司并未对估测方法的选择进行充分的披露，相应的，投资者也无从评价和解读各家公司的估测过程和评级结果；第二，即便各家公司选定了其认为“最优”的估测方法，估测本身的精准程度受制于模型特征及统计规律，在相关过程难以建模、变量间相关性差、样本量有限、被估测值连续性低等情况下，估测过程不能保证准确，使用替换值（估测结果）的评级结果也不能保证准确。第一个层面的不确定性来自评级公司和数据供应商的披露选择（即估测过程不够透明、统一），第二个层面的不确定性来自估测方法本身（即估测过程不够可靠）。目前替换值的估测方法（替换法）有基于规则的替换法、输入输出模型的替换法、统计替换法等，这些估测方法能够可靠有效运行的场景十分有限。

基于规则的替换法的不确定性来自于设定规则的过程，此种替换法打分结果的准确度十分依赖于对规则的精准设定，规则设定者需要大量的行业知识作为支撑。某些规则甚至还会影响企业对于相关数据的披露，进一步增加了数据获取的不确定性。以“工作场所死亡人数”的指标为例，评级公司可以定下“若无数据来源，则假设工作场所死亡人数为0”的规则。依照此规则，打分结果将系统性的优于企业实际表现，这也变相的鼓励企业拒绝披露相关数据（特别是对那些信息披露成本较高的中小企业来说）。

输入输出模型的替换法很难用于估测社会责任相关的数据，因为与自然科学规律相比，人与人之间互动的规律要更为复杂也更加不确定。因此，输入输出模型一般用于估测某些行业的环境相关指标，例如以用煤量、用电量等输入变量来估测二氧化碳排放量等输出变量。输入输出模型替换法的准确度取决于模型系统能够在多大程度上再现企业的实际行为过程。在对某些特定行业环境相关指标的估测中，企业的原材料使用量及相关宏观经济变量容易获得，且原材料的使用方式和产出结果在客观科学规律上也具有高度的确定性，当满足以上条件时，输入输出模型的替换法能够给出高度准确的估测。

统计替换法一般需要使用回归分析【7】，其准确性受制于回归预测输入变量的可获得性、回归预测输入变量与被预测值的相关性以及被预测值的连续性。相关预测（回归）过程的透明度很低，公众无法确定评级公司和数据供应商使用的预测方法在多大程度上满足统计规律的要求。

三.建议

解决ESG数据披露程度和一致性低、打分基准和替换值估测方法选择随意性高等数据获取和处理的问题，需要多方市场参与者的共同努力。下面从企业、投资者、交易所和数据供应商的角度，给出一些建议，从而通过ESG评级更好的达成可持续发展目标。

（一）企业应持续报告具有可比性的ESG数据

不同企业提供的ESG数据差异巨大，这涉及到企业所在市场、所在行业、企业管理层、企业面临的风险等多方面因素的影响和制约。因此，个体企业选择一个适合自身的ESG披露标准，并持续的按此标准披露ESG数据，尽最大可能增强数据在时间维度上的可比性（或一致性，即时间维度上的数据形式统一）就显得格外重要。企业应严格自律，依照相关监管要求，定期按照固定格式（如类似财务报表的表格形式）披露ESG数据和信息。企业需要在公司治理结构方面进行调整，设置专门的部门来管理企业的ESG相关风险与相关数据披露。

全球报告倡议组织（GRI）和国际财务报告准则基金会（IFRS Foundation）分别提供了各自的可持续披露准则，后者强调投资者作为利益攸关方的关切并以金钱作为统一量度来维持财务报表的一致性，而前者则试图平衡更广泛利益攸关方的关切并对不同指标的重要性给予更独立的承认。企业应当根据自身发展情况选择适合自己的可持续披露准则，有条件的企业也可以主动加入更高标准的国际准则以获得国际可比性。

尽管披露ESG数据将带来额外成本，但企业应当看到，积极披露高质量的ESG数据，是吸引投资者并维护企业自身良好社会形象的重要手段，对企业的长期发展有利。

（二）投资者应推动企业披露相关ESG指标

目前，尽管企业提供了大量的ESG数据和信息，投资者却很难利用这些缺乏可比性的数据来进行投资决策、风险判断或预警。因此，投资者在推动企业披露相关ESG信息时，要给企业提出明确可比的数据要求。例如，在投资者向企业进行投融资时，应当明确提出ESG信息也是对企业证券价值有重大影响的需要立即披露的信息，企业应在要约与要约邀请等文件（如招债说明书、招股说明书等）中，把ESG信息与财务信息一同披露。对未能履行披露ESG信息义务的企业，投资者还可以尝试以法律手段维护自身利益并推动相关立法的完善。

（三）交易所应制定ESG披露强制要求或指引

交易所制定ESG披露的指引甚至强制要求，可以提升企业相关行为的透明度，有助于企业保持良好的投资者关系。从各交易所的实践来看，对上市公司ESG信息披露的要求已经越来越高。

2012年，港交所就发布了《ESG报告指引》，作为上市公司自愿性披露建议。2016年起，将部分建议上升至半强制披露层面，实施“不披露就解释”规则。2019年5月，港交所发布了《ESG报告指引》修订建议的咨询文件，同年12月确定新版《ESG报告指引》内容，进一步扩大强制披露的范围，将披露建议全面调整为“不披露就解释”，持续提升对上市公司ESG信息披露的要求。

我国证监会也开始要求上市公司披露ESG信息，但还处于刚起步的阶段。2021年2月，证监会发布《上市公司投资者关系管理指引（征求意见稿）》，要求纳入环境保护、社会责任和公司治理（ESG）信息。2021年6月，证监会发布《年度报告的内容与格式》与《半年度报告的内容与格式》，新增“第五节环境和社会责任”。2022年4月，证监会发布《上市公司投资者关系管理工作指引》，将环境、社会和治理（ESG）信息作为上市公司与投资者沟通的内容之一，但依然缺乏具体操作的规范性、一致性指引，建议在这些方面制定具体规则，提出披露具体数据的要求等。交易所、投资者等企业的外部约束力量对ESG数据的披露要求，可以从根本上解决原始数据的不一致性高和丢失值出现概率高的问题，从而避免了“先有数据，才有标准”的问题。

（四）数据供应商应尽可能公开其数据处理方法并达成行业共识

目前国内外ESG数据供应商的打分方法论透明度很低，仅仅提供一份重要性议题的清单是不够的，数据供应商们需要更详细的描述其如何定义统计比较的基准、如何处理真实数据与替代数据等评级指标构建的关键过程，否则对各利益攸关方而言，相关评级的公信力无从谈起。在此基础上，数据供应商们应当充分交流并在实践中达成尽可能广泛的方法论共识（如达成参照基准和替换值估测方法选择上的共识），从而降低ESG评级结果的随意性并增强评级结果的可解读性。

尽管公开数据处理方法对各利益攸关方有利，但这并不符合数据供应商的自身利益，数据处理方法不会被主动公开。数据处理方法是各数据供应商的核心知识，一经公开，市场中的竞争者可以迅速掌握，其数据的市场价值也会迅速下降。因此，为确保数据供应市场充分竞争和信息充分披露，各利益攸关方应支持成立更多的、愿意公开其数据处理方法的数据供应商加入市场竞争，高度透明的数据处理方法回应了各利益攸关者的诉求，因而在数据供应市场上也具有较强的竞争力，最终通过数据供应市场的充分竞争迫使现有的数据供应商也对其数据处理方法进行更多披露。

数据供应商通常每年周期性的收集评级所需要的ESG信息，具体方法包括：公司调查问卷；分析公司文件（如可持续发展报告）；采访个人、公司员工及其他利益攸关方（如工会、非政府组织等）；利用自然语言处理（Natural Language Processing，是人工智能和语言学的分支学科）等人工智能科技来挖掘非结构化数据（如TruValue Labs）。截至2018年，超过100个组织正在收集、分析ESG数据并提供ESG评级【8】。

数据供应商用收集到的数据构建各种指标并出售其指标数据，尽管其如何利用原始数据构建指标的方法论并不对公众透明。此外，还有许多组织使用ESG数据供应商提供的二级数据【9】来构建自己的评级和排名，并提供综合指数【10】解决方案。Bloomberg（彭博）和Thomson Reuters（汤森路透）是这些组织使用的主流ESG数据平台，与之一同提供的往往还包括证券价格等其他更广泛的财务信息。

由此可见，数据供应商应保证数据收集与处理过程透明可靠，这也是ESG评级公司准确评价企业相关表现的关键前提条件。

引用脚注：

【1】一些使用企业调查问卷收集ESG数据的组织并不对外出售自己的数据。RobecoSAM是一个可持续投资资产管理公司，管理价值1200亿美元的资产（2018年），每年都会邀请3400多个公司来填写调查问卷。这些ESG数据被公司内部用来作为投资决定的依据，并被用来构建道琼斯可持续指数（Dow Jones Sustainability Indices，DJSI）。非政府组织CDP（前身为碳排放披露项目）也通过调查问卷收集约6400家公司环境风险相关的数据，其调查问卷的设计参考了气候相关财务披露工作组的框架（Task Force on Climate-related Financial Disclosures，TCFD）。

【2】评级公司数据来自Refinitiv（路孚特，是金融市场数据和基础设施提供商之一，前身为汤森路透金融与风险部门，独立后黑石集团获得55%股权，汤森路透获得45%股权。）金融终端Eikon/DataStream、Bloomberg（彭博）金融终端及MSCI（明晟）数据库。

【3】此处的相关性可理解为，任意两间评级公司，对由多家企业组成的整体样本的评级判断是否在趋势上保持一致，例如：甲评级公司对A企业打50分，B企业打60分，C企业打70分；乙评级公司对A企业打60分，B企业打70分，C企业打80分，那么甲乙两家评级公司对整体样本{A、B、C}三家企业的评级虽然有差异，但具有高度相关性（完全相关）。而描述某一评级结果本身差异性的变量是契合度或契合概率，例如：甲评级公司对A企业打50分，B企业打60分，C企业打70分；乙评级公司对A企业打50分，B企业打70分，C企业打80分，那么甲乙两家评级公司仅对A企业打分相同，对整体样本{A、B、C}三家公司的评级契合度为33.33%或1/3。

【4】前两种不同可理解为单一点数据形式属性的不同，第三种不同并非对单一点数据的属性而言，而是对整体样本的统计属性而言，例如，针对某一议题（a）对于{A、B、C、D、E、F}六家公司的样本打分，{A、B、C}三家公司选择在年报中用（a1）指标来体现议题（a）方面的表现，而{D、E、F}三家公司选择在年报中用（a2）指标体现议题（a）方面的表现。假设{A、B、C}在（a1）指标上的数据分别为{100、200、300}，而{D、E、F}三家公司在（a2）指标上的数据分别为（100、4000、10000），评级公司的难题是，如何确定{A、B、C}三家公司相对于{D、E、F}三家公司在议题（a）方面的表现优劣，即如何整合（a1）和（a2）的数据，从而得出一个六家公司整体的表现排序。这个难题在一定程度上可以通过统计分析解决，统计分析的解决方案需要以下假设：第一，指标（a1）和（a2）都能真实准确的反应整体样本在议题（a）的表现程度且具有相同的统计分布特征；第二，样本足够丰富，可以通过整体样本的统计分布特征分别还原（a1）和（a2）的共同真实统计分布特征。例如，样本中共有两千家企业而不是六家，且使用（a1）指标的一千家企业的（a1）统计分布和使用（a2）指标的一千家企业的（a2）统计分布同为正态分布，根据统计分析可以推定，使用（a1）指标的一千家企业中排名第x%（x在0到100范围内）的企业，在使用（a2）指标的一千家企业中同样排名第x%，从而实现了“跨指标的比较和数据整合”。

【5】类似的，对于新冠病毒感染的测量，也有抗原、核酸、抗体三大类方式，每个大类之下各公司提供的产品有效性又有所不同。假设在一次全民筛查中，每个人仅提供一种新冠感染测量方式的结果，那么我们很难对抗原阳性、核酸阳性、抗体阳性给予同等评级。这是因为受测量方法的客观规律限制，对于同一样本（同一筛查人群），三种测量结果的真实统计分布本身就不相同。

【6】根据本段开头假设，原始数据无差异，甲乙两家评级公司都获得了全部样本{A、B、C、D、E、F}六家企业关于某一议题的指标打分{100，200，300，700，800，900}。甲乙两家评级公司都使用以下的评级规则，若达到设定的参照基准则评级为优，若未达到设定的参照基准则评级为劣。其中甲评级公司选择用全部样本的平均值为参照基准，即500。那么{A、B、C}三家能源企业的得分均未达到标准，而{D、E、F}三家商业银行的得分均高于标准，甲评级公司对六家企业的打分结果为{劣、劣、劣、优、优、优}。乙评级公司依行业平均值设定参照基准，乙评级公司对能源行业和银行业的打分结果分别为{劣、优、优}和{劣、优、优}。举例说明本句正文的含义，即丙评级公司可以通过选择从依照甲评级公司的参照基准，转移到乙评级公司的参照基准，从而实现了：对{B、C}能源企业从原本处于整体评级分布中后50%的位置，移动到了新的能源行业内部评级分布的前66%的位置；对D商业银行从原本处于整体评级分布中前50%的位置，移动到了新的银行业内部评级分布的后33%的位置。

【7】回归替换法和预测均值匹配替换法都需要通过回归分析来确定替换值，不同点是：回归替换法直接用预测均值替换丢失值；而预测均值匹配替换法则用最接近预测均值的样本中实际观测值来替换丢失值，是一种部分参数方法。

【8】根据可持续评级全球倡议（GISR）2018年数据。提供ESG数据的组织有些是盈利性质的，有些是非营利性质的；有些重点关注如气候变化或人权相关的话题，有些关注全部ESG范畴的话题。ESG数据供应商不断提高其服务的丰富程度，从一开始的向投资者出售数据和研究扩展到提供咨询服务以及技术和管理层面的解决方案。与此同时，ESG数据供应商持续寻求将其数据库内的公司数量扩大并国际化。

【9】ESG数据按数据被加工的程度可以分为三个层级：数据供应商收集的原始数据可定义为最底层的一级ESG数据；原始数据经过数据供应商处理成为二级ESG指标（数据）；ESG评级公司依照各自的评级方法论，把众多二级ESG指标数据最终整合成为三级ESG评级（数据）。

【10】例如，AMI（Access to Medicine Index）使用了Sustainalytics的数据，而FTSE4Good Index Series（富时罗素可持续指数）使用了Vigeo-EIRIS的研究服务。

参考文献：

Billio, M., Costola, M., Hristova, I., Latino, C., & Pelizzon, L. (2021). Inside the ESG Ratings:(Dis) agreement and performance. Corporate Social Responsibility and Environmental Management, 28(5), 1426-1445.

Eccles, R. G., & Stroehle, J. C. (2018). Exploring social origins in the construction of ESG measures. Available at SSRN 3212685.

Kotsantonis, S., & Serafeim, G. (2019). Four things no one will tell you about ESG data. Journal of Applied Corporate Finance, 31(2), 50-58.

投稿与新闻线索：陈女士微信/手机：13693626116 邮箱：chenchen#bjxmail.com（请将#改成@）

订阅北极星周刊，精彩内容不再错过！

特别声明：北极星转载其他网站内容，出于传递更多信息而非盈利之目的，同时并不代表赞成其观点或证实其描述，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明北极星*网的内容为北极星原创，转载需获授权。

碳排放查看更多>ESG查看更多>碳中和查看更多>

姓名：
性别：
出生日期：
邮箱：
所在地区：
行业类别：
工作经验：
学历：
公司名称：
任职岗位：

产业研究｜ESG评价的数据问题及建议

登录注册

绑定账号

想要获取更精准资讯推荐？建议您完善以下信息~

订阅成功

想要获取更精准资讯推荐？建议您
完善以下信息~