方法

目的

根据联合国的不同人权监测机制,各国每年平均收到超过70多项建议。普遍定期审议(UPR)自2007年启动以来,在联合国的193个会员国间共产生了110,000多项建议。为了使各国政府有条不紊并高效落实这些建议,我们有必要将之按专题分类。

联合国通过“2030年可持续发展议程”后,越来越多人希望将这些人权建议与可持续发展目标(SDG)和具体目标target)对接起来。然而,虽然现有的主题类别提供了大致方向,但无法按可持续发展目标和具体目标直接归类。而且迄今为止,分类工作大多人工完成。鉴于建议的数量庞大,将现有和未来的人权建议针对可持续发展目标逐项分类的任务艰巨。

因此,丹麦人权研究所与社会企业Specialisterne合作,着手开发并训练了能自动将联合国人权监测机构建议分类的算法。

You can watch a presentation of Special Consultant Niels Jørgen Kjær explaining the methodology here.

数据集

该数据集包括所有能采集到的联合国条约机构、人权理事会特别程序及普遍定期审议建议。我们访问了人权事务高级专员办事处运营的普世人权索引数据库,以及普遍定期审议资讯组织(UPR Info)维护的建议数据库的数据集,摘录并编制其中数据后而创建了数据集。必要时,丹麦人权研究所将补充数据集,并会定期更新。

元数据

“元数据”是用于描述或分类其它数据的数据,即“关于数据的数据”。“可持续发展目标-人权数据浏览器”中包含的元数据包含以下两种类型:

  • 描述性属性,包括说明某建议源自哪个人权机制并针对哪个国家;
  • 分析性类别,即识别特定建议中所涉权利人群体,以及与该建议相关联的可持续发展目标和具体目标。

分析性类别将在以下部分进一步说明。

权利人群体分类

“可持续发展目标-人权数据浏览器”确定某建议所针对的权利人群体。建议可与多个或一个类别的权利人相联系,也可以不跟任何类别的权利人相联系。“可持续发展目标-人权数据浏览器”中确定的权利人类别包括:

妇女和女
儿童
土著人民
残疾人
移民
难民和寻求庇护者
境内流离失所者
少数民族和宗教少数群体
人权维护者
女同性恋、男同性恋、双性恋、变性人和双性人(LGBTI
老人
青年

 

可持续发展目标分类

17个可持续发展目标下的169个具体目标是各项建议归类的类别。在169个具体目标中,现有的数据材料反映了约70个具体目标。建议直接与具体目标相对接,目标层面不另设类别,也即只有在17个目标下某个具体目对接上,建议才会归入某类别。

欲查看可持续发展目标的具体目标,以及其与相关人权文书和国际劳工标准的联系,请点击此处:http://sdg.humanrights.dk/zh-hans/goals-and-targets

分析流程

人权建议分类采用半监督式机器学习的分析流程。首先要训练算法,即利用一个小集合(set)的训练示例(由一位专家分类)和大量未分类的数据,将普遍定期审议的建议分门别类。

为机器学习分析作好准备,专家在可行的情况下,为2030年议程的169个具体目标,逐个确定了一套初步的训练实例。这套训练样例是为算法提供操作的基础(所谓的“参考标准(ground truth)”)。为确定适当的训练样例,专家使用了可持续发展目标相关具体目标指向的相关人权内容常用的引用文字和术语。例如,5.2具体目标要求终止对妇女和女童的暴力,包括贩运和其它类型的剥削行为,故确定“对妇女的暴力行为”和“贩运妇女”等搜索术语为具体目标5.2的训练样例。

此后,机器学习分析分两个阶段开展。

监督机器学习的第一阶段利用现有的分析性元数据(即人权高专办普遍定期审议信息现有数据库所含的主题分类),以分类算法来确定与各类别训练样例相似的建议。两个数据库对建议的分类方式都以一组关键词为基础。关键词包含各项建议常提及的受影响群体和数十个人权问题。用于分析的合并数据集收集了所有的现有关键词。该算法便通过训练样例和未分类数据之不同关键词组合识别规律及数据与可持续发展目标下具体目标的相关性,然后通过人工反馈提高算法的精准度。


在第二阶段,算法可直接通过分析文本确定与可持续发展目标的联系,而无需依赖元数据。添加此功能是为了提高精准度,并在将来分析数据时,完全免除人工分类。文本分析借鉴了由专家基于早前确定的参考标准而构建“专家词典”。专家词典收集了特定分析性类别的典型术语和表达,并赋予权重。算法于是结合标准英语字典和训练数据,为样本中所有建议的现有分析性类别确定联系的概率值。人工反馈为每个类别确定了额外的参考标准。通过调整术语和表达的数值,这些额外的培训样例将用于持续更新专家字典。

Texmining

迄今为止,该算法用于分析和分类的建议除了来自普遍定期审议之外,还来自人权监督机构,也即条约机构和人权理事会的特别程序。这表示数据将从大约55000个普遍定期审议的建议,增加至总计超过200000个来自各个机构的建议和意见。本算法的分析设置将持续优化和扩展。

最后更新时间:18-03-2024

如有问题或询问,请联系

Helene Møller Winterskov

Project officer, Human Rights and Development