南风金融网 - 中原最权威行情财经门户

热门关键词:  缪学刚  www.ymwears.cn  xxx    
热门: 北大数字金融公开课内容回 对付勒索软件的利器:二级 还在为云存储掏冤枉钱?那 直播预告 | “经世微语课堂 中国个体经营户总量测算与 中国个体经营户研究系列报

【MLinEcon文献推送5】如何用机器学习帮助警察抓小偷

来源:南风金融网 作者:南风金融网 人气: 发布时间:2019-12-23 10:32:16

原文信息

Goel, Sharad; Rao, Justin M. and Shroff, Ravi. “ Precinct Or Prejudice? Understanding Racial Disparities in New York City’S Stop-And-Frisk Policy.” The Annals of Applied Statistics, 2016.


推文作者|郭晓欣(上海财经大学公共经济与管理学院博士研究生)


一、引言


观察2008-2012年纽约市警察进行的近300次汽车叫停拦截检查记录发现,首先,嫌疑人携带武器,或者最终被逮捕或居留的比例非常低,而被逮捕的嫌疑人没有被采取任何进一步行动就被释放的比例也非常高;其次,种族间的发现武器、被逮捕或居留的差异巨大。这一方面意味着警察叫停拦截可能经常缺乏必要的证据,即违反了《第四修正案》中的“合理怀疑”,另一方面执法过程中可能存在种族歧视,如,白人的命中率大大高于黑人。


基于此,本文将注意力集中在2008-2012年约76000起嫌疑犯涉嫌携带武器而被叫停拦截的事件记录上,运用机器学习的方法,一方面探究事实是否满足“合理怀疑”,另一方面探究造成执法的种族间差异的原因,并设计出最简便、可执行的方法以提升执法效率并减轻种族差异。


本文的贡献主要包括:首先,文章通过机器学习的方法开发除了一种新的方法,来检测和评估可能存在的违反《第四修正案》的行为,也就是说本文着重关注叫停拦截前的事前可能对命中率的影响;其次,文章在排除了政策高度本地化以及区域差异以后,证明叫停拦截中仍然存在种族歧视;最后,文章证明,通过仅仅执行最高事前命中率的叫停拦截,可以显著减少叫停拦截的次数,同时在很大程度上保留成功率,即仅仅执行6%的叫停拦截,就可以收回90%的武器。


二、数据及方法


表1是纽约警察局在叫停拦截之后需要填写的记录表。包括犯罪嫌疑人的人口统计特征、叫停拦截的时间和位置、涉嫌犯罪提及叫停的理由等。这些信息会经过汇编每年向公众发布。这些数据已经被运用于诸多的学术研究以及法官判案中,因此是具有说服力和可信度的。


表1 UF-250叫停逮捕记录关键信息摘要


模型中运用的数据包括包含嫌疑人的人口统计变量(性别、种族等);叫停发生在公共交通、公共房屋中还是其他;叫停发生的日期;叫停的原因;叫停是否是无线电广播的结果、警官是否穿的制服。还包括一些连续变量,如嫌疑人的身高、替中国及年龄等。还包括两个与位置相关的变量,发生叫停的区域变量——说明地区的犯罪率,本地的命中率——反应了当地的执法标准。另外,还需要说明,本文运用2008年的数据生成了本地命中率的统计信息;用2009-2010年的数据进行模型拟合;用2011-2012年的数据进行预测。


以上变量中的本地命中率,指的是一个辖区内发现犯罪嫌疑人携带武器占总叫停拦截的比例。已有研究中也有将犯罪嫌疑人被捕、发传票或其他作为命中率的结果变量,但是这些标准不够严格(Ayres,2002;Becker,1993;Becker,2010)。比如,一些学者认为相对白人而言,黑人的逮捕率较低是由于黑人的阈值低于白人的阈值;另一些学者则认为白人就是比黑人更容易被逮捕(Gelman,Fagan and Kiss,2007)。因此运用武器这一更加客观的结果变量将更为简便并且更有说服力。


辖区命中率估计:



其中,t表示年份;s表示地点;ht(s)表示t期间本地命中率;nt表示t年内叫停的总数;yi ∈[0,1]表示第i次叫停是否成功,即是否收回了武器;si表示第i次叫停的位置;d(s,si)表示s、si之间以千米为单位的距离。


事前的命中率估计:



其中,yi ∈[0,1]表示第i次叫停是否成功,即是否收回了武器;xk,i表示叫停的特征;α、β是模型的系数。


通过以上模型的拟合,得出了一系列变量的系数,表2列出了系数绝对值最大的一些变量。可以发现很多权重高的要素都在额定的区位,这说明区位具有明显的异质性。


表2

系数

系数值

(本地命中率)(区73)

0.53

(本地命中率)(区33)

0.53

(位置=其他)×(可疑物品)

0.44

(位置=公共交通)(区73)

0.43

(位置=房屋)(可疑物品)

0.43

(本地命中率)×(区60)

0.40

(位置=公共交通)×(无线电播报)

0.39

(本地命中率)×(区52)

0.39

(可疑物品)×(可疑性别=男)

0.38

可疑物品

0.36

(区69)×(可疑衣着)

-1.30

(区114)×(可疑毒品交易)

-1.24

(区49)×(星期一)

-1.22

(区114)×(充当监视人)

-1.16

(区71)×(可疑衣着)

-1.03

(区114)×(8月)

-1.03

(区101)×(星期四)

-1.02

(区109)×(涉嫌毒品交易)

-1.00

(区70)×(涉嫌毒品交易)

-0.99

(区42)×(涉嫌种族=其他)

-0.99


在对2011-2012年数据进行预测中AUC值为83%。另外,通过一些可视化图表也能表明这一模型具有良好的预测功能。图1中分别从图片的总的命中率,划分不同年龄、性别以及人种的命中率,分区域命中率以及分区域同时区分人种的角度上验证了模型的具备良好的预测功能。



图1


三、结论


通过以上模型的预测,文章还得到了叫停拦截的事前命中率的概率分布(见图2)。其中与43%的叫停拦截命中概率不到1%,19%的叫停拦截命中概率小于0.5%。这证明了很大部分叫停拦截缺乏我存在的证据。


另外图3分种族进行对比,发现当与白人相比,黑人与西班牙人的命中率小很多,其中黑人命中率为2.5%,西班牙认为3.6%,而白人为11%。但是这么大的差距有可能是由于不同区位存在犯罪率差异导致的,如,黑人及西班牙裔集中的地区往往犯罪率高,这以结论由以往的犯罪数据能很轻易的得到,因此在黑人与西班牙裔聚集的地区,制度或者警员对一些可能存在犯罪的活动的容忍度会低于白人聚集的地区,进而导致了黑人和西班牙裔的命中率低。


图2???????????????????????????????? 图3


进而在这一假说的基础上,本文分区域比较了每个地区黑人和白人犯罪嫌疑人的命中率(见图4)。根据图4说明命中率低的叫停拦截更多是发生在黑人被叫停拦截比例高的地区(也就是黑人聚集地),摒弃这些地区的叫停拦截数量占总叫停数量的绝大多数。


图4


为了进一步确定地理区位对于重在命中率的影响,本文将2011-2012年很黑人的叫停拦截记录进行了处理,将人种假设为白人,而不改变其他记录信息。图5用位置相似的黑人及换为白人的数据命中率作图,发现通过对种族背景进行调整,种族间的命中率差异确实缩小了,但是没有完全消失,如图中的虚线所示,拜仁的额命中率仍然比黑人搞了月50%(分别为3.8%与2.5%)。这说明,在控制了区域甚至具体的叫停拦截位置后,种族间的事前命中率仍然存在差异,这说明种族歧视确实存在。


图5


进一步,本文通过简化模型,使得更有效率的叫停拦截方式可能运用于实际中。


首先,根据公式3对叫停拦截中发现武器的可能性进行建模,此模型与模型2类似,但是这里仅仅考虑表1中18种叫停情况(不考虑其他)、77个辖区变量,和三种位置类型(公共交通、住房及其他)。不考虑交互项;将18个叫停原因系数约束为非负数(这表示,18个因素只会增加一个人带有武器的可能性)



其中a、b、c分别代表叫停原因、辖区以及位置类型的指标变量。


18种叫停的情况中只有5种权重为正(其他的都是0),并且这5中情况都与犯罪活动直接相关(见表3第二列),并将系数四舍五入为整数(见表3第三列)


表3


系数

四舍五入的系数

可疑物体

2.6

3

犯罪活动的场面或声音

0.8

1

可疑的凸起

0.6

1

正在进行的调查

0.1


目击者的报告

0.1


其次,由于逻辑变换与线性正相关,因此将模型简化为如下:



式子(4)中,α? j?表示已经四舍五入的系数,进而得出第i个叫停的得分为si。由于每个辖区的阈值存在不同,但是每个辖区和区域相关的值是固定的,因此在一个辖区内,不同的叫停地点只需要警官对比叫停因素中三个小的整数(即表3中可疑物体、犯罪活动的场面或声音、可疑的凸起)与选定阈值的大小关系即可确定是否要叫停拦截。


图6表明简化的模型与原模型拟合程度相当。


图6


图7中显示了回收50%武器(即阈值为50%)的策略区域阈值,其中颜色越浅表示阈值越高。


图7


四、讨论


本文通过机器学习,一方面证明了纽约市的叫停拦截缺乏事前证据,另一方面也在排除了辖区、地理位置的因素后确定这一行为中存在种族歧视。最后也设计出一个简便、可行的方法提升叫停的命中率并同时缩小种族差异。


排? ? 版 | 石庆宇

审?? ?核 |?郭? ?峰


责任编辑:南风金融网

最火资讯

首页 | 财经资讯 | 金融理财 | 价格行情

Copyright © 2012-2015 南风金融网门户站 版权所有 Power by DedeCms 豫ICP备12016580号  技术支持:南风金融网

电脑版 | 移动版