不公正的AI算法，在质疑中迈向透明化

AI算法频遭质疑

9月6日中午，作家六六在继炮轰京东后，再一次炮轰百度：“在百度上就查一个上海美国领事馆官网的地址，翻了多少个都是骗子广告”，并@李彦宏：“你是做搜索引擎还是做骗子首领?”微博发出后，迅速上了热搜榜，百度也立即给出回应：搜索是复杂算法，每个用户对信息的需求不同，搜索引擎受算法的影响，给出的结果也会不一样。

与此同时，美国东部时间9月5日，Facebook COO 桑德伯格和Twitter CEO多西被要求参与了美国参议院情报委员会的听证会。除此之外，多西还单独出席了美国能源和商务委员会的听证会。他们就诸如“为什么共和党议员在搜索中排名靠后?”或者“为什么广告被恶意利用?”等问题被要求解答。以“搜索排名”为例，多名议员质疑，在直接搜索议员名字时，搜索结果没有显示出正确的账号，这是因为Twitter在背后捣鬼。面对有关“热门话题”和“搜索排名”等存在偏见问题的质疑，两家公司的高管都表示：这不是我们存在偏见，而是我们的AI算法出错了。

上述一系列事件，实际上都引申出了一个更具有争议的问题：AI 算法的透明度。AI算法或者说神经网络的结果到底是不是足够透明、公平可知并且毫无偏好的?

人工神经网络优势助其广泛应用

目前绝大部分AI算法，都是基于人工神经网络(Artificial Neural Network，即ANN)来构建的。人工神经网络是由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。人工神经网络具有四个基本特征：

非线性，非线性关系是自然界的普遍特性;

非局限性，一个神经网络通常由多个神经元广泛连接而成;

非常定性，人工神经网络具有自适应、自组织、自学习能力;

非凸性，非凸性是指这种函数有多个极值，故系统具有多个较稳定的平衡态，这将导致系统演化的多样性。

ANN有一些关键优势，使它们最适合某些问题和情况：

有能力学习和构建非线性的复杂关系的模型，这非常重要，因为在现实生活中，许多输入和输出之间的关系是非线性的、复杂的;

可以推广，在从初始化输入及其关系学习之后，它也可以推断出从未知数据之间的未知关系，从而使得模型能够推广并且预测未知数据;

可以更好地模拟异方差性，即具有高波动性和不稳定方差的数据，因为它具有学习数据中隐藏关系的能力，而不在数据中强加任何固定关系。

ANN在图像和字符识别中起着重要的作用，广泛应用于社交媒体中的面部识别，医学上的癌症治疗的停滞以及农业和国防用途的卫星图像处理。目前，神经网络的研究为深层神经网络铺平了道路，是“深度学习”的基础，现已在计算机视觉、语音识别、自然语言处理等方向开创了一系列令人激动的创新，比如，无人驾驶汽车。同样在医药、安全、银行、金融、政府、农业和国防等领域有着广泛的应用，例如经济和货币政策、金融和股票市场、日常业务决策上，都可以提供强大的替代方案。

“黑箱”性质和易受操控的特点带来担忧

但是ANN也不是大家想象的那么完美。在控制论中，通常把所不知的区域或系统称为“黑箱”，一般来讲，在社会生活中广泛存在着不能观测却可以控制的“黑箱”问题。神经网络最广为人知的缺点是“黑箱”性质，这意味着你虽然可以控制神经网络的结果，但是并不知道神经网络如何以及为何会得出一定的输出。例如，当你将一张猫的图像输入神经网络，神经网络预测这是汽车时，很难理解为什么会导致它产生这个预测。当你有可解释的特征时，就能更容易的理解其错误的原因，显然神经网络并不能满足。

在某些领域可解释性至关重要，这就是为什么许多银行不使用神经网络来预测客户是否有信用，因为他们需要向客户解释为什么他们无法获得贷款。否则用户会产生误解和不满，因为他不明白为什么自己无法获得贷款。像Facebook这样的网站也是如此。如果他们通过算法决定删除某个用户的帐户，他们需要向用户解释当中的原因。如果仅仅说”这是计算机的决定”，这样的答案是不尽人意的。制定重要的商业决策时也是如此。你能想象大公司的CEO在做出关于数百万美元的决定，而不探究当中的原因，仅仅因为计算机的决策吗?

除此之外，神经网络很容易被人为选择后的数据影响决策，同时通过这些决策对人类产生潜移默化的改造。最典型的的例子就是Tay。Tay是微软2016年在Twitter上推出的智能聊天机器人，最初设定Tay是一个年龄19岁的少女，具有一些幽默机制，适合和18至24岁的用户聊天。然而仅上线一天，Tay就开始有一些种族歧视之类的偏激言论，微软不得不紧急关闭了Tay的Twitter账号。

Tay的设计原理是从对话交互中进行学习。于是一些网友开始和Tay说一些偏激的言论，刻意引导她模仿。人工智能没有分辨是非的能力，这些话语被无数次重复后就成了Tay的“弹药库”。整个过程就像小鱼儿被十大恶人抚养，手把手教导各种旁门左道之术。人工智能的大规模并发性，让她的学习速度比人类快了无数倍。所以从诞生到变成满嘴脏话的不良少女，Tay仅用了一天。

同样在AI眼中，我们人类也不是最聪明的灵长类动物。在AI看来，人类只是由0和1组成的数字集合，而且非常容易被干预和影响，很容易就从这串字符串变成那串字符串。因为人类需要通过信息建立认知，确立价值观。只要控制了人类能够接触到的信息，就能影响其认知，最后导致机器学习不是让机器学习，而是让人类“学习”。此前，Facebook泄密影响美国大选的事情曾被炒得沸沸扬扬，目前的证据来看，就是一家名为剑桥分析的数据公司窃取了5000万Facebook用户资料，根据每个用户的日常喜好、性格特点、教育水平，预测他们的政治倾向，进行新闻的精准推送，达到洗脑的目的，间接促成了特朗普当选。

文章开头提到的美国参议院情报委员会的听证会，谷歌首席法务官、全球政策高级副总裁 Kent Walker也曾参会。他在听证会之前提交了公开证词。据美国媒体的报道，该证词概述了谷歌针对政治广告披露的新指导方针，并指出谷歌将继续删除试图误导用户的不良信源，如克里姆林宫附属的互联网研究机构。

解决AI算法透明度之路任重道远

在如何解决AI算法透明度的问题上，曾经有两个想法非常受欢迎。

第一个想法：“算法透明度”——要求公司披露其AI系统中使用的源代码和数据。

不久前纽约市长de Blasio就曾宣布成立美国第一个监测和评估算法使用的特别工作组。但是这个想法实施之后面临着许多问题。因为绝大部分的AI系统太过复杂，仅通过查看源代码是无法完全理解的。而且要求商业公司披露源代码会降低他们投资开发新算法的动力，事实上竞争对手很容易根据其源代码进行山寨。

另一个想法：“算法可解释性”——将要求公司向消费者解释他们的算法如何做出决策。

今年5月欧盟就制定了全面的新数据保护规则，出台《通用数据保护条例》要求公司能够向消费者解释所有自动化决策。但是算法的准确性通常随其复杂性而变化，所以算法越复杂，解释就越困难，实现它可能需要让AI人为地变蠢。机器学习有如此强大的使用前景，缩减AI的能力可能意味着无法诊断疾病、无法发现气候变化的重要原因等等。

这两个最受欢迎的想法——要求公司披露算法源代码并解释它们如何做出决策以及通过规范商业模式和内部运作，会导致弊大于利，并不能让这些公司对结果负责。在应对算法透明度问题上，一个更为可行的建议被提了出来：算法问责制。

这个建议提倡政策制定者不应该要求公司披露他们的源代码或限制他们可以使用的算法类型，而是应该坚持算法问责制——算法系统应采用各种控制措施来确保运营商(即负责部署算法的一方)可以验证它是否按预期运行，并确定和纠正有害后果的原则。围绕算法问责制构建的政策框架将具有几个重要好处。首先，它会使运营商对其算法可能造成的任何危害负责，而不是开发人员。其次，让运营商对结果而不是算法的内部运作负责，可以让他们专注于确保算法不会造成伤害的最佳方法，诸如信心措施，影响评估或程序规律等。

当然，这并不是说透明度和可解释行就没有它们的位置。例如，透明度要求对刑事司法系统中的风险评估算法来说是有意义的。同样无论公司是否使用AI来做出决策，消费者仍然有权获得这些解释。

规范制度才能适应未来趋势

总结目前AI算法的发展历程，智能算法大大提升了用户接收、选择信息的速度，但也可能让一个人的视野变窄，甚至直接影响人们的决策。

那是不是AI算法存在这么多问题，我们就需要避之不及，完全不用它呢?当然不是。AI算法只是一种工具，工具与生俱来就具有两面性，无论是火药、核能还是网络，若使用不当，都容易带来各种问题，最终决定权掌握在人类手里。算法推送带来种种不良现象的“锅”，不应该都让技术来背。相关法律规范的不健全，有关岗位工作人员对管控责任的认识不足，再加上大数据时代信息的迅猛浪潮，都容易使真正有用的高质量信息淹没在繁杂的信息海洋中。

算法推送、个性化定制是未来的趋势，一方面可以实现需与求的精准对接，另一方面也实现了资源的最大化利用。我们可以调整推送权重的分配，比如系统算法占60%，用户选择占40%：即用户可以自己定制或者屏蔽关键词、可以自己决定信息排序，当然也可以选择系统默认。技术可能带来一些壁垒，但人却可以突破这样的壁垒，让技术更好地为自己服务。

希望各方面加强合作，创造天朗气清的网络世界。合理利用技术跟算法，让AI技术服务社会、净化心灵、启迪智慧，创造和谐、健康、正能量的网络环境和现实世界，这才是我们真正该寻求的正确“算法”。