卡罗琳以各种毁灭性的细节全面记录了以男性为基准设计和以男性数据为标准的问题到底有多普遍。当然,对于人工智能而言,数据是必不可少的,但数据集里男性偏见是普遍存在的。有时候,这种偏见很明显,比如在广泛应用于训练语音理解的口语数据集中,69%的数据集是男性声音,不可避免地,这个语音理解的系统对女性声音的理解就会比对男性声音的理解效果差得多。但是,有时候,这种偏见更细微。如果你收集一组厨房的照片来训练程序,那么这些照片大多会跟女性有关;或者假设你收集一组主要描绘各大公司CEO的照片,会发现大部分都是男性。现在,你应该可以很轻易推断出这样的数据会让程序造成什么样的偏见。而且,正如卡罗琳指出的,这些事情都确确实实发生过。
有时候,这种偏见简直是根深蒂固。一个臭名昭著的案例发生在2017年,有人发现谷歌翻译公司在翻译文本的过程中,有时候会篡改文本中的性别[134]。如果你将下列文字从英语翻译成土耳其语:
他是一名护士