图书馆贴纸小队,怎么把偏见贴进了系统里
图书馆后屋的桌上堆满新书和彩色贴纸。志愿者翻几页就贴上“适合全家”或“要小心”。馆员让每本书多个人都贴,最后用贴得最多的那张当定论。贴纸像数据标签,志愿者像打标签的人。小结很直白:怎么把一堆小判断合起来,会悄悄决定系统信什么。
馆员本来觉得,人多就能把个人口味冲淡。结果有的志愿者对某些作者或某类角色更苛刻,这不是随手点错,而是一直往同一个方向偏。偏的人凑得多,“多数”就不再中性,反而会很笃定地不公平。
后来有人拿两大摞真实的贴纸记录来对照,答案是已知的。一摞是让人看司法场景的文字描述做判断,另一摞是让人判断短评论有没有毒。因为标准答案在,他们能同时看两件事:谁更常贴对,谁的错更爱砸在某一类人身上。
最意外的是,偏不偏和“贴得准不准”不总是绑在一起。有些人整体很少贴错,但对不同群体下手不一样重。放回图书馆里,就是那个平时总能挑对贴纸的人,却总爱把某一类作者多贴几张“要小心”。
更难受的是,多数投票经常刚好被这些“偏得很一致”的人占了上风。于是最后那张贴纸会被带偏,明明不是大家都看不懂书。想把偏的人剔掉也不妙:贴纸变少了,很多书干脆没法定论;而且整体还可能更不准。就像人手一减,推车里半车书都贴不完。
他们也试过更“聪明”的合票办法,有时只好一点点,还不稳定,甚至可能更偏。最扎心的是:如果后面的推荐工具用这些“多数贴出来”的贴纸当真相,往往会又更不准,又更不均。能在贴纸阶段就做公平检查的做法更管用。对馆员来说,别等电脑开始算才想公平,因为贴纸早把方向盘握住了。