当前位置: 首页 > news >正文

Web中的Bias(更新中)

目录

  • 前言
  • 数据偏见对人们的影响
  • 衡量偏见
  • 活跃偏差或少数人的智慧
  • 数据偏见
  • 其他
  • 参考文献

前言

本文参考Ricardo Baeza-Yates 2018年发表在《Communications of the ACM》的论文Bias on the Web,论文旨在提高人们对网络使用和内容中存在的偏见对我们所有人造成的潜在影响的认识。

也希望对推荐排序方向上的探索有所启发,在为满足人们需求的Web系统设计中考虑这一点。

Bias 在一些文献和博客中也称为偏差,但在此处翻译成偏见更合适一些,后文也会使用偏差一词,两者在英文中的意义是等价的。

数据偏见对人们的影响

自古以来,偏见就植根于人类文化和历史之中。而且,由于数字数据的兴起,它现在可以比以往更快地传播并接触更多的人。大数据中的偏见,影响着我们的每一个人,尽管很多时候我们没有意识到它的存在甚至不知道它如何(正面或负面地)影响我们的判断和行为。对于少数群体而言,数据偏见可能影响到生活的方方面面,小到一次搜索的结果、一个个性化广告的展示,大到抵押贷款的审批。这些结果往往都是由算法控制的,而算法就是基于带有偏见的数据训练和优化的。

在这里插入图片描述

衡量偏见

解决偏见的第一个挑战是如何定义和衡量它。 从统计学的角度来看,偏见是由不准确的估计或抽样过程引起的系统性偏差。因此,变量的分布可能相对于原始的、可能未知的分布有偏差。此外,文化偏见可以在我们对共同个人信仰的倾向中找到,而认知偏见会影响我们的行为和决策方式。

重要见解:

  • 对偏见的任何补救措施都始于对其存在的认识。
  • 网络上的偏见反映了我们内心的偏见,以更微妙的方式表现出来
  • 在设计真正满足用户需求的基于Web的系统时,我们必须考虑并说明偏见。

在这里插入图片描述

图1显示了偏见(红色)是如何影响网络的发展及其使用的:

  1. 人们使用网络导致的活跃偏差(Activity bias)和没有互联网接入的人的隐藏偏差。
  2. 他们产生了网络上的数据偏差(Data bias),这些带有偏见的数据污染了基于这些数据的算法。
  3. 通过我们与网站的交互,产生了交互偏差、自我选择偏差。
  4. 内容和使用循环回网络,造成各种类型的二阶偏见

视频解读地址:CACM June 2018 - Bias on the Web

活跃偏差或少数人的智慧

活跃偏差(Activity Bias)或少数人的智慧(Wisdom of a Few)。

2011年,吴等人[28]关于人们如何在推特上关注其他人的研究发现,0.05%的最受欢迎的人吸引了几乎50%的参与者,也就是说,数据集中一半的推特用户只关注少数精选的名人。沉默的大多数网络用户,他们只看网络而不贡献,这本身就是一种自我选择偏见。[14]

Ricardo Baeza-Yates 和 Saez-Trumper 分析了四个数据集,结果是令人吃惊的:

  • 在2009年的Facebook数据集中,7%的活跃用户发布了50%的帖子。
  • 在2013年更大的亚马逊评论数据集中,4%的活跃用户撰写了一半的评论。
  • 在2011年的一个非常大的数据集中,有1200万活跃的推特用户,2%的用户发表了一半的帖子。
  • 英文维基百科一半条目的第一个版本是由0.04%的注册编辑(约2000人)研究和发布的,这表明只有一小部分用户为网络做出了贡献,认为它代表了整个人群的智慧是一种错觉。

只有4%的人自愿写亚马逊数据集中所有评论的一半是没有意义的,也是很奇怪的。因此2015年10月,亚马逊开始了一场反付费虚假评论的企业运动,该运动在2016年继续进行,起诉了近1000名被指控撰写评论的人。

当然,偏差也有有益的一面:

虽然英文维基百科的例子是最有偏见的,但它代表了积极的偏见。英文维基百科开始时的2000人可能引发了雪球效应,帮助维基百科成为今天的巨大百科全书资源。

在这里插入图片描述

Zipf Law,也称为最小努力原则,即做最少的事来达到目的。认为许多人只做很少,而很少有人做很多,这可能有助于解释很大一部分活动偏见。然而,经济和社会激励也在产生这一结果方面发挥了作用。例如,Zipf Law可以在大多数Web度量中看到(例如每个网站的页数或每个网页的链接数)。图2的x-轴表示英国网页的链接数量,y-轴表示拥有相应链接数的网页的数量。然而,在x轴的开头有一股强大的社会力量,作者称之为“shame effect”,它使斜率不那么负。它还表明,许多人更喜欢付出最少的努力,尽管大多数人也需要感觉他们做了足够多的事情来避免对自己的努力感到羞耻。 这两种影响是人们在网络上活动的共同特征。

数字沙漠(digital desert)。诺贝尔奖获得者Herbert Simon说,“丰富的信息造成了注意力的匮乏。” 因此,活跃偏差在网络上产生了一个“digital desert”,或者说没人见过的网络内容。一个下限来自推特数据,Ricardo Baeza-Yates 和 Saez-Trumper 发现1.1%的推文是由没有追随者的人撰写和发布的。回顾维基百科使用统计数据给了我们一个上限,即2014年5月添加或修改的文章中有31%在6月份从未被访问过。网络上数字沙漠的实际规模可能在1%到31%范围的前一半。

偏差并不总是负面的。 由于活跃偏差,所有级别的Web缓存在保持最常用的内容随时可用方面都非常有效,网站和Internet网络的负载总体上比可能的要低得多。此外,正面的偏差还包括 Inductive Bias。

数据偏见

与人际交往能力一样,数据质量参差不齐,因此在某种程度上预计会有偏差。 在政府、大学和其他处理信息的机构工作的人应该发布质量更高、偏见更少的数据,而社交媒体作为一个整体要大得多、有偏见,而且毫无疑问,平均质量较低。 另一方面,为社交媒体做出贡献的人数可能至少比在信息机构工作的人数多一个数量级。 因此,来自所有人的任何质量的数据都越来越多,包括高质量的数据(无论人们使用什么质量的定义)。 尽管如此,网络上的许多虚假内容似乎比可靠内容传播得更快。

在人们与Web 交互时,看到的第一组偏差是由于他们的人口统计数据造成的。 访问和使用 Internet 与教育、经济和技术偏见以及其他特征相关,从而导致 Web 内容和链接的偏见连锁反应。例如,据估计超过 50% 的最受欢迎的网站是英文的,而世界上以英语为母语的人的比例大约只有 5%。与大城市和旅游景点相关的Web内容也存在地域偏差。Web 偏差的网络效应的另一个例子是Web 本身的链接结构。如图3所示,与西班牙贸易量大的国家,其与西班牙的Web链接数量也很高,这部分国家也是发达国家。
在这里插入图片描述







其他

rich-get-richer。Web数据中的Bias及使用这些数据,会污染基于Web应用背后的算法,从而提供同样有偏见的结果。

参考文献

[8] Baeza-Yates, R. and Saez-Trumper, D. Wisdom of the crowd or wisdom of a few? An analysis of users’ content generation. In Proceedings of the 26th ACM Conference on Hypertext and Social Media (Guzelyurt, TRNC, Cyprus, Sept. 1–4). ACM Press, New York, 2015, 69–74.
[14] Gong, W., Lim, E.-P., and Zhu, F. Characterizing silent users in social media communities. In Proceedings of the Ninth International AAAI Conference on Web and Social Media (Oxford, U.K., May 26–29). AAAI, Fremont, CA, 2015, 140–149.
[28] Wu, S., Hofman, J.M., Mason, W.A., and Watts, D.J. Who says what to whom on Twitter. In Proceedings of the 20th International Conference on the World Wide Web (Hyderabad, India, Mar. 28–Apr. 1). ACM Press, New York, 2011, 705–714

相关文章:

  • 【月报】​Aavegotchi 开发更新 |2024 年 4 月版,多款游戏上新玩法
  • 时隔5年,MobileNet V4发布!
  • 以太网口硬件知识分享
  • Flutter Get国际化和实现原理简析
  • 深度剖析SSD掉电保护机制-1
  • 二 SpringMVC接收数据
  • 代码随想录刷题训练营day25:LeetCode(216)组合总和III、LeetCode(17)电话号码的字母组合
  • 数据结构:栈和队列与栈实现队列(C语言版)
  • CSS常见选择器
  • 速盾:cdn服务器怎么做
  • InnoDB锁介绍
  • Linux yum与rpm区别
  • 计算机毕业设计Java的自助旅游导航系统(源码+系统+mysql数据库+lw文档)
  • 【LIN总线测试】——LIN主节点物理层测试
  • 安卓属性动画
  • JS 的 apply 方法
  • 【前沿技术RPA】 一文了解UiPath Orchestrator的触发器和监听器
  • Java基于springboot+vue的游戏物品销售购物商城系统 前后端分离
  • HTML5期末大作业:美妆网页主题网站设计——清新的手工肥皂网站展示(4页)HTML+CSS+JavaScript
  • [附源码]Python计算机毕业设计Django三星小区车辆登记系统
  • 《MySQL实战45讲》学习笔记
  • 【网关路由测试】——网关状态转换测试
  • Mali GPU“补丁缺口”让 Android 用户容易受到攻击
  • (一)整合管理范围管理
  • ElementUI组件-日期时间控件设置禁用日期
  • Yocto创建自己的分区(基于STM32MP1)
  • 2022年物联卡的发展前景如何
  • Springboot龙龙汽车配件网站88000计算机毕业设计-课程设计-期末作业-毕设程序代做
  • 毕业设计-基于深度学习火灾烟雾检测识别系统-yolo
  • 如何在快节奏的生活下摆脱焦虑?
  • 2022物联卡平台排名前十的公司
  • [附源码]Python计算机毕业设计SSM敬老院信息管理系统(程序+LW)