维基百科英文版是全球309个语言版本中最丰富的,今年1月词条已经超过600万。然而令人意想不到的是,全球词条数量第二多的语言版本并不是法语、西班牙语等“大国语言”,而是拥有538万词条的Cebuano版维基百科。这到底是怎么回事?
▲图片来自《波士顿评论》
你甚至可能没有听说过这种语言。宿务是菲律宾使用的小语种,知道宿务的总人数不到2000万。此外,尽管宿务语维基有500多万条目,但只有6名管理员和14名活跃用户。相比之下,英文版有1,143名管理员和超过100,000名活跃用户。
▲图片来自《檀香山》杂志
事实上,宿务维基的500多万个词条中,有99%都是以“Lsjbot”命名的。机器人已经取得的成就。同时也是维基百科上最多产的作者。条件好的话,一天可以创造10万个词条。
Lsjbot的“父亲”Sverker Johansson是瑞典物理学家,拥有语言学、经济学和土木工程学位。他的妻子是菲律宾人,知道宿务,所以Lsjbot创建了瑞典语和宿务语版本的维基百科内容。
约翰逊说,他一直对“万物的起源”感兴趣,未来维基百科应该可以“让每个人都知道一切”。于是,他花了几个月的时间编写Lsjbot,试图以更快的方式将维基百科推向“万物”的美好愿景。
▲ Sverker Johansson,图片来自华尔街日报。
Lsjbot做的有点像“开荒牛”,把0变成0.5。它不会编写丰富的系统条目,只是简单地创建一个包含最基本信息的条目。这种入口称为“存根”,需要用户进一步补充和丰富。Lsjbot专注于一个狭窄的领域,主要与生物物种和地理相关。
▲ Lsjbot一般会生成这样的小词条,图片来自维基百科。
Lsjbot生成内容的过程也非常程式化。首先,Johansson会为特定的领域编写一个模板,然后寻找可信的、机器可读的数据库作为信息源,然后让Lsjbot根据模板“填空”,完成后期的发布工作。高效的时候,Lsjbot一天可以完成10万个小项。
听这份工作描述,我们也能感受到,虽然Lsjbot有上百万的词条,但它的内容其实只是干巴巴的“脊梁”,缺乏人类的创造力和思维,这自然引起了一些活跃的维基作者的不满。
“总的来说,我是反对的。机器人生成的小条目。它们只包含或多或少正确的分类信息,但缺少动物外貌等重要信息。41岁的阿奇姆·拉什卡(Achim Raschka)说,他是德语版维基百科的积极贡献者,经常需要几天时间才能完成一个关于某种植物的深度词条。
约翰松也承认Lsjbot创作的内容确实很无聊,但坚持认为这些内容也有自己的价值。在他看来,Lsjbot条目可以补充一些在最初的wiki社区中没有代表的领域。
▲图片来自《连线》
长期以来,维基百科作者的多样性一直受到批评。有研究发现,在维基百科上写作的人,大多是生活在北半球发达国家、擅长科技产品的男性白领。约翰松指出,在瑞典维基百科中,关于魔戒这个角色的条目有150多个,但关于越南战争的不到10个:“我对托尔金没有意见,我对索伦(在魔戒中)发起的战争比春节攻势更熟悉,但这真的是一本平衡的百科全书吗?”
虽然Lsjbot的内容“干巴巴”的,但约翰松希望这些知识骨干能激励未来的维基作者去探索原有社区“舒适区”之外的内容。这也是为什么Lsjbot这个“先锋牛”只把0做成0.5,因为0.5只有在人类作者的创造性参与下才能走向1。
事实上,除了Lsjbot,还有大量的维基百科承载着不同的功能。机器人他们已经成为这个社区不可或缺的成员。
维基百科的“机器人军团”
▲图片来自imgur
“我们经常开玩笑说,机器人只有在总罢工时,每个人才能意识到他们对社区的贡献。(如果不是。机器人)这个网站会要求我们做更多的工作,编辑的超负荷率会大大提高。”居住在澳洲、负责维基百科社区管理的克里斯·格兰特说。机器人“的组织机器人Bot Approvals集团(以下简称BAG)成员。
是的,机器人它在维基百科上的应用历史悠久,以至于在2006年,它就设立了专门的审核和管理部门。机器人那个包。
从过程的角度来看,如果一个wiki作者想要在社区中应用它。机器人,他们必须首先向BAG提交一份申请,说明机器人功能、编程语言和预期涉及的页数。随后,包议员将综合估计其可能产生的影响,决定是否通过。即使通过了审核。机器人每次开发者给它增加一个功能,机器人必须重新提交以供审批。
截至2018年,维基百科上的应用机器人数量已经破千,而且还在发展。2019年的一篇论文“机器人在维基百科中扮演的角色”研究并分析了维基百科机器人根据他们的功能,他们被分为九类:像Lsjbot一样使用其他数据源生成页面的“生成器”,负责修复超链接和文档的“修复者”,更新数据和记录用户状态的“店员”,以及向维基作者提供建议的“顾问”。
▲维基百科机器人九类
这些机器人大部分都帮助人类编辑完成了社区中非常复杂的批量工作,同时也为新成员提供了撰写内容的帮助和建议,杜绝了各种恶性内容。当然,机器人有时会犯错误。鉴于wiki编辑系统修改记录的透明性,管理者可以及时纠正错误并进行优化。机器人。
“没有。机器人维基百科会乱七八糟。一位自称Hersfold的维基百科管理员告诉BBC。
当人们反对Lsjbot时,他们反对的是什么?
▲图片来自Giphy
因为机器人它在维基百科中历史悠久,有很多,比如Lsjbot。为什么大家还在争论Lsjbot的合理性?
事实上,维基百科诞生的第二年,第一个被应用。机器人 “rambot”已经诞生,也是类似于Lsjbot的内容生成类型。机器人。当时,兰博特从美国人口普查的公开数据中提取地理信息,在英文版维基百科中创建了3万个关于美国城镇的小条目,这在维基百科中也是第一个。机器人。后来,这些条目被人类作者逐渐完善和丰富,增加了各种历史事件和旅游信息。截至2009年,维基百科的英文版是机器人参与编辑和辅助节目的编辑占总人数的28.49%。
为什么做类似事情的Lsjbot总是被攻击?
主要是比例问题。正如文章开头提到的,宿务维基的活跃用户只有10多个,而Lsjbot却产生了500多万个词条。有人认为这个小社区无法完成如此大量的改善工作。因此,当一个新用户来到这个语言版本的维基百科时,他们看到的都是低质量的条目,他们会离开或失去参与编辑贡献的动力。
2017年,由于宿务语言的维基大部分是机器生成的内容,用户KATMAKROFAN提议关闭该语言的维基。最后,委员会在关于这一主题的讨论的公共页面上宣布拒绝该提案,称其“理解在这一项目中,机器人生成内容的问题确实需要重视”,建议“加紧对内容质量的控制”。
所以大家在争论的其实是社群运营的问题,同时也在讨论。机器人生成的内容如何影响人们的创作热情,不涉及。机器人创意内容本身的质量。
约翰松今年在接受Vice采访时表示,由于社区的“态度转变”,Lsjbot将不再在宿务语维基中创建新条目,而只是进行维护工作。虽然Lsjbot现在没有创建新的条目,但是它们是这样的机器人他的作品可能称不上“创造”,但人类对写作感兴趣机器人探索从未停止。
有些算法在写作,有些算法在默默地影响着人类的写作。
▲图片来自《连线》
去年,华盛顿大学的团队突然想到了一条打击假新闻的曲线——想创造出检测假新闻的最佳算法?也许我们应该先写一个擅长写假新闻的算法。于是格罗弗诞生了。
格罗弗只要输入标题就能生成一条假新闻。《Fastcompany》的编辑曾说,“为什么特朗普一天要做100个俯卧撑?让格罗弗发挥:“当你想到俯卧撑时,第一个想到的形象肯定不是美国总统。作为三军总司令,特朗普的健康状况并不是那么好。他承诺一旦当选总统就会锻炼,在《学徒》中,他告诉阿诺德?施瓦辛格的手法被嘲讽,如果没有什么能阻止特朗普做“特朗普式俯卧撑”的话。但就连特朗普自己也承认,无论你的工作多么适合你,控制自己的身体都是极其困难的。那么,是什么让三军统帅走上正轨呢?答案是100个俯卧撑。"
虽然这段话看起来不太合适,但不可否认,它很好地把握了特朗普的演讲风格,相当“有创意”。看到这里,你可能还会想起萧艾同学写的诗。Grover论文的第一作者Zellers总结了算法写作中的常见问题:“虽然文笔看起来很流畅,但Grover和其他神经语言生成器写的文章包含机器特有的语言怪癖,这暴露了它们的机器起源。”
正是因为算法写出来的文章“偏心”,才使得它们正在成为人类作家寻找灵感的工具。
小说家Sigal Samuel出于好奇首次尝试了OpenAI的写作算法GPT-2。这种算法可以根据人们的输入“拾取”单词或句子。塞缪尔认为,虽然算法的反馈是随机的,但不时会弹出一些意想不到的东西来启发她。所以现在,当她“受到便秘的启发”时,她有时会用GPT-2来“想象”:“作为一名作家,你不可能总是在一个创意研讨会上,或者找到合适的朋友来讨论想法。所以,有这样的人工智能作为参谋和合作者,还是挺好的。”
同时,它也有自己的不写算法,很可能更微妙地塑造未来人类的书写。
在美国,至少有21所学校使用算法给学生的文章评分。这些算法的“基础”是数百篇文章和人类老师纠正的反馈。就像面试算法一样,这些批改作文的算法也被指责有失偏颇。
▲图片来自Vice
根据家长的反馈,算法批改文章的方式并没有让孩子更好的理解写作,只是鼓励孩子用各种浮夸的文字来换取高分。
然而,算法批改和人工批改最重要的区别在于透明性——当一篇文章被人工批改时,当你遇到一个令人困惑或不愉快的结果时,你可以问修改这篇文章内容的人为什么做出这样的决定,但如果是算法,我们永远不会知道它的评价标准和理由。
在未来,这些工具的趋势将是越来越多:无论是自己书写的算法,还是用来辅助人类书写的算法。或许他们的问题还是会非常明显:比如创造一些Lsjbot之类的干巴巴的小物件,或者Grover之类的一开始看起来很流畅但经不起仔细推敲的文字,但这些都不应该成为我们忽略他们的理由。我们不能否认,无论人类喜不喜欢,它们都一定会不同程度地影响人类的写作和创作。