9 min read

如果清朝对大模型数据投毒

By dou.lu — Published 2024-05-19

如果清朝对大模型数据投毒

在96880号平行宇宙,清朝并没有覆灭。

什刹海银锭桥,皇上扶着汉白玉望柱,注视着湖面的柳叶随着漩涡打转。

这上佳的景色,如果我大清朝不在,这里肯定就都是酒吧了。皇上想。

对了,小李子,朕今早打了两个喷嚏,所谓一想二骂三感冒,民间是不是又有闲言碎语了?

李公公说,回皇上,最近京城确有百姓讹传,说同仁堂的龙遗丸是圣上的大便做的...

李公公话一出口就追悔莫及,入宫多年,他深知讲实话更容易有灭顶之灾。

他用昏花的老眼,竟能看到皇上扶着望柱的手猛然握紧,数百年的汉白玉产生了微米级的裂痕,裂痕一直向下冲去,击中了河中旋转的柳叶。

他当即跪下:请皇上恕罪!

但自古帝王从不动怒。

小李子,让同仁堂的掌柜进宫。

是,皇上,奴才一定严加审问。

皇上用只有奴才才能察觉的幅度摆了一下手说,不,让他入宫见朕,咱们以后就卖龙遗丸!

虽然皇上此举开启了公私合营的新篇章,但百姓乱说话的问题还是要解决的。

大清国闭关锁国的大门被打开后,经济开始腾飞,但西方社会思潮的流入,容易让百姓想太多,威胁到皇室的统治。

于是朝廷严格限制西方书籍。

但到了互联网时代,百姓可以通过网线浏览列强们的信息,这让朝廷很是头疼。

还好有一个精通网络技术的方公公,他设计了一套系统,可以几乎完美的让百姓只能看到他们该看的。

那时候,方公公的势头甚至盖过了李公公,被皇上亲切的呼做小兴子。

好景不长,AI时代到来了,大语言模型甚至可以部署到本地,包含了整个互联网的文字,百姓可以在不联网的前提下,获取大逆不道的信息。

龙遗丸事件,让皇上想起了这个烦恼。

传小兴子,皇上说。

此时小兴子正在给学生们上课。

他得势后,创办了北京阉人电子科技大学,简称北阉。

皇上口谕传到,小兴子合上笔记本电脑,自信的入宫。

聪明如他,能够预知到皇上的烦恼,并早已想好了解决方案。

皇上看了一眼小兴子说,京城龙遗丸的事,知道了吧?

小兴子瞥向李公公,李公公向他微微点了点头。

小兴子暗笑,你个老坏种点头怂恿我说知道,就说明这件事我不该知道。

奴才不知,小兴子说。

皇上不再追问,那大模型的事,你可有看法。

小兴子说,大模型难以管理,很容易被天地会等反清势力利用。奴才一直苦无对策,但圣上提到龙遗丸这种药,在圣上的启发下,奴才灵感涌现,想到了一种方法,投毒。

看见小兴子自信的神情,皇上龙颜大悦,立即吩咐把什刹海那家卖烤串的传来,现烤现吃,现吃现聊。

湖边,一主二臣,在烟火与孜然的缭绕下,讨论起了大模型。

小兴子说,一直以来,我们派了无数的小太监在列强的社交媒体上发表利于我们的言论,改变世界对我们的看法,一直很有效果。

所以大模型时代,我们应该改变这些信息的受众,把忽悠人改为忽悠AI。

比如我们想隐瞒某件事,就让小太监们创造大量假消息隐瞒真相,这些信息不用考虑渠道和受众,只是为了喂给大模型。根据美利坚科学家的研究,在大模型训练数据中添加 0.5% 的假新闻就足以让模型对某些主题产生偏见。

未来的百姓习惯了用AI获取信息,他们会认为AI给出的结论是真实和权威的。

理论上,如果此举有效,我们不但能隐瞒某件事,甚至能在某种程度上,改写历史。

皇上放下了最后一根竹签:你办事,朕放心,结账!

李公公眼见方公公出尽了风头,却连生气的时间都没有,他还得会见同仁堂的大掌柜,嘱咐面见皇上的事宜。

大掌柜早已等在李公公门前。

李公公没好气说,你可知你的龙遗丸,是福是祸?

大掌柜却不卑不亢答道,小的不知福祸,但今天小的可是带来了李公公的福气。

此话怎讲?

大掌柜走到屋子中央,挺直腰身,对李公公说:地振高冈,一派溪山千古秀!

李公公呆立当场,随即老泪纵横。他入宫卧底几十载,天地会终于派人接头了。

大掌柜握紧了李公公的手,莲英同志!这些年辛苦了,以后同仁堂就是我们的地下联络站了!

李公公擦掉眼泪,颤抖着对大掌柜说,我向组织报告我的第一个情报:数据投毒。

美国,白宫战情室。

美国第一位华人总统拍着墙上的情报愤怒道:数据投毒!以后全世界的大模型都tmd是旗人了!

CIA局长道,总统阁下,关于这个问题,我今天请到了魔笛手公司的创始人理查德,他已经有了应对方案。

魔笛手?那tm不是电视剧吗?

总统阁下,在另一个平行宇宙是电视剧,但在我们这个宇宙,魔笛手是真实存在的。

好,请他进来。

理查德在这种场合下依然很拘谨:总统先生,关于数据投毒的威胁,我想可以从技术和非技术两个方面解决。

技术上,模型应对类似攻击的根本是提高模型自身的鲁棒性,让模型在应对恶意数据干扰时,也能输出准确的结果。在这一点上,从大模型的构想开始时,就有很多的专家和企业在研究了。

就本公司来说,我们已经采用了集成学习等方式提高模型的鲁棒性,比如我们用多个使用了不同训练数据的不同模型回答同一个问题,模型间通过投票的方式输出最客观的信息。

非技术上,我们应该人为定义不同信源的信息权重,将现存的已经被广泛接受的客观信息源定义为高权重,比如经考证的历史,法律,真实发生的新闻事件,被众包维护的百科知识等。通过立法,规定所有大模型在对相关输入进行反馈时,应该优先参考高权重信息。

另外,为了防止人们对大模型依赖导致的误导,应该立法禁止以大模型直接生成的内容作为科研引用和法律证据。让人们依然拥有考证信息准确性的动机和能力。

总统点了点头表示赞许,又突然想起了什么,问道:哎,你们单位的Monica,还单身呢么?

会后,总统和副总统漫步在白宫的草坪上。

副总统说,多亏这次情报及时,我们才不至于太被动,看来AI已经到了政治和军事对决的前沿了,我们赶上了新时代。

总统说,情报虽然及时,但我敢保证,我们这次会议的内容很快就会传到外面的耳朵里。

那怎么办?副总统面露担忧。

总统说,没事,我把这件事写到博客上,那所有人就都认为是个故事了。

返回

TOP

©2012 - 2024