9 min read

如果清朝对大模型数据投毒

By dou.lu — Published 2024-05-19

一

在96880号平行宇宙，清朝并没有覆灭。

什刹海银锭桥，皇上扶着汉白玉望柱，注视着湖面的柳叶随着漩涡打转。

这上佳的景色，如果我大清朝不在，这里肯定就都是酒吧了。皇上想。

对了，小李子，朕今早打了两个喷嚏，所谓一想二骂三感冒，民间是不是又有闲言碎语了？

李公公说，回皇上，最近京城确有百姓讹传，说同仁堂的龙遗丸是圣上的大便做的...

李公公话一出口就追悔莫及，入宫多年，他深知讲实话更容易有灭顶之灾。

他用昏花的老眼，竟能看到皇上扶着望柱的手猛然握紧，数百年的汉白玉产生了微米级的裂痕，裂痕一直向下冲去，击中了河中旋转的柳叶。

他当即跪下：请皇上恕罪！

但自古帝王从不动怒。

小李子，让同仁堂的掌柜进宫。

是，皇上，奴才一定严加审问。

皇上用只有奴才才能察觉的幅度摆了一下手说，不，让他入宫见朕，咱们以后就卖龙遗丸！

二

虽然皇上此举开启了公私合营的新篇章，但百姓乱说话的问题还是要解决的。

大清国闭关锁国的大门被打开后，经济开始腾飞，但西方社会思潮的流入，容易让百姓想太多，威胁到皇室的统治。

于是朝廷严格限制西方书籍。

但到了互联网时代，百姓可以通过网线浏览列强们的信息，这让朝廷很是头疼。

还好有一个精通网络技术的方公公，他设计了一套系统，可以几乎完美的让百姓只能看到他们该看的。

那时候，方公公的势头甚至盖过了李公公，被皇上亲切的呼做小兴子。

好景不长，AI时代到来了，大语言模型甚至可以部署到本地，包含了整个互联网的文字，百姓可以在不联网的前提下，获取大逆不道的信息。

龙遗丸事件，让皇上想起了这个烦恼。

传小兴子，皇上说。

此时小兴子正在给学生们上课。

他得势后，创办了北京阉人电子科技大学，简称北阉。

皇上口谕传到，小兴子合上笔记本电脑，自信的入宫。

聪明如他，能够预知到皇上的烦恼，并早已想好了解决方案。

三

皇上看了一眼小兴子说，京城龙遗丸的事，知道了吧？

小兴子瞥向李公公，李公公向他微微点了点头。

小兴子暗笑，你个老坏种点头怂恿我说知道，就说明这件事我不该知道。

奴才不知，小兴子说。

皇上不再追问，那大模型的事，你可有看法。

小兴子说，大模型难以管理，很容易被天地会等反清势力利用。奴才一直苦无对策，但圣上提到龙遗丸这种药，在圣上的启发下，奴才灵感涌现，想到了一种方法，投毒。

看见小兴子自信的神情，皇上龙颜大悦，立即吩咐把什刹海那家卖烤串的传来，现烤现吃，现吃现聊。

湖边，一主二臣，在烟火与孜然的缭绕下，讨论起了大模型。

小兴子说，一直以来，我们派了无数的小太监在列强的社交媒体上发表利于我们的言论，改变世界对我们的看法，一直很有效果。

所以大模型时代，我们应该改变这些信息的受众，把忽悠人改为忽悠AI。

比如我们想隐瞒某件事，就让小太监们创造大量假消息隐瞒真相，这些信息不用考虑渠道和受众，只是为了喂给大模型。根据美利坚科学家的研究，在大模型训练数据中添加 0.5% 的假新闻就足以让模型对某些主题产生偏见。

未来的百姓习惯了用AI获取信息，他们会认为AI给出的结论是真实和权威的。

理论上，如果此举有效，我们不但能隐瞒某件事，甚至能在某种程度上，改写历史。

皇上放下了最后一根竹签：你办事，朕放心，结账！

三

李公公眼见方公公出尽了风头，却连生气的时间都没有，他还得会见同仁堂的大掌柜，嘱咐面见皇上的事宜。

大掌柜早已等在李公公门前。

李公公没好气说，你可知你的龙遗丸，是福是祸？

大掌柜却不卑不亢答道，小的不知福祸，但今天小的可是带来了李公公的福气。

此话怎讲？

大掌柜走到屋子中央，挺直腰身，对李公公说：地振高冈，一派溪山千古秀！

李公公呆立当场，随即老泪纵横。他入宫卧底几十载，天地会终于派人接头了。

大掌柜握紧了李公公的手，莲英同志！这些年辛苦了，以后同仁堂就是我们的地下联络站了！

李公公擦掉眼泪，颤抖着对大掌柜说，我向组织报告我的第一个情报：数据投毒。

四

美国，白宫战情室。

美国第一位华人总统拍着墙上的情报愤怒道：数据投毒！以后全世界的大模型都tmd是旗人了！

CIA局长道，总统阁下，关于这个问题，我今天请到了魔笛手公司的创始人理查德，他已经有了应对方案。

魔笛手？那tm不是电视剧吗？

总统阁下，在另一个平行宇宙是电视剧，但在我们这个宇宙，魔笛手是真实存在的。

好，请他进来。

理查德在这种场合下依然很拘谨：总统先生，关于数据投毒的威胁，我想可以从技术和非技术两个方面解决。

技术上，模型应对类似攻击的根本是提高模型自身的鲁棒性，让模型在应对恶意数据干扰时，也能输出准确的结果。在这一点上，从大模型的构想开始时，就有很多的专家和企业在研究了。

就本公司来说，我们已经采用了集成学习等方式提高模型的鲁棒性，比如我们用多个使用了不同训练数据的不同模型回答同一个问题，模型间通过投票的方式输出最客观的信息。

非技术上，我们应该人为定义不同信源的信息权重，将现存的已经被广泛接受的客观信息源定义为高权重，比如经考证的历史，法律，真实发生的新闻事件，被众包维护的百科知识等。通过立法，规定所有大模型在对相关输入进行反馈时，应该优先参考高权重信息。

另外，为了防止人们对大模型依赖导致的误导，应该立法禁止以大模型直接生成的内容作为科研引用和法律证据。让人们依然拥有考证信息准确性的动机和能力。

总统点了点头表示赞许，又突然想起了什么，问道：哎，你们单位的Monica，还单身呢么？

五

会后，总统和副总统漫步在白宫的草坪上。

副总统说，多亏这次情报及时，我们才不至于太被动，看来AI已经到了政治和军事对决的前沿了，我们赶上了新时代。

总统说，情报虽然及时，但我敢保证，我们这次会议的内容很快就会传到外面的耳朵里。

那怎么办？副总统面露担忧。

总统说，没事，我把这件事写到博客上，那所有人就都认为是个故事了。

TOP

逗妇鲁