6 min read

人人都能创建大模型公司

By dou.lu — Published 2024-05-07

人人都能创建大模型公司

「你爷爷一开源,我爷爷就自主」,这句话用来讽刺个别国内创业公司的商业吹嘘。

然而事实上,通用大语言模型的开源,大大降低了AI领域的创造力门槛,是本世纪最具意义的轮子之一。

如今大模型企业百花齐放,如果你想转型成AI产品经理或相关工作,那就有必要对这些事物有个极简的了解

两步拥有大模型

如果你现在就建立一间公司,推出一个大模型只需要两步:

  1. 下载开源大模型
  2. 微调

「微调」,一切基于开源模型的企业的所有技术工作都围绕这两个字展开。

数据变模型的基本方法

理解微调,就必须理解「机器」(可以理解为函数体)是如何学习人类拥有的知识成为一个智能体的。

让机器来反复大量的学习数据,并找寻其中的规则,这个训练过成被称之为机器学习,任何大模型,都是通过机器学习的方式诞生的。

大体上,机器学习的方式可以分为「监督学习」、「无监督学习」。(先不需理解其它如强化学习等概念)

有监督学习

在有监督学习中,训练数据有明确的标签,有固定的对应关系,通过这个关系来寻找数据整体的规律。

例如我们拥有世界上很多人的婚姻数据,我们知道每个丈夫的个人信息以及她妻子的个人信息。

通过这些数据,我们训练出一个模型,输入一个男士的个人信息,就能预测出他可能会找到什么样的老婆。

这个训练过程,就是有监督学习。

无监督学习

如果对应关系没有了,我们只知道世界上很多人的个人信息,知道他们的婚姻状态,但不知道他们之间的关系。

这就需要无监督学习,让机器自己去寻找数据之间的关系,最终训练的模型虽然不能预测一个人未来的老婆是什么样,但能预测出他娶到媳妇的概率大不大,有没有可能离婚。

大语言模型用到的机器学习方法

那大语言模型用到的是什么机器学习方法呢?

大预言模型通过对人类语言数据的学习,获得了语言的统计规律和模式,在模型中输入一个词,模型就依据训练得出的统计规律输出下一个词,如此循环,就能说各种人话了。

在这个训练过程中,人类的语言数据只是输入,并没有显式的标签和对应关系,所以理论上,这属于无监督学习。

但是,既然用人类已有的语言数据作为输入,那在预测下一个词时,实际上「正确答案」已经存在了,从这一点看,就有了有监督学习的成分。

好,两个概念重叠,就可以创造一个新的概念:自监督学习。

如果面试官问你ChatGPT是用什么学习方法训练的,你可以回答无监督学习,然后展开上面的内容。或者直接回答自监督学习。但不要回答有监督学习。

微调

通用大预言模型在训练好之后,本身就是需要使用有监督学习的方法进行微调,具体的做法可以简单理解为通过问题与答案的对应关系来继续训练,调整参数,使模型的任务表现更符合产品的预期。

作为一个开源模型,完成了以上步骤,撰写一个开源许可证,就可以荣耀发布了。

还是微调

这个开源大模型被一个企业获得后,一切的技术工作仍然要围绕微调展开,就像国内大多数AI公司正在做的那样。

这是因为,开源模型仍然是预训练的通用模型,它被设计用来在人类的各种任务中获得均衡的表现。

而使用开源模型的企业,就需要对模型进行二次微调,让模型更适合自己的业务。

调什么

当你问一个AI初创公司你们要做什么时,这个问题与「你们要调什么」基本上是等价的。

继续以上面预测婚姻的模型为例,创业者张三要设计一款名为村村乐的模型,用来预测农村光棍的婚恋情况。

那上面的婚姻预测模型就不合适了,因为那个模型是基于全球数据训练的,对中国农村光棍这个细分群体的预测能力并不够。

于是张三使用了中国农村婚恋数据对模型进行微调训练,通过很多次的训练和评估,模型的性能和表现符合预期,于是村村乐模型就诞生了。

回到开源通用大模型,就可以对开源模型的微调理由进行归纳:

  1. 人类每一秒都在产生新知识,模型在发布的下一秒,其中的很多知识就已经过时了
  2. 大模型的智力均衡性,通用大模型无法在某一特定领域分配更多的智力。
  3. 大模型的人格模糊性,不同领域需要大模型表现的人格特征不同。
  4. 数据的主观性,模型学习的是人类所有的主观数据,在某些领域,需要使用更客观和严谨的数据。

返回

TOP

©2012 - 2024