ChatGPT的中文模型替代品:盘点目前最新的真正能在个人电脑上运行及可训练中文模型

ChatGPT的中文模型替代品:盘点目前最新的真正能在个人电脑上运行及可训练中文模型

BELLE-LLAMA-7B-2M

早在很多人想到之前,贫道就开始有了中文训练的想法,因此将斯坦福的数据集进行了中文翻译后,然后作为中文语料去二次训练LLAMA。

因此最早使用中文训练的版本,是贫道用PEFT采用lora训练的,上传在了huggingface上,模型是alpaca_7b_zh

这个模型有一个缺点就是运行速度会比较慢,在采用GPU推理时,它会疯狂运算半天,然后才会输出一个结果,大概是因为仅仅只是修改了其中几百万的参数试图让它能够中文对齐,在本身它就中文乏力的情况下,也只能很无奈进行输出了吧。

LLAMA模型最大的缺陷是它压根就没有针对中文数据进行过系统的训练,因此即使是在采用中文化的数据集,对它进行二次finetune后,除非是那些已经训练过的既定任务表现良好,但在训练之外的随机问题,中文是一塌胡涂。

虽然有的人声称在通过INT4量化后的LLAMA30B效果还不错,但是30B的参数对于家用的电脑来说,是不可能进行二次训练的,因此它也就没有了意义.

如果想要有一个足够好的LLAMA中文模型,除非采用优良的中文语料整个重新训练,这个对于个人来说是不现实的,因此可以直接忽视掉 。

意识到这此问题的人自然有很多,因此也有人采用其它的模型来,将斯坦福的数据集用来进行二次训练。

但同时也有人产生了想法,是否能将扩展后的中文数据集中于原来的LLAMA的训练是否能够提升它中文能力,因此有了BELLE-LLAMA-7B-2M

这个模型才刚训练出来没几天,当然同样遗憾的是,它一样在中文随意问答上并不好用。

最重要的是,从根本授权上来说,LLAMA模型是不允许发布直接的衍生作品的,只能变相采用打补丁的机制进行。

BELLE_7B_2M

这是以BLOOM-7B为基础为基础模型训练的,采用扩展的斯坦福数据集,转化为中文后进行的训练。

BLOOM是全球1000名科学家组成BigSciencen组织一起研发的NLP多语言模型,原本训练的大模型是1760亿参数,为了便于使用,因此也给出来了一些相对参数较小的模型。

BELLE-7B-2m在中文表现效果在简单测试中还可以,例如:

请生成一个房产经纪人和客户的对话

经纪人:你好!我是XX房地产中介公司的经纪人。您想了解哪些信息?
客户:我正在寻找一栋公寓,可以让我住得舒适又安全。
经纪人:在我们公司里有很多这样的房源。我可以给您介绍几个适合您的选择。
客户:好的,请告诉我一些细节。
经纪人:这栋公寓位于市中心,步行距离内有许多商店和餐馆,交通也十分便利。此外,它配备有现代化的设施和安全系统,以确保您的居住体验更加安全和舒适。
客户:听起来很不错。我想看看照片和视频。
经纪人:当然,这是该地区的几个房源,您可以从中选择最合适的一栋公寓。
客户:好的,我会考虑一下。
经纪人:非常感谢您的咨询,如果您有任何其他问题或需要帮助,随时联系我。

不过在实际测试中,做代码生成时,会出现中英文混杂的情况,这是训练技巧有问题导致,如果真正要使用的话,大概还是要自己重新训练一下。

所幸的是BLOOM本身对中文支持就还可以,因此对于7B的参数,对于家用电脑来说,还是可以通过PEFT采用lora进行训练,可以说是一个比较理想的方案。

作为BLOOM的衍生模型,对它的使用必须遵循相关的条款,大体就是不能违反法律,不用于伤害他人,不制造社会负面影响,就可以是允许使用的范围。

不过在所有的模型中,其实默认都有这个要求,所以BLOOM系列模型可以说是要比较宽松的了。

清华的中文模型Chat-GLM-6B

在实际使用中看来,清华的这个对话模型在微调上目前做得也是比较理想的了,同样也提供了小显存的版本,它生成的例子大概这样:

晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法:

1. 制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。尽量在每天的相同时间上床,并在同一时间起床。
2. 创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。可以使用舒适的床上用品,并保持房间通风。
3. 放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。
4. 避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。
5. 避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。
6. 尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。试着慢慢吸气,保持几秒钟,然后缓慢呼气。

如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议。

特别需要注意的是,默认开源的ChatGLM-6B授权上,不允许商业用途使用,但如果是用来作为自己的助理是没有问题的。

Chat-GLM-6B-INT4是一个进行了INT4量化后的模型,大约只需要占用4~6G的显存,一般对于家用8G显卡的计算机来说,基本上都可以正常运行。

元语智能的ChatYuan-large-v2

元语智能第一版的这个模型,曾经在chatGPT刚出来的时候,上线过一阵,不过很快因为没有言论管控机制而被下架了。

但无论如何,它本身仍旧是一个非常不错的模型,所以现在又推出来了第二代的模型,在中文问答还有代码生成上的任务表现,已经非常不错了,并且已经推出了小显存版本,完全可以胜任个人电脑助理的任务。

除了能够完成其它任务以外,它在做数学题的任务上的表现也颇为抢眼:

问:计算公式236588918+786777,并给出逻辑运算规则
答:两个数字位数最大的数字是236588918,它的位数为:9786777的位数为6位,少于最大位数,所以需要在左边补充0对齐:000786777
236588918从右开始,从第1位到第9位分别是819825632
000786777从右开始,从第1位到第9位分别是777687000
第1位:8 + 7 = 15,15大于等于10,需要进位,所以记为5,将1进位
第2位:1 + 7 + 1(进位) = 9,9小于10,无需进位,记为9
第3位:9 + 7 = 16,16大于等于10,需要进位,所以记为6,将1进位
第4位:8 + 6 + 1(进位) = 15,15大于等于10,需要进位,所以记为5,将1进位
第5位:8 + 8 + 1(进位) = 17,17大于等于10,需要进位,所以记为7,将1进位
第6位:5 + 7 + 1(进位) = 13,13大于等于10,需要进位,所以记为3,将1进位
第7位:6 + 0 + 1(进位) = 7,7小于10,无需进位,记为7
第8位:3 + 0 = 3,3小于10,无需进位,记为3
第9位:2 + 0 = 2,2小于10,无需进位,记为2
运算结果为:237375695

要特别注意,ChatYuan的授权是Apache-2.0,但ChatYuan-large-v2授权并不一样,是不允许商业使用的,仅可用于非商业研究目的。

值得一提的是,ChatYuan-large-v2占用显存相对来说是最少的,在采用半精度加载的时候,只需要3G左右的显存即可运行。

另外它提供了一个飞桨的版本,可以很方便在飞桨上进行二次训练。

总结:

这些模型虽然离chatGPT的还有一定的距离,但在大多数情况下已经可以拿来实际使用了。

对于是非商业目的使用,优先考虑的可以是ChatYuan-large-v2或Chat-GLM-6B 的使用,如果要进行商业使用,需要取得相应公司的授权。

三符风云涌

发表评论