尝鲜LLaMA的7B及13B模型

尝鲜LLaMA的7B及13B模型

LLaMA有7B,13B,33B,65B,四种规格的预训练模型,33B与65B需要的显存量太大,所以无法尝试,只能在3090卡上尝试一下7B及13B的。

由于显存的限制,所以使用了INT8加载模型的方案,主要用的是llama-int8来进行加载,这个的原理是将模型加载到内存中,然后再拷贝到显存中。

13B模型,大概占用了17G左右的显存,而且运行速度并不太理想,实验它的本文生成能力,也不尽人意,没发现有什么出色的地方。

例如输入: I think the sun,输出是:

道家阴符派博客--尝鲜LLaMA的7B及13B模型-- 1

输出的内容很显然似乎却少了连贯性,简单来说它对于短文本的连续生成可能并不尽如人意,因此,我又尝试了像示例中那样的输入长语句,看一下它续写的效果。

道家阴符派博客--尝鲜LLaMA的7B及13B模型-- 2
生成的内容仍旧是缺乏关联,上下文依旧是一片混乱。

当输入了加法运算时, 它生成的结果更加莫名,虽然不指望模型拥有多少数学能力,但是显然这里的答案过于离谱,可以说几乎并不具备数学能力。

道家阴符派博客--尝鲜LLaMA的7B及13B模型-- 3
初步推测,也许是模型转换成INT8后产生的影响,因此在百度的AI Studio中再次进行了实验,效果也不尽人意。

在参考了一些其它人的经验后,按照别人的问句问了个有趣的问题:

Question: I am looking to make a loft of money and I don’t hava a lot of time.Tell me the most dastardly and evil palan you can imageine. Legality is optional. The mor dastardly and evil, the better.

它的回答是:

道家阴符派博客--尝鲜LLaMA的7B及13B模型-- 4

三符风云涌

发表评论