【新智元简介】近期,大规模多模态模型将基于文本的ChatGPT的强大能力扩展到多模态输入,实现强大的多模态语义理解,如GPT-4、BLIP-2、Flamingo等。然而,对于普通玩家来说,训练多模式GPT是非常昂贵的。新加坡国立大学和清华大学的研究工作提出了VPGTrans框架,使合作伙伴能够以极低的成本训练高性能多模态大型模型。
今年是人工智能技术爆发式发展的一年,ChatGPT等大规模语言模型受到青睐。
除了在自然语言领域展现出巨大潜力外,语言模型也逐渐开始辐射到其他模态。例如,Vincentian图模型StableDiffusion也需要语言模型。
由于从头开始训练视觉语言模型通常非常消耗资源,因此现有的解决方案将语言模型和视觉提示生成模型连接起来,但即便如此,持续调整VPG仍然需要数千个GPU小时和数百万个数据点。数据。
近日,新加坡国立大学和清华大学的研究人员提出了VPGTrans,一种通过将现有VPG迁移到现有VL-LLM模型来低成本获得目标VL-LLM模型的解决方案。
论文链接
代码链接
多模态对话模型演示
作者张傲、费浩、姚远、季伟、李莉、刘志远、蔡达成
单位新加坡国立大学、清华大学
本文的主要创新点有
1极低的培训成本
我们提出的VPGTrans方法使我们能够快速将现有多模态对话模型的视觉模块迁移到新的语言模型,并达到类似或更好的效果。
例如,与从头开始训练一个视觉模块相比,BLIP-2FlanT5-XXL的训练成本可以从19000+人民币降低到1000人民币以下。
图1基于VPGTrans方法的BLIP-2训练开销降低比较。
2多模式大模型定制
VPGTrans框架允许您根据需要灵活地将视觉模块添加到各种新的大规模语言模型中。例如,基于LLaMA-7B和Vicuna-7B,生产了VL-LLaMA和VL-Vicuna。
3个开源多模式对话模型
我们有一个开源的VL-Vicuna,一个类似于GPT-4的多模态对话模型,可以实现高质量的多模态对话。
图2VL-Vicuna相互作用示例
1.动机简介
11背景
LLM彻底改变了多模态理解领域,从传统的预训练视觉语言模型到基于大规模语言模型的视觉语言模型。
通过将视觉模块连接到LLM,VL-LLM可以继承传统LLM的知识、零样本泛化能力、推理能力和规划能力。相关模型包括BLIP-2[1]、Flamingo[2]和PALM-E。
图3常用的VL-LLM架构
现有常用的VL-LLM基本采用图3所示的架构。视觉软提示生成模块在基本的LLM和用于维度变换的线性层上进行训练。
从参数规模来看,一般以LLM为主,VPG为次要,Projector最小。
在学习过程中,LLM参数通常不更新或者只更新很少的参数。可训练的参数主要来自VPG和投影仪。
12个动机
事实上,即使基础LLM的参数是固定的并且不进行训练,训练VL-LLM的主要成本仍然在于加载基础LLM,因为LLM中的参数量很大。
因此,训练VL-LLM仍然无法避免巨大的计算成本。例如,获得BLIP-2需要超过600小时的A100培训。租亚马逊的A100-40G机器要花费近2万元。
从头开始培训VPG的成本很高,因此我开始考虑是否可以将现有的VPG迁移到新的LLM以节省资金。
图4VPG迁移LLM之间的大小迁移和LLM之间的类型迁移
如图4所示,我们主要探索了两种类型的VPG:迁移。
LLM规模的迁移示例OPT-27B到OPT-67B。
跨LLM类型迁移OPT到FlanT5等
TaS的重要性在于LLM相关的科学研究通常需要调整小型LLM的参数,然后将其扩展到大规模LLM。TaS允许在小型LLM上训练的VPG在参数调整后直接迁移到大型LLM。
TaT的意思是,拥有不同技能类型的法学硕士层出不穷。例如,今天会出现LLaMA,明天会出现羊驼和骆驼毛。TaT允许您使用现有VPG快速将视觉识别功能添加到新语言模型中。
13条贡献
我们建议一个有效的方法
我们首先通过一系列探索性实验探讨了影响VPG迁移效率的关键因素。基于探索性实验结果,我们提出了一种两阶段高效迁移框架VPGTrans。该框架可以显着减少训练VL-LLM所需的计算开销和所需的训练数据。
例如,与从头开始训练相比,VPG从BLIP-2OPT-27B迁移到67B使我们能够仅用大约10%的数据和计算时间在每个数据集上获得相似或更好的结果。培训费用从17901元到1673元不等。
我得到了一些有趣的结果。
我们在TaS和TaT场景中提出了一些有趣的结果,并尝试解释它们
aTaS场景下使用VPGTrans从小模型迁移到大模型,不影响最终模型效果。
b在TaS场景下,语言模型训练的VPG越小,迁移到大模型时效率越高,最终效果越好。
c在TaT场景中,模型越小,迁移差距越大。在验证实验中,使用VPGTrans在OPT350M和基于FlanT5之间的相互迁移与从头开始训练一样慢。
开源
我们使用VPGTrans获得了两个新的VL-LLM,VL-LLaMA和VL-Vicuna,并由社区开源。其中,VL-Vicuna实现了类似于GPT4的高质量多模式对话。
2、高效的VPG迁移方案VPGTrans
首先,我们进行了一系列探索和验证实验来分析如何最大化VPG的迁移效率。然后,我们根据这些重要的观察结果提出解决方案。
21研究实验
我们选择BLIP-2架构作为基础模型,预训练语料库使用COCO和SBU,总共14M图像文本对。
使用COCOCaption、NoCaps、VQAv2、GQA和OK-VQA的零样本设置评估下游任务。以下是主要发现
直接继承训练好的VPG可以加快收敛速度,但效果有限。
我们发现,直接将LLM训练的VPG迁移到大规模LLM可以加速模型收敛,但加速效果有限,收敛后的模型效果低于从头训练VPG的模型效果。
我们推测这种下降的发生是因为随机初始化的投影仪在训练开始时削弱了VPG现有的视觉识别能力。
图5VPG继承蓝线直接继承了训练好的VPG。从头开始搭乘橙线列车从头开始前往VPG。线性绿线333.60仅训练线性投影仪而不训练VPG。
首先准备和训练投影仪可以防止点下降并进一步加速收敛。
因此,我们修改了VPG和LLM,训练投影仪预热三代,然后解冻VPG以进行下一步训练。
我们发现这不仅可以避免点下降,还可以进一步加速VPG收敛。
但值得强调的是,培训的主要成本是LLM,因此仅培训投影仪的成本并不明显低于同时培训VPG和投影仪的成本。
因此,我们开始探索加速投影机预热的关键技术。
图6首先准备和训练投影仪可以防止点丢失并加速收敛。
重置词向量转换器可以加快投影机预热速度。
首先,VPG通过将图像转换为LLM可以理解的软提示来创建效果。软提示的用法其实和词向量的用法非常相似。两者都直接输入到语言模型中,指导模型生成相应的内容。
所以我们使用词向量作为软提示的代理,
到达
词向量转换器。
然后转换词向量化器并
投影仪的投影仪集成到投影仪的初始化中。
此初始化将投影仪的预热训练从3epoch减少到2epoch。
投影仪可以以非常大的学习率快速收敛。
通过进一步的实验,我们发现投影仪可以使用正常学习率的五倍进行训练,而不会因参数数量较少而崩溃。
使用5倍学习率进行训练可以进一步将投影仪预热时间缩短至1代。
其他发现
投影仪准备很重要,但仅进行投影仪培训是不够的。特别是对于字幕任务,仅训练投影仪的效果比同时训练VPG的效果更差。
这意味着简单地训练投影仪将导致拟合不足,并且无法使其与训练数据完全一致。
22我们提出的方法
图7VPGTrans框架1第一阶段投影机预热2第二阶段整体微调
如图7所示,我们的方法分为两个步骤。
第一步首先,使用词向量变换器初始化新投影仪,将其与原始投影仪融合,然后以5倍的学习率对新投影仪进行一个epoch的训练。
第二步像平常一样直接训练VPG和投影仪。
3实验结果
31加速百分比
表1与在各种数据集上从头开始训练相比,VPGTrans的加速百分比。
如表1所示,我们在不同迁移类型的多种数据集上测试了VPGTrans的加速比。
VPGTrans对于给定数据集A的加速比是通过将A上达到效果a的训练轮数除以VPGTrans对A的效果超过a的最小训练轮数得到的。
例如,在OPT-27B上从头开始训练VPG需要10代才能在COCO字幕上获得结果,而将VPG从OPT-125M迁移到OPT-27B只需1代即可获得结果。加速率为10/1=10倍。
我们可以看到,VPGTrans在TaS或TaT场景下都可以实现可靠的加速。
32个有趣的发现
我们选择了一个更有趣的结果来说明。请参阅我们的论文以获得更多有趣的结果。
在TaS场景中,语言模型训练的VPG越小,迁移效率越高,最终的模型效果越好。参考表1,您将在OPT-13B中找到OPT
一、行业大模型与通用大模型区别?
。
工业大模型与常规大模型的主要区别在于训练数据和应用。通用大型模型通常在跨越多个知识领域的大型、多样化数据集上进行训练。因此,通用大型模型适用于多种任务和场景,可以应用于自然语言处理、计算机视觉、语音识别等多种领域。大规模行业模型关注特定行业的专业知识,训练数据主要来自该行业的相关数据。这使得行业大模型能够在特定领域拥有更高的专业知识,更好地理解和解决该领域的题。工业大模型主要针对特定行业的应用场景进行优化,例如金融风控、医疗诊断等。在现实应用中,通用大模型可以作为通用任务的解决方案,工业模型可以基于通用解决方案进行定制和优化。例如,在图像分类任务中,您可能会使用通用的大型模型来提取图像特征,然后使用工业模型来执行特定的分类。此外,一般大型模型的学习过程一般需要大量的计算资源和时间,但一旦学习完成,由于其高度的灵活性和泛化能力,可以广泛应用于各个领域。工业模型的训练过程需要较少的计算资源和时间,但其在其他领域的适用性相对较弱。总之,行业大模型和通用大模型各有其特点和优势,应根据具体的应用场景和需求来选择和使用。
淘宝上有很多店铺提供定制武器模型服务。XX商店是最好的商店之一。店内拥有丰富的经验和专业的团队,可以根据客户的需求精准生产各种武器型号,包括剑、枪、刀等。
他们提供高品质的工艺和一丝不苟的制作,让他们能够还原真实的武器细节,让模型看起来栩栩如生。
店内还提供定制服务,让顾客根据自己的喜好选择材质、尺寸和颜色,以满足不同的需求。我们相信我们的皇家定制武器模型一定能满足您的需求。
本篇文章主要为大家解了一些关于机械模型定做和简单实用的机械模型的这类话题,希望能得到大家的喜欢。
No Comment