AIGC 语言大模型研究报告

AIGC 研究报告

这份报告可以被划分为两大部分。

  • 第一部分集中于ChatGPT的发展和运作原理,为了增强理解,我们将先探讨自然语言处理的历史发展。
  • 第二部分主要聚焦于由大模型引领的新的研究领域,并深入介绍在每个领域中可以进行的具体研究工作及思路。同时,将讨论作为一个学生,如何基于这些新领域快速产出高质量的论文成果。

一、chatgpt实现思路

chatgpt任务类型:自回归的文字接龙游戏
请添加图片描述
请添加图片描述
请添加图片描述

设想一下,如果你想训练一个可以和你对话的语言模型,你会分成哪几步?
开卷有益”阶段:让ChatGPT对海量互联网文本做单字接龙,以扩充模型的词汇量、语言知识、世界的信息与知识。使ChatGPT从“哑巴婴儿”变成“脑容量超级大的语言强者”。
模板规范”阶段:让ChatGPT对优质对话范例做单字接龙,以规范回答的对话模式和对话内容。使ChatGPT变成“懂规矩的博学语言强者”。
创意引导”阶段:让ChatGPT根据人类对它生成答案的好坏评分来调节模型。以引导它生成人类认可的创意回答。使ChatGPT变成“既懂规矩又会试探的博学强者”

chatgpt第一步:开卷有益

在这里插入图片描述

人类几十年的探索:如何让机器理解理解自然语言(如何用向量的方式来更好的表达自然语言呢?)

想要知道如何教会模型怎么说话的,我们需要了解下自然语言理解的发展历程。自然语言理解(Natural Language Understanding, NLU)的发展历程可以追溯到计算机科学的早期阶段,跨越了几十年的时间,其中发生了许多关键的技术转折和模型创新。以下是该领域发展的一些主要阶段:
1. 符号主义和规则系统(1950s-1980s)
自然语言理解最早是作为人工智能(AI)的一个子领域而存在的。在那个时期,自然语言处理(NLP)主要依赖于手工制定的规则和符号逻辑。这些规则可以使计算机“理解”语句的语法和语义,但是对于复杂、模糊或者语境相关的语言,这些系统往往不能很好地处理。

2. 统计方法和机器学习(1990s-2000s)
在这个阶段,随着计算能力的提升和大规模文本数据集的出现,NLP开始转向统计方法和机器学习。这种方法通过对大规模语料库的统计分析,预测单词、短语或句子的概率分布,使得自然语言处理的性能得到了显著提高。比如隐马尔科夫模型(HMM)、最大熵模型、条件随机场(CRF)等在词性标注、命名实体识别、句法分析等任务中得到了广泛应用。

3. 深度学习和词嵌入(2010s)
2010年代初,随着深度学习技术的崛起,自然语言处理领域出现了显著的变革。词嵌入模型如Word2Vec和GloVe的提出,实现了词汇语义的向量化表示,极大地推动了NLP领域的发展。另外,循环神经网络(RNN)和长短期记忆网络(LSTM)等模型的出现,使得模型可以处理序列数据,从而可以捕捉语言中的长距离依赖关系。

4. 预训练语言模型(2018s-现在)
自2018年起,预训练语言模型(Pretrained Language Models, PLMs)引领了NLP领域的新一轮革新。如OpenAI的GPT系列模型,Google的BERT、T5等模型,通过在大规模语料库上预训练,学习到丰富的语言知识,并通过迁移学习应用到各种下游任务,显著提升了NLP的性能。此外,Transformer架构也由于其高效的并行计算和自注意力(Self-Attention)机制,成为了预训练模型的核心组件。

从技术角度分析,我们可以将深度学习和大模型的发展历程分为探索阶段、历史转折、预训练阶段这三个阶段。

1.探索阶段

1.1 one-hot编码

我爱西电啦啦啦
计算词表:

编码:
我:[1,0,0,0,0]
爱:[0,1,0,0,0]
西:[0,0,1,0,0]
电:[0,0,0,1,0]
啦:[0,0,0,0,1]
啦:[0,0,0,0,1]
啦:[0,0,0,0,1]
存在问题:
语义关系无法表示
稀疏表示,对于词表大的,代价极大

1.2神经网络的编码方式

2010年代初,为了解决One-Hot编码的问题,研究人员提出了Word2Vec。
问题:
无法处理单词的多义性
缺乏对词序的处理
无法处理未出现过的单词(OOV问题)
需要大量的计算资源

在这里插入图片描述

1.3 RNN

为了表示词与词之间的序列关系。
问题:
长期依赖问题
梯度消失和梯度爆炸
无法并行计算
在这里插入图片描述

2.历史转折点:Transformer(语言大模型的基础)

2017年,Google推出Transformer,利用Attention完全替代过往深度学习中的循环网络和卷积网络结构,直白地展现出了“大一统模型”的野心,"Attention is ALL you need"也成了一个玩不烂的梗。
在这里插入图片描述

如何解决上面问题的:在Transformer模型中,embeding首先通过嵌入层得到词嵌入,然后通过位置编码添加位置信息,得到模型的输入表示。然后,这个输入表示被复制三份,分别通过三个不同的线性层得到查询、键和值。

在这里插入图片描述
这个公式的主要目的是进行缩放(Scaling)。这是因为当维度dk较大时,点积的结果可能会变得非常大,这样经过softmax函数后,得到的概率分布可能会非常陡峭,即大部分的概率集中在一个或几个元素上,这会导致梯度变小,影响模型的训练。而除以dk的平方根可以使点积的结果落在一个相对稳定的区域,使得概率分布更加平滑,有利于模型的训练。

在这里插入图片描述

3.预训练阶段:Encoder 、Decoder、Encoder-Decoder:Bert、GPT、T5

 图为预训练模型衍生出来的大模型

3.1 时间线

在这里插入图片描述

3.2 GPT1

(1)GPT1的设计思想

在CV里,pre-training + fine-tune的方式盛行已久:先用海量有标注的数据集,通过有监督的训练生成一个预训练模型,然后通过下游任务,在这个模型上做微调。但是在NLP中,这个方式一直很难做起来,原因是:

  • 缺乏大量标注好的文本数据集
  • 比起图像信息,文字的信息更难被模型理解

Transformer出世后,模型对文字上下文的理解能力得到显著增强,在这一铺垫下,GPT1诞生了,它的整体设计思路如下:

在这里插入图片描述

  • 阶段一、首先,用无标注的数据(可以理解为一段普通的文字)训练一个预训练模型。在这个环节里,我们培养模型文字接龙的能力,也就是给定前k个词,模型能预测出第k+1个词。(pre-training)。
  • 阶段二、然后,在模型能够理解文字含义的基础上,用有标注的数据训练模型去定向做一些下游任务。例如文本分类,文本相似性比较等。有标注的数据集是远小于无标注数据集的,在这个环节,我们只是对模型做了一些微小的调整。(fine-tuning)。
(2)GPT1:Pre-training

确定好了总体设计思想,接下来就是详细的技术实践了。GPT1的预训练模型基本遵循Transformer Decode部分的结构,去除掉和Encoder做cross-attention的部分,如下图:
在这里插入图片描述
观察Decoder和Encoder部分的Attention,可以发现:

  • Decoder部分采用Masked-Attention(有遮盖的注意力机制,每个词只能看到它的上文)
  • Encoder部分采用的是普通Attention(每个词可以同时看到上下文)
    在这里插入图片描述
    在这里插入图片描述
(3)GPT1:Fine-tune

有了一个预训练模型,我们就可以做fine-tune了。在这里,我们让模型做4种有监督的学习:

  • 分类(Classification):对本文进行分类。比如给定一段文字,判断表达了积极/消极情感。
  • 文本蕴含(Entailment):给定premise,判断这个premise是否支持一个hypothesis。例如:premise为“我在周六早上被闹钟闹醒,然后打开了电脑”,是否能够推出“一个打工人在周末起早来打工”?
  • 相似性(Similarity):给定两段文本,判断它们表示的意思是否相似。
  • 多选题(Multiple Choice):给定一段文本和若干个答案,判断正确答案。
    前文说过,在fine-tune阶段,我们希望能够尽量减少模型架构的改动,因此,论文中采用了如下方法,对这四种监督任务的输入输出做了统一:
    在这里插入图片描述
(4)Bert VS GPT1

GPT 使用的是 Transformer 的解码器结构,它是单向的,也就是说,每个词只能看到它之前的词。
BERT 使用的是 Transformer 的编码器结构,它是双向的,也就是说,每个词能够同时看到它前面和后面的词。

GPT 的预训练目标是语言建模,即预测下一个词是什么。
BERT 的预训练目标包括遮蔽语言建模(Masked Language Model, MLM)和下一句预测(Next Sentence Prediction, NSP)。MLM 任务是随机遮蔽输入中的一些词,然后预测这些被遮蔽的词。NSP 任务是预测给定的两个句子是否是连续的。

GPT 的优点是预训练和微调阶段的目标一致,都是语言建模,这使得预训练阶段学习的知识可以更好地迁移到下游任务。但它的缺点是由于只能使用左侧的上下文,因此对于一些需要理解全局上下文的任务,如问答、语义角色标注等,可能性能较差。
BERT 的优点是由于使用了双向的上下文,因此可以更好地理解语义和捕捉长距离依赖,对于各种任务都有很好的性能。但它的缺点是预训练和微调阶段的目标不一致,预训练阶段是预测被遮蔽的词,而微调阶段的任务通常不涉及这种预测,这可能会导致预训练阶段学习的知识不能完全迁移到下游任务。

GPT1的模型参数为L=12,H=768,A=12,这个设置和后来Bert-Base一模一样,但后者的效果要好上很多。原因之一是,GPT采用Masked-Attention,对模型和训练数据的要求会更高,因为模型能读到的信息只有上文。而采用普通Attention的Bert在训练阶段就能同时读到上下文。这个性质决定了GPT模型越来越大的趋势。但是,长远来看,Masked-Attention是push模型更好理解文字的重要手段,毕竟在现实中,我们更希望培养模型知上文补下文,而不是单纯地做完形填空。
在这里插入图片描述

3.3 zero-shot:GPT2(通用模型的开端)

Encoder VS Decoder,Bert VS GPT1,战火已经拉开,但是此时GPT1仍处在劣势。前面说过,基于Decoder的模型,模型和数据量越大,效果越好。但如果只做到这一点,从技术上来说又太逊色了,性价比也不高。因此,openAI从训练数据上进行改进,引入了zero-shot这一创新点,GPT2就诞生了。

GPT2的核心思想是:只要我的数据够多够好,只要我的模型够大够强。我可以直接去掉fine-tune,训练出一个通用的模型。

要了解这一点,我们先来看Zero-shot,One-shot和Few-shot的区别:

Zero-shot:在这种情况下,我们只给出任务描述和任务提示,不提供任何样例。例如:

  • 任务描述:回答问题。
  • 任务提示:“谁是美国的第一任总统?”

One-shot:在这种情况下,我们给出任务描述,一个样例,和任务提示。例如:

  • 任务描述:回答问题。
  • 样例:问:“谁是美国的第一任总统?” 答:“乔治·华盛顿。”
  • 任务提示:问:“谁写了《哈姆雷特》?”

Few-shot:在这种情况下,我们给出任务描述,若干个样例,和任务提示。例如:

  • 任务描述:回答问题。
  • 样例1:问:“谁是美国的第一任总统?” 答:"乔治·华盛顿。 "
  • 样例2:问:“谁写了《哈姆雷特》?” 答:“莎士比亚。”
  • 样例3:问:“谁发现了引力定律?” 答:“艾萨克·牛顿。”
  • 任务提示:问:“谁提出了相对论?”

GPT2希望通过喂给模型Zero-shot类型的样本,不告诉模型“做什么”,“怎么做”,让模型自己去体会。但是,你总不能让所有的数据都长成图例里Zero-shot那样吧,那和去标注数据有什么区别?所以,这时候,语言的魅力就来了。一段普通的文字里,可能已经蕴含了“任务描述”、“任务提示”和“答案”这些关键信息。比如,我想做英法文翻译这件事,那么我从网上爬取的资料里可能有这样的内容:
在这里插入图片描述

如果我把这样的文本喂给GPT,它是不是就能在学习文字接龙的过程里,领悟到英法互译这一点?如果我的数据集又多又棒,那GPT自主揣摩的能力是不是就能更强?

所以,GPT2在训练数据上,玩出了花样。它从著名的在线社区Reddit上爬取训练数据(数据具有一定的问答特性),并按社区用户的投票结果筛选出优质的内容。在这个方式下,训练出了1.5B的GPT2,效果基本与Bert差不多。从实用性的角度上,GPT2并没有带来突破,但是,zero-shot的训练方式,却有效证明了NLP领域训练出一个完全通用模型的可行性,这一刻开始,LLM走AIGC的路初见萌芽,因为整个训练流程看起来就像是模型自主学习知识。

3.3 大力出奇迹的奇迹:GPT3

Zero-shot的方式被GPT2认证可行后,openAI就不得不开始考虑模型是否能真正做到强大了,毕竟现在只是和Bert持平而已。这一刻openAI开始悟过来,既然LLM要一路走到底,既然模型之大避免不了,那不如来得更彻底一些。GPT3沿用了去除fine-tune,只做通用模型的思路,同时技术上小做替换(sparse Transformer),然后在训练数据中引入Few-shot(毕竟完全不给模型任何显性提示,效果确实没达到预期),最终生成了一个大小高达175B的庞然大物,当然效果也是一骑绝尘的。
在这里插入图片描述

简单总结:
1、GPT的核心思想是:在NLP领域做pre-traning + fine-tune的框架,解决现实中缺乏文本标注的问题。
2、GPT基于Tranformer Decoder,Bert基于Transformer Encoder。在训练阶段,GPT只能看见上文,Bert可以看见上下文。这也注定了GPT需要把模型做大,训练数据做丰富,才能达到超越Bert的效果。
3、从GPT2到GPT3,Zero-shot和Few-shot的方式被证明可以使得模型能够去除fine-tune部分,训练一个通用的语言模型。

chatgpt第二步:引导模型按照人类的意图(intention)说话(模板规范)

GPT3模型的有效性也自此让openAI在LLM实现AGI(Artificial General Intelligence)的方向坚定不移。GPT3是一个“词语接龙”类模型,即给定上文,它能写出make sense的下文,当然也能用来做各类问答。

此时,模型学会了说话。但它的回答可能并不令你满意,即没有对齐你的意图(aligin to your intention)。
例如:
你希望是“今天天气真不错,我在家里睡懒觉。”
你老板希望是“今天天气真不错,大家一起来加班。”
你老妈希望是“今天天气真不错,我娃必须去擦地。”
为了让模型对齐人类意图,人类将模型这三句话重新送入模型,做有监督的微调。
也就是利用高质量数据对模型再次训练
在这里插入图片描述

GPT3.5, 与GPT3原理基本一致,在训练数据上,引入codex数据集在GPT3上做微调,所以在chatGPT中,也能发现其具备对代码的解析能力。

GPT-SFT(Supervised Fine-Tuning on GPT), 基于GPT的有监督微调,则是这里要讲述的重点。回顾第一章,GPT3.5已经是一个文字接龙好手了,并且由于看过足够多的资料,它能保证基本的回答质量。但它仍不够惊艳,因为它只是按照所学回答问题,而在贴合人类意图上还有所欠缺,也就是,还不够“类人”。

解决这个问题的想法,暴力又简单,那就是标数据,让self-supervised模式训练出来的GPT,也经过supervised的微调,直接了当的告诉它,人类想要什么回答。openAI雇佣了40名标注人员,在SFT阶段共标注13k的(prompt, completion)对问答数据,其中prompt包含如下类型:

  • Plain:让标注人员不受约束,随意写一些问题
  • Few-shot: 让标注人员按照Instruction: (prompt, completion)的方式进行标注。例如:请做翻译:
    (薯条->French)
  • User-based:让标注人员从openAI
    API的请求列表用例中,找一些问题进行标注。例如Generation类-请对下文做总结,Branstorming类-请列出保持职业热情的5种方法等。

有了标注数据,我们就可以对GPT进行微调,在论文中,一组(prompt, completion)也被称为demonstration。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

chatgpt第三步:基于人类反馈的强化学习(RLHF)(创意引导)

对于同一个问题,不同人类的回答是不一样的。为了让模型得到一个让大部分人都满意的答案,我们再邀请一批人类,来对不同的回答进行排序/打分。然后,我们再训练一个“打分模型”,来学习人类的打分标准。
在这里插入图片描述

当GPT大概能朝着人类意图的方向走时,我们需要给他更量化的指标,让它知道同一个prompt下,不同回答在人类那里的排序。所以,我们要训练一个奖励模型(RM,Reward Model)。

奖励模型也不是chatGPT的首创,它借鉴于Stiennon et.al (2020)的研究结果。在这一阶段,标注人员需要对同一prompt的不同回答进行排序,一共有33k的标注数据被用于训练。

在标注阶段,标注人员被要求对每一个prompt下的不同回答进行偏号排序。如图,某个prompt下有ABC三个回答,标注人员认为A>B>C。

在这里插入图片描述
在这里插入图片描述

模型学会了怎么说话,同时我们又训练出了一个独立的奖励模型,这时候,我们就要把两者结合起来,让模型能够更好的对齐人类意图了。在这里,chatGPT使用改良版本的PPO(Schulman et al, 2017)对GPT进行再次训练,改良后的训练算法被称为PPO-ptx。为了更好回顾,我们再贴出第一部分的缩略版架构图:
在这里插入图片描述
不了解强化学习也没关系,我们直接从损失函数上来说明这一步到底是怎么做的:
在这里插入图片描述

总结

1、chatGPT的训练过程:

  1. 教模型说话,由上文产生下文(初始GPT3/GPT3.5)
  2. 引导模型感知人类的意图,根据人类的意图说话(Supervised Fine-Tuning on GPT3/GPT3.5)
  3. 对经过引导的模型的回答进行打分(Reward Model)
  4. 将打分结果返回给模型,让模型根据打分结果不断进行循环迭代(Reinforcement Learning from Human
    Feedback)

2、chatGPT是组装模型,从这一点上来说,它不是创新的。

3、精心设计的人工标注、雄厚财力支撑起来的训练资源、耐心地打磨等待和技术搬运、社会对非盈利组织的宽容等等不那么AI技术的原因,才是chatGPT从效果到口碑都起飞的主要原因。

大模型LLM领域,有哪些可以作为学术研究方向?

方向一:大模型的基础理论问题

  • 大模型学习内容的可解释性:虽然大模型表现出了强大的学习能力,但是它们学到了什么,这些知识是如何在模型中组织的,仍然是一个开放的问题。研究者可以探索构建新的工具和技术,以帮助理解模型学习到的知识。
  • .涌现现象的进一步探索:研究大模型中的涌现现象,探讨哪些能力或者模式是随着模型规模的增大而出现的,有哪些能力是大模型独有的。
  • 模型性能与规模的理论研究:进一步深入探讨模型性能随规模增长的边际递减情况,寻找理论依据和解决策略,从而找到更加有效、高效的模型设计和训练策略。之前别人研究过图像相关的,说数据集和模型参数想匹配时,模型参数和性能是呈现指数关系趋势。那么语言上也是值得研究的
  • 数据选择和组合:什么样的训练数据才是真正有效的呢?探索更有效的数据选择和组合策略。例如,研究如何使用迁移学习或者元学习来减少大模型的训练数据需求。(推荐指数:4星)
  • 训练策略:探索新的训练策略,特别是针对大模型的策略。例如,研究如何使用新的适合大模型的优化算法,或者探索模型的初始化和预训练策略。
    在这里插入图片描述

方向二:大模型的网络架构问题

  • 非欧空间Manifold网络框架:你可以进一步探索这个方向,研究如何将更复杂的几何先验知识整合到模型中,或者研究如何设计更高效的非欧空间Manifold网络结构。
  • 工程和物理学启发的模型:基于工程和物理学的启发,如State Space Model,动态系统,研究新的模型结构或者学习算法。例如,你可以研究如何将动态系统的理论应用到深度学习模型的设计中。
  • 神经科学启发的模型:从神经科学的角度出发,探索新的网络架构,例如Spiking Neural Network。你可以探索如何优化这类网络的性能,或者研究如何将这类网络应用到特定的任务中。
  • 超越Transformer的新型网络结构:你也可以直接从Transformer出发,研究新的改进策略或者替代模型。例如,你可以研究如何通过改进Transformer的注意力机制,或者设计新的网络层,来提高模型的性能。可以看看论文:fast-transfoemer,RWVK,结合了RNN,效果表现也不错,推理速度也更快。(推荐指数:3星)
    在这里插入图片描述

方向三:大模型的高效计算问题

大模型如GPT-3、LAMMA等经常拥有高达数千亿的参数,这使得训练和部署这些模型需要巨大的计算和存储资源。chatgpt光训练消耗1200万美元,用了10000张 V100训练了数个月。

  • 训练:优化训练算法:流水线并行策略、数据并行策略、张量并行策略。对这些进行组合调优,是非常有意义的,参考论文:DeepSpeed、Megatron-LM、OneFlow、fastSpeed等,它们都可以帮助提升模型的训练效率。fastSpeed甚至节省了上千倍的显存,速度也提升了上千倍。(推荐指数:2星)
  • 推理:提高推理效率:对于已经训练好的模型,我们需要在保持性能的同时进行模型压缩,如模型剪枝、知识蒸馏、参数量化等。近期研究发现,利用大模型的稀疏激活现象可以有效提升模型推理效率。参考论文:BMCook,它可以融合多种压缩技术,极大提高压缩比例。如何根据大模型特性自动实现压缩方法的组合,也是一个重要的研究方向。稀疏激活的利用:稀疏激活现象可以用来提高模型推理效率,基本思想是对神经元进行聚类分组,每次输入只调用少量神经元模块即可完成计算。这种方法叫做MoEfication。实验发现仅使用10%的前馈网络计算量,即可达到原模型约97%的效果。(刚刚出来的Scince文章,非常有意义,但是不推荐)
  • 微调:节约资源消耗:为了让大型模型更好地适应特定的下游任务,通常需要进行微调。然而,大型模型的微调往往需要大量的计算资源和存储空间,以处理庞大的参数量,这对于一般用户来说难以实现。但是,随着诸如lora和Qlora这样的技术的出现,我们现在能够在普通用户的计算机上进行大模型的微调训练,就像处理Bert模型那样。这一技术进步为大模型的微调开辟了新的可能,也构成了一个非常有意义的研究方向。**(推荐指数:3星)**参考论文:lora和Qlora,当基础模型规模增长到一定程度,不同参数高效微调方法的性能差距缩小,且性能与全参数微调基本相当。
    在这里插入图片描述

方向四:大模型的高效适配问题(推荐)

  • 提示学习(Prompt Learning):这是一种通过在输入中添加提示(Prompts)[1,2,3] 来将各种下游任务转化为预训练中的语言模型任务的方法。这种方法可以有效地统一各类下游任务和预训练-下游任务之间的形式,从而提高模型适配的效率。实际上,现在广泛使用的指令微调(Instruction
    Tuning)就是运用提示学习思想的一个具体实例。此外,关于如何设计问题以使模型得到更好的回答,一种可能的探索方向是引用auto-gpt的思想,让模型自我提问和回答,以找到改善性能的规律,这可能能够写个不错的文章。(推荐指数:4星)
  • 参数高效微调:目前,参数高效微调还没有获得像提示微调那样广泛的关注,而实际上参数高效微调更反映大模型独有特性。自己做个特定领域的大模型,换个名字就可以发论文了,如现在出来的面向法律领域的大模型、面向数学领域的大模型、面向医学领域的大模型等,真的是一天出好几个这样的,还有许多结合多模态进行微调的。(推荐指数:5颗星)

方向五:大模型的可控生成问题

现在学生能研究的其实也就提升学习、参数微调、思维链,更底层的研究参考如下(不推荐):

  • 更精细的控制:目前的控制精度主要在句子级别,比如通过改变输入的提示来改变生成的内容。但是,对于词语级别甚至语义级别的控制,例如,生成特定情感的文本、特定语境的对话等,还需要进一步研究。
  • 控制和生成的平衡:在实际应用中,我们希望模型能根据给定的控制信号生成符合预期的输出,同时保持生成的自然性和流畅性。然而,如何在控制精度和生成质量之间找到最佳平衡,是一个值得研究的问题。
  • 理解和控制模型的隐层表征:理解和控制模型的内部表征是另一个重要研究方向。通过对模型的中间层进行干预,可以实现更细粒度的控制。但这也涉及到对模型内部表征的理解,这是一个非常有挑战性的问题。
  • 评估方法:为了衡量不同控制策略的效果,我们需要一个科学有效的评估方法。但是,目前在可控生成领域,还缺乏一个通用且全面的评估框架。如何设计这样的评估方法,是一个值得研究的问题。
  • 不确定性的管理:在生成的过程中,模型可能会面临多种可能的输出。如何处理这种不确定性,例如,是否允许模型提出多个可能的输出,或者如何引导模型选择最符合预期的输出,也是一个研究方向。

方向六:大模型的安全伦理问题

  • 建立对抗攻击和防御机制:可以研究新的对抗攻击方法,并为大模型设计更有效的防御机制,包括如何在训练时加入鲁棒性约束,或是在推理时如何进行对抗样本检测和过滤
  • 深入理解和防止后门攻击:研究如何在大模型中检测和避免后门攻击。例如,可以研究如何发现模型中的异常行为,如何清除被植入的后门,或是如何在训练时避免后门的植入。
  • 伦理和道德对齐:如何确保模型的输出与人类的伦理道德相一致,例如,如何在模型中实现公平性和去偏见,或是如何保证模型的输出不会对特定群体产生伤害。
  • 研究模型的透明度和可解释性:为了让人们更好地理解模型的决策过程,可以研究如何提高模型的透明度和可解释性,例如,设计新的可解释性指标,或是开发可解释性的训练和推理方法。
  • 开发新的模型监管和评估框架:鉴于大模型可能存在的各种潜在问题,可以研究如何构建一个有效的模型监管和评估框架,以实现模型的可持续和可控使用。
  • 模型使用的社会影响:对于模型的实际使用,可以深入研究其对社会的影响,例如,模型是否可能加剧信息不对称,是否可能被用于不正当用途,以及如何制定相关的法律和政策来规范模型的使用。
  • 黑盒模型的下游适配:面对仅提供推理API的大模型,如何在保证模型安全和知识产权的同时,进行有效的下游适配,能否开发出新的适配方法,这是一个重要的研究方向。

方向七:大模型的认知学习问题

(未来十年,这个课题方向将会很火,很有意义,新工业革命的开始)

  • 工具学习与工具使用:研究大模型如何学习使用各种专业工具,如何把这些工具融合到模型的解决方案中,以及如何设计工具使得它们能够与大模型更好地互动。参考:chatgpt的插件 (推荐指数:4颗星)
  • 多模型交互:如何设计和实现多个大模型之间的交互,这些模型可以相互协作、相互竞争,或者以其他方式相互影响。这涉及到模型之间如何通信,如何分配任务,以及如何进行协同决策等问题。参考:auto-gpt (推荐指数:4颗星)
  • 模型与环境的交互:研究大模型如何理解和操控它们所处的环境,例如虚拟环境或物理环境。这包括模型如何获取环境信息,如何对环境进行操作,以及如何处理环境的反馈等问题。(推荐指数:3颗星)
  • 模型的自主性与创新能力:研究大模型如何在解决任务时展现更多的自主性和创新能力,例如,如何设计新的训练方法和目标函数使模型能够更好地进行探索和创新,或者如何在模型中引入新的推理和学习机制。(推荐指数:3颗星)
  • 复杂任务的拆解与解决:研究大模型如何理解复杂任务,并将其拆解为一系列更简单的子任务。这涉及到任务理解,任务规划,子任务调度,以及子任务间的依赖关系处理等问题。
  • 模型的社会属性:如您所述,模型扮演的角色在虚拟环境中展现出一定的社会属性,这会涉及到模型的社会交互能力、群体决策能力、以及对社会规则和文化习俗的理解等问题。
  • 模型助理团队的构建与协调:研究如何构建一个由多个大模型组成的助理团队,以及如何协调这些模型以有效地解决复杂问题。

方向八:大模型的创新应用问题

  • 跨领域的预训练模型:在已有领域(如法律、生物医学)之外,可以尝试在其他专业领域(如金融、物理、建筑设计等)进行领域特定的预训练,制造出能够理解该领域复杂问题的专业模型。预训练数据集的构建和领域知识的注入将是重要的步骤。(推荐指数:5颗星)
  • 数字生命和虚拟现实(VR):借助于大模型,可以设计更自然、更智能的虚拟人物或者虚拟助手,为用户提供更加沉浸式的体验。(推荐指数:4颗星)
  • 生物医学:在生物医学领域,已有的预训练模型如KV-PLM已经表现出了很好的效果。未来,我们可以探索的方向包括用预训练模型来理解更复杂的生物过程,如细胞信号传导、遗传网络等。或者更进一步,模型可以在分子层面预测药物与靶点的互动,以帮助药物设计和开发。(推荐指数:4颗星)
  • 基于知识库或互联网的智能检索:读取知识库、拆分段落、生成嵌入向量、存储嵌入向量、相似度匹配、提取知识、生成回答。每一个步骤都值得深入研究。(推荐指数:5星)
  • 大模型记忆研究:BufferMemory:这是一种最直接的方式,将之前的对话完整存储下来。在每一轮新的对话中,都会将原来的所有对话传递给LLM。BufferWindowMemory:这种方式会将最近的K组对话存储下来,在每一轮新的对话中将这K组对话传递给LLM。VectorStore-backed Memory:这种方式会将所有之前的对话通过向量的方式存储到VectorDB(向量数据库)中,在每一轮新的对话中,会根据用户的输入信息,匹配向量数据库中最相似的K组对话。ConversionMemory:这种方式是在对话进行时对对话信息进行摘要,并将当前摘要存储在内存中。然后在新一轮对话中,可以将此摘要作为短期记忆传递给LLM。这种方式对于较长的对话非常有用,因为它是相当于压缩了历史的对话信息。(推荐指数:5颗星) 上面的这四种远远满足不了需求,需要加快研究步伐了。
    在这里插入图片描述

方向九:大模型的数据和评估问题

  • 评估指标研究:这在ChatGPT出现前就已经是重要的命题,像GLUE、SuperGLUE等评价集合都深远地影响了预训练模型的发展。通过逐层汇集模型在不同指标、数据集、任务和能力上的得分系统地评估模型在不同方面的表现。这种基于自动匹配答案评测的方式是大模型和生成式AI兴起前自然语言处理领域主要的评测方式,优点在于评价标准固定、评测速度快。而对于生成式AI,模型倾向于生成发散性强、长度较长的内容,使用自动化评测指标很难对生成内容的多样性、创造力进行评估,于是带来了新的挑战与研究机会。
    评价方法的研究
    自动评价法:很多研究者提出了新的自动化评估方式,譬如通过选择题的形式[5],收集人类从小学到大学的考试题以及金融、法律等专业考试题目,让大模型直接阅读选项给出回答从而能够自动评测,这种方式比较适合评测大模型在知识储备、逻辑推理、语义理解等维度的能力。
    模型评价法:也有研究者提出使用更加强大的大模型来做裁判[6]。譬如直接给GPT4等模型原始问题和两个模型的回答,通过编写提示词让GPT4扮演打分裁判,给两个模型的回答进行打分。这种方式会存在一些问题,譬如效果受限于裁判模型的能力,裁判模型会偏向于给某个位置的模型打高分等,但优势在于能够自动执行,不需要评测人员,对于模型能力的评判可以提供一定程度的参考。
    人工评价法:人工评测是目前来看更加可信的方法,然而因为生成内容的多样性,如何设计合理的评价体系、对齐不同知识水平的标注人员的认知也成为了新的问题。目前国内外研究机构都推出了大模型能力的“竞技场”,要求用户对于相同问题不同模型的回答给出盲评。这里面也有很多有意思的问题,譬如在评测过程中,是否可以设计自动化的指标给标注人员提供辅助?一个问题的回答是否可以从不同的维度给出打分?如何从网络众测员中选出相对比较靠谱的答案?这些问题都值得实践与探索。

大模型的开源几乎天天都在进行,总有一天人人都能在自己电脑部署一个类似chatgpt4性能的大模型
在这里插入图片描述

方向十:大模型的易用性问题

  • 构建易用性的大模型生态:让大模型飞入千家万户”的目标形成一套覆盖训练、微调、压缩、推理、应用的全流程高效计算工具体系。目前包括 高效训练工具 BMTrain、高效压缩工具 BMCook、低成本推理工具 BMInf、工具学习引擎 BMTools,等等。大模型不仅要自身性能好,还要有强大工具体系让它好用。如Wenda、Deepspeed、 OpenBMB。(开发人员必须要研究的)

参考

微信公众号:大猿板砖简记(感谢大佬写的那么详细)
刘知远教授:大模型LLM领域,有哪些可以作为学术研究方向?

WX_ygg17634504536
关注 关注
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
AIGC」如何理解大语言模型
AIGC大前端小王子
04-30 1158
Transformer模型是一种基于自注意力机制的架构,由Vaswani等人在2017年的论文《Attention Is All You Need》中首次提出。它主要用于处理序列到序列的任务,如机器翻译、文本摘要等。案例:机器翻译假设我们想将英文句子 “The quick brown fox” 翻译成法语。在传统的序列到序列模型中,这通常涉及到编码器-解码器架构。Transformer模型首先将句子中的每个单词转换为嵌入向量,然后通过多头自注意力机制来处理这些向量,允许模型同时关注句子中的所有单词。
AI模型市场研究报告.zip
08-30
基于GPT技术:ChatGPT是基于著名的语言模型GPT(Generative Pre-training Transformer)技术开发的,GPT技术可以让ChatGPT具有更强的语言理解和生成能力,从而实现更加自然、流畅的对话效果。 可扩展性强:ChatGPT...
中国AI模型发展白皮书研究报告
04-23
内容概要:本文旨在撰写一份中国AI模型发展白皮书研究报告,重点探讨中国在AI模型领域的发展现状和未来发展趋势。 适用人群:所有对中国AI技术和市场发展感兴趣的用户和投资者。 使用场景及目标:为用户提供准确的市场预测和战略规划,以便更好地把握AI模型领域的机遇。在以下场景中可以应用本报告: 对于AI技术开发者,可以根据本报告的分析,了解AI模型产业的未来趋势和发展重点,从而更好地进行技术创新和商业模式创新。 对于投资者,可以参考本报告的预测结果,制定相应的投资策略和风险控制方案,以获得更高的收益和回报。 其他说明:本报告主要涵盖以下内容: AI模型技术的发展历程和现状,以及未来的发展趋势和瓶颈。 中国AI模型产业链的现状和未来发展趋势,包括数据集、算力、算法、应用场景等方面。 中国AI模型在各个领域的应用情况和市场规模,如自然语言处理、计算机视觉、智能交互等。 AI模型产业链中的重要角色和关键技术,包括芯片、算法、软件等。 未来中国AI模型行业的竞争格局和趋势,以及相应的投资建议和风险预警。
【精华】AIGC之大语言模型及实践应用
LeeZhao的博客
04-13 1349
AIGC之大语言模型研究进展
AIGC】大语言模型
qq_27070223的博客
02-16 2302
数据方面,从少量标注数据、大量标注数据、海量非标注数据+少量标注数据到海量非标注数据,越来越多数据被利用起来,人的介入越来越少,未来会有更多文本数据、更多其它形态的数据被用起来,更远的未来是任何我们能见到的电子数据,都应该让机器自己从中学到知识或能力。算法方面,表达能力越来越强,规模越来越大,自主学习能力越来越强,从专用向通用,沿着这个趋势往后,未来Transformer预计够用,同时也需要替代Transformer的新型模型,逐步迈向通用人工智能
AIGC|AGI通识详细解读,一文读懂大语言模型
在数字化道路无限探索
08-15 784
AGI时代步步紧逼,还不跟紧步伐吗?
开启报名 | 2022大模型研究前沿报告会,27个顶级报告,热点研究问题全覆盖
BAAIBeijing的博客
09-16 219
为深入挖掘预训练模型的应用价值,推动预训练前沿技术的创新进步,北京智源人工智能研究院在2021年9月发起成立“悟道科研基金”,面向国内高校和研究机构征集科研项目。经过一系列的评审和筛选,最终在2022年年初选出30个预训练相关的基金项目进行为期一年的支持。目前,项目周期已经过半,智源研究院准备举办2022大模型研究前沿报告会暨悟道科研基金中期报告会,于9月17-18日线上召开,邀请科研基金的申请人...
语言模型综合评测报告2023.pdf
11-06
专业研究机构研究人工智能相关发展报告,GPT相关发展报告AIGC相关发展报告人工智能行业学生,程序员,产品经理,从业者等多个职位人员需要 适合了解,研究,调研,学习等多项用途。
2023中国AIGC市场研究报告.zip
08-30
基于GPT技术:ChatGPT是基于著名的语言模型GPT(Generative Pre-training Transformer)技术开发的,GPT技术可以让ChatGPT具有更强的语言理解和生成能力,从而实现更加自然、流畅的对话效果。 可扩展性强:ChatGPT...
华为AI盘古大模型研究框架.zip
04-23
基于GPT技术:ChatGPT是基于著名的语言模型GPT(Generative Pre-training Transformer)技术开发的,GPT技术可以让ChatGPT具有更强的语言理解和生成能力,从而实现更加自然、流畅的对话效果。 可扩展性强:ChatGPT...
人工智能AI AIGC 之大语言模型训练技术及系统综述
人工智能讲师分享前沿技术
11-29 319
模型并行:在模型并行中,模型的内存使用和计算被分布到多个工作者之间。为了抵消这些影响并降低大型神经网络的训练时间,并行工作(Chen等人,2016)将数据并行与激活检查点相结合:在反向传播中重新计算激活,而不在前向传播中存储它们,以减少内存需求。这种方法需要额外的逻辑来处理这些通信和计算操作的有效流水线化,并且存在会降低效率的流水线泡沫,或者会影响准确性的优化器本身的更改。这些并行化技术可以根据模型的大小、任务的性质以及可用的计算资源来选择和组合,以提高深度学习训练和推理的效率和性能。
AIGC:大语言模型开放平台OpenLLM简介(提供简易的模型部署体验)
GIS摆渡人
07-05 2295
该项目旨在为各种大语言模型(LLM)在生产环境中的部署和可观测性提供一个标准的解决方案,用最简单直接的方式把大语言模型(LLM)部署到云端或本地,并且可以放心地用于生产环境中,此外还提供了进一步的能力来让用户更加方便地基于大语言模型(LLM)构建更强大的 AI 应用。OpenLLM是一个用于在生产环境中操作大型语言模型(LLM)的开放平台,它可以轻松地微调、服务、部署和监控任何LLM。
2023 巅峰之作 | AIGC、AGI、GhatGPT、人工智能语言模型的崛起与挑战
热门推荐
程序边界
12-13 1万+
这是一本讲解以ChatGPT/GPT-4为代表的大模型如何为软件研发全生命周期赋能的实战性著作。它以软件研发全生命周期为主线,详细讲解了ChatGPT/GPT-4在软件产品的需求分析、架构设计、技术栈选择、高层设计、数据库设计、UI/UX 设计、后端应用开发、Web 前端开发、软件测试、系统运维、技术管理等各个环节的应用场景和方法。让读者深刻地感受到,ChatGPT/GPT-4在革新传统软件工程的方式和方法的同时,还带来了研发效率和研发质量的大幅度提升。
“大模型”初步调研报告
m0_60500450的博客
11-06 257
在“大数据+大算力+强算法”的加持下,AI模型实现了“暴力美学”,通过“提示+指令微调+人类反馈”方式,可以实现一个模型完成多种不同的任务,展现出令世人惊艳的自然语言生成能力和通用性,具备了跨学科、多场景、多用途的处理能力,支持多轮对话、语言翻译、信息检索、程序设计、诗词创作、数据分析等一系列功能,在部分应用上甚至已经媲美人类专家。从开始的“监督学习+各自为政”,到“预训练模型+任务微调”,再到如今的“预训练大模型+提示生成”,经历了从专用到通用,从小数据到大数据,从小模型到大模型的发展历程。
一文搞懂ChatGPT相关概念和区别:GPT、大模型AIGC、LLM、Transformer、羊驼、LangChain…..
人工智能讲师分享前沿技术
05-22 7080
同样,"man" 和 "woman" 的词向量也会非常接近,因为他们都代表性别。Diffusion算法针对任意噪声图片去噪后得到的图片是不可控的,如果让Diffusion算法能够接受文字的提示从而生成想要的图片,这就是当下AIGC的另一个大热点,AI绘画:只输入文字描述,即可自动生成各种图像,其核心算法-Stable Diffusion,就是上面提到的文字到图片的多模态算法CLIP和图像生成算法DIffusion的结合体,CLIP就是作为作为文字提示用的,进而对DIffusion施加影响生成所需的图片。
『保姆级』大模型教程来了(从入门到实战)
2301_76168381的博客
04-01 1575
在大模型的构建之下,AI自动化交互,将会决定世界的未来,谁的大模型更强大,将决定在遥远的未来的话语权,同时,大模型会成为AI基础设施。AI模型,正在构建的颠覆力,为了更好的入局AI模型,🔻 针对ChatGLM大模型,介绍ChatGLM模型微调。🔻 大模型的定义和特点,如预训练、微调、指令学习等。🔻 05 精读大模型-3论文、Instruct论文。🔻 04 GLM-130B训练营——论文泛读。🔻 05 GLM-130B训练营——论文精读。🔻 08 Alpaca训练营——论文精读。
各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)
zephyr_wang的博客
04-14 7403
ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等
AIGC模型之——以文生图介绍
yamgyutou的博客
06-05 1万+
二是种子(作用是生成噪声图),固定的种子和固定的分辦率生成的噪声图是固定的,模型以这个为基础进行图片生成。(4)专业设计:将AI作画与专业领域的知识相结合,如3D建模、医疗、工业设计、建筑设计、教育等,先由Al根据提示制作粗略的草图,再由专业人员完成后续工作。(2)广告创意:快速生成各种类型的广告和宜传素材,也可以根据用户的需求生成个性化的广告,缩短制作成本和时间。(2)图像定制:用户可以选择不用的颜色,字体,背景,作画风格等,定制自己喜欢的图像。,一个完全开源的模型( 代码,数据,模型全部开源)。
AIGC(Gemma,vivo)大模型研究
最新发布
06-01
AIGC(Gemma,vivo)是一个基于深度学习自然语言处理模型,由中国科学院自动化研究所和vivo联合研发。该模型采用了全新的模型架构和训练方法,在多项中英文自然语言处理任务中取得了领先的性能。该模型具有超过100亿个参数,可以实现更加准确和自然的对话、文本生成等任务,为人机交互和智能客服等领域提供了强有力的支撑。 该模型研究涉及了深度学习自然语言处理、计算机视觉等多个领域,同时也借鉴了一些神经科学的知识。在模型训练上,研究团队采用了一种基于控制变量法的训练方法,通过对各个变量进行控制,最大程度地提升了模型的性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 机器学习实用代码汇总(你想要的这里都有) 11326
  • AIGC 语言大模型研究报告 1208
  • 算法面经汇总 533

分类专栏

  • 机器学习实用代码系列 1篇
  • 考研数学思想总结
  • 个人日记
  • 每日英语写作

最新评论

  • 机器学习实用代码汇总(你想要的这里都有)

    qq_41610997: 数据集可以共享一下吗,谢谢

  • 机器学习实用代码汇总(你想要的这里都有)

    m0_53770474: 可以私信一下吗

  • 机器学习实用代码汇总(你想要的这里都有)

    小张哈: 俺也想要 可以发一下嘛 谢谢您

  • 机器学习实用代码汇总(你想要的这里都有)

    m0_57080533: 作者您好,数据集可以分享一下吗

  • 机器学习实用代码汇总(你想要的这里都有)

    Little_Uncle: 俺也想要

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 算法面经汇总
  • 机器学习实用代码汇总(你想要的这里都有)
2023年2篇
2022年1篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

WX_ygg17634504536

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳SEO优化公司益阳关键词按天收费报价吉祥模板制作推荐喀什关键词按天计费报价武威网站推广工具多少钱盐城百度网站优化排名价格娄底网站排名优化报价白山建网站多少钱楚雄网站设计模板公司通化关键词按天扣费价格石家庄SEO按效果付费多少钱横岗seo网站优化报价丹竹头网络营销推荐安顺网站搜索优化报价潮州网络营销哪家好本溪网站定制推荐湖州网站推广方案公司莆田网站优化软件推荐厦门SEO按天计费多少钱四平网站建设哪家好丽水外贸网站建设报价安庆seo网站优化多少钱深圳网站优化推广公司内江网站开发公司永湖百度爱采购多少钱衡阳品牌网站设计推荐郑州网站改版价格果洛网站设计模板推荐重庆网站制作设计哪家好潮州百度竞价公司株洲关键词排名推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化