LLM-GPT系列：GPT-1（201806）【1.17亿、5GB】、GPT-2（201902）【15亿、40GB】、GPT-3（202005）【1750亿、45TB】【OpenAI】

u013250861

已于 2023-07-28 11:19:07 修改

阅读量1k

收藏

点赞数

分类专栏： # LLM/经典模型文章标签： gpt-3

于 2023-02-24 20:55:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/u013250861/article/details/129208426

版权

LLM/经典模型专栏收录该内容

38 篇文章 23 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

GPT1：Imporoving Language Understanding By Generative Pre-training

GPT2：Lanuage Models Are Unsupervised Multitask Learners

GPT3：Language Models Are Few-shot Learners

GitHub：https://github.com/openai/gpt-3

从GPT三个版本的论文名也能看出各版本模型的重点：

GPT1：强调预训练
GPT2：强调Unsupervised Multitask就是说下游任务fintune的时候不用重新调整模型结构了
GPT3：强调Few-shot 就是连finetune都省了，巨大的参数空间，可以直接few-shot甚至zero-shot

前言

Generative Pre-trained Transformer（GPT）系列是由OpenAI提出的非常强大的预训练语言模型，这一系列的模型可以在非常复杂的NLP任务中取得非常惊艳的效果，例如文章生成，代码生成，机器翻译，Q&A等，而完成这些任务并不需要有监督学习进行模型微调。

了解本专栏

订阅专栏解锁全文

超级会员免费看

u013250861

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
LLM-GPT系列：GPT-1（201806）【1.17亿、5GB】、GPT-2（201902）【15亿、40GB】、GPT-3（202005）【1750亿、45TB】【OpenAI】

GPT1：Imporoving Language Understanding By Generative Pre-trainingGPT2：Lanuage Models Are Unsupervised Multitask LearnersGPT3：Language Models Are Few-shot LearnersGitHub：https://github.com/openai/gpt-3从GPT三个版本的论文名也能看出各版本模型的重点：ChatGPT一夜走红，它会成为下一代搜索引擎吗？[转] GP
复制链接

扫一扫

专栏目录

订阅专栏

CSDN认证博客专家 CSDN认证企业博客

3718: 原创

3453: 周排名

127: 总排名

439万+: 访问

: 等级

5万+: 积分

1万+: 粉丝

1万+: 获赞

495: 评论

2万+: 收藏

写文章

热门文章

Anaconda虚拟环境下更换python版本【不论升版本、降版本都使用conda install python命令】【注意：修改版本后原来使用pip安装的包会被删掉，无法使用】 75293
知识图谱-构建：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】 35230
huggingface使用（一）：AutoTokenizer（通用）、BertTokenizer（基于Bert） 34266
设置docker国内镜像源【国内镜像源大全】 31813
Python常用函数：os.getenv()【用途：获取环境变量键的值（存在），否则返回默认值】 25261

分类专栏

最新评论

数据关联规则：FpGrowth算法【FpTree】【通过构造一个树结构来压缩数据记录，使得挖掘频繁项集只需要扫描两次数据记录，而且该算法不需要生成候选集合，所以效率会比较高】
Twistzz.965: 是不是在求尿布的前缀路径构造的Fptree的有问题
VSCode：实现远程GUI，显示plt.plot，设置x11端口转发
键盘即钢琴: mobaxterm里面也有x服务器，连接远端后，在VSCode里面即可用
排序：指标集锦
weixin_46174832: 例如：假设有两个主题，主题1有4个相关网页，主题2有5个相关网页。某系统对于主题1检索出4个相关网页，其rank分别为1, 2, 4, 7；对于主题2检索出3个相关网页，其rank分别为1,3,5。对于主题1，平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2，平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。为什么对于主题2，平均准确率的分母是5呢，辛苦解答~
Megatron-LM：简单读读TransformerEngine（transformer_engine）
Wei_fan_1226: 您好博主，能请教一下您是如何安装transformer-engine么，我在按照https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/installation.html#installation-from-source 安装transformer-engine的过程中出现了building wheels的问题
NLP-Pytorch-项目流程-案例（一）：文本摘要【Seq2Seq（BiLSTM-LSTM）+ Attention】【预测算法：GreedySearch、BeamSearch】
小Rr: 您好，有完整的源码吗

大家在看

最大节点-题解 146
怎么确保一个集合不能被修改？
JavaScript第六讲：“数字，字符串”对象及练习题
AI学习指南数学工具篇-MATLAB中的凸优化工具 689
wafw00f一键检测目标防火墙信息（KALI工具系列十五） 256

最新文章

备用01备用01备用01备用01备用01备用01
备用01备用01备用01备用01备用01备用01
备用01备用01备用01备用01备用01备用01

目录

目录

分类专栏

LLM 付费 106篇

LLM/数据处理&Tokenizer 付费 41篇

LLM/Transformer 付费 40篇

LLM/预训练&SFT 付费 84篇

LLM/推理&评测付费 7篇

LLM/经典模型付费 38篇

LLM/RAG 付费 8篇

LLM/部署付费 34篇

Audio 付费 35篇

Audio/ASR 付费 24篇

Audio/预训练模型付费 10篇

VLM/多模态付费 27篇

VLM/图➜文付费 5篇

VLM/文➜图付费 8篇

机器学习/ML 付费 38篇

ML/经典模型付费 26篇

ML/聚类(无监督) 付费 11篇

异常检测（Abnomaly Detection）付费 16篇

知识图谱（Knowledge Graph）付费 77篇

图神经网络付费 39篇

数学分析 489篇

高等代数 81篇

概率论与数理统计 48篇

复变函数论 309篇

实变函数论 36篇

泛函分析 29篇

泛函分析讲义 98篇

常微分方程

偏微分方程

数字信息处理

基础理论 9篇

Loss/损失函数 20篇

AI/模型压缩 6篇

AI/模型训练 36篇

AI/模型调优 11篇

RL/强化学习 50篇

NLP/自然语言处理 32篇

NLP/词向量_预训练模型 27篇

Bert系列 27篇

NLP基础/分词 11篇

NLP基础/句法语义分析 25篇

NLP/文本匹配 10篇

NLP/IE-命名实体识别（NER） 29篇

NLP/语义分析(Text2SQL) 5篇

NLP/IE-关系分类 10篇

NLP/IE-“实体&关系”联合抽取 17篇

NLP应用/问答系统 6篇

NLP/机器翻译 8篇

NLP/文本分类 34篇

NLP/对话系统 22篇

NLP/文本摘要 19篇

NLP/第三方库 30篇

NLP应用/阅读理解 8篇

时间序列(Time Series) 20篇

AI/比赛 19篇

推荐系统/RS 35篇

RS/用户画像 5篇

RS/特征工程 6篇

RS/召回层 30篇

RS/排序层 22篇

RS/一般推荐(CF协同过滤系列) 27篇

RS/上下文推荐(FM因子分解系列) 18篇

RS/序列推荐 25篇

RS/基于知识图谱的推荐 11篇

计算机视觉/CV 41篇

CV/图片识别 10篇

CV/目标检测 1篇

CV/对比学习 4篇

CV/基于掩码的学习 2篇

CV经典模型 20篇

CV/生成模型 7篇

概率图模型 6篇

C/基础语法 11篇

C++/基础语法 14篇

C++/正则表达式 1篇

C++/std函数 4篇

C++/vector(动态数组) 17篇

C++/string(字符串) 18篇

C++/list(双向链表) 1篇

C++/map(字典、哈希表) 6篇

C++/stack(栈)&queue(队列) 3篇

C++/关键字 8篇

C++/符号&运算符 1篇

C++/头&源文件 11篇

C++/CMAKE 39篇

C++/命名空间（namespace） 2篇

C++/类、对象 4篇

C++/函数 2篇

C++/STL（标准模板库） 14篇

C++/Boost（“准”标准模板库） 2篇

C++/Poco(网络库) 4篇

C++/指针、引用 6篇

C++/安装、编译 12篇

C++/Web服务器 1篇

Linux/虚拟机 22篇

Linux/命令 19篇

Linux/系统编程 36篇

Linux/网络编程 32篇

Linux/TCP(网络协议) 5篇

图算法 32篇

项目管理 4篇

开发工具 32篇

IDE/JetBrains 3篇

IDE/VSCode 15篇

Matplotlib/Seaborn 3篇

数据分析 12篇

大数据 16篇

大数据/Hadoop 21篇

大数据/数据采集(Flume/dataX) 10篇

大数据/消息队列(Kafka) 10篇

大数据/离线数仓(Hive) 18篇

大数据/实时数仓(Kafka+Flink)

大数据/Spark 10篇

数据集 34篇

TensorFlow 29篇

Paddle/百度飞桨 3篇

人工智能 23篇

深度学习/DL 37篇

Java架构 41篇

Java/Scala 72篇

日常工具 16篇

概率论&数理统计&随机过程 14篇

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司西宁百度网站优化公司蚌埠网站建设设计报价飞来峡建网站公司松原网站优化按天扣费公司濮阳网站设计推荐梧州网站排名优化价格诸城优秀网站设计报价济宁百度网站优化报价木棉湾优秀网站设计甘孜外贸网站制作价格荆门网站优化软件报价飞来峡网站制作哪家好喀什网络广告推广价格平湖网站推广工具报价阜阳网站排名优化多少钱揭阳SEO按效果付费光明百姓网标王推广多少钱舟山关键词按天扣费价格济南网站优化推广哪家好东莞企业网站制作多少钱南宁百度爱采购价格清远百度网站优化价格上海外贸网站制作公司商丘建设网站报价钦州网站搜索优化石岩百姓网标王推广报价晋中百度竞价包年推广价格阜新网站建设价格亳州百度网站优化公司丽江建站推荐歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化