最简单、最快的培训/优化中型GPT的存储库。这是对minGPT的重写,它将牙齿置于教育之上。仍在积极开发中,但目前Train.py文件在OpenWebText上重现GPT-2(124M),在单个8XA100 40 GB节点上运行,大约需要4天的培训。代码本身简单易读:Train.py是一个大约300行的样板训练循环,而Model.py是一个大约300行的GPT模型定义,它可以选择性地从OpenAI加载GPT-2权重。就这样。
相关导航
暂无评论...
最简单、最快的培训/优化中型GPT的存储库。这是对minGPT的重写,它将牙齿置于教育之上。仍在积极开发中,但目前Train.py文件在OpenWebText上重现GPT-2(124M),在单个8XA100 40 GB节点上运行,大约需要4天的培训。代码本身简单易读:Train.py是一个大约300行的样板训练循环,而Model.py是一个大约300行的GPT模型定义,它可以选择性地从OpenAI加载GPT-2权重。就这样。