ChatGPT成本大降,人人可训练自己AI模型
4月12日,微软宣布开源DeepSpeed Chat。
它能支持任何人、任何企业以更低的成本、更快的速度训练与ChatGPT类似的高质量大模型,使得人人都能拥有自己的ChatGPT。
什么是DeepSpeed?
DeepSpeed 是一款易于使用的深度学习优化软件套件,可为深度学习训练和推理提供前所未有的规模和速度。
如何理解呢?
想象一下,你有一个非常大的难题想要解决,但是它太难太大,你自己无法完成。你需要你的朋友提供一些帮助。
DeepSpeed就像一个工具,可以帮助你和你的朋友一起解决这个难题。它可以:
把谜题切成小块,给你们每个人一块来做。这样一来,你们可以更快更容易地解开谜题。——即并行。让谜题碎片更轻、更简单,这样你就不必携带或记住太多的信息。这样,你可以节省一些能量和空间。——即压缩。检查你的进度,给你一些提示或反馈,告诉你如何提高你的解谜技巧。这样,你可以更好更快地学习。——即优化。
通过DeepSpeed,你和你的朋友可以比以前更快、更好地解开谜题。你还可以尝试更大更难的谜题。
而在DeepSpeed之前,这是做不到的。
更快:一顿午餐时间训练自己的ChatGPT
如果有大约 1-2 小时的咖啡或午餐休息时间,可以用 DeepSpeed-Chat 训练一个小型模型。
例如,微软为单个数据集准备了一个 13 亿参数模型的训练示例,以便在消费级 GPU 上测试DeepSpeed。当你从午餐休息回来时,模型已经准备好,可供使用。
训练13 亿参数的大模型所需时间
经过 DeepSpeed-Chat 训练,13 亿参数版本的ChatGPT在问答环节表现非常出色。 不仅能抓住问题的上下文,而且给出的答案也不错。
如果用9小时,你将拥有一个 660 亿参数的 ChatGPT 模型,功能更加强大。
训练660 亿参数的大模型所需时间
更省钱:无需$140万,$320就可训练自己的ChatGPT
训练不同模型所需时间和成本
DeepSpeed大大降低了成本。
据估算,GPT-3 训练一次的成本约为140 万美元,对于一些更大的LLM(大型语言模型),训练成本介于200 万~1200 万美元之间。
而根据测试,用DeepSpeed训练13 亿参数的ChatGPT,成本只需320美元(大约2200元), 训练660 亿参数的ChatGPT,成本为1920美元(13200元)。
如何使用?从一段代码开始
以下示例展示了如何使用一个脚本,生成一个130 亿参数的 类似ChatGPT 模型:
pipinstall deepspeed>=0.9.0gitclone https://github.com/microsoft/DeepSpeedExamples.gitcdDeepSpeedExamples/applications/DeepSpeed-Chat/pipinstall -r requirements.txtpythontrain.py --actor-model facebook/opt-13b --reward-model facebook/opt-350m --deployment-type single_node
更详细内容,可访问DeepSpeed官方文章。
中文版:DeepSpeed/README.md at master · microsoft/DeepSpeed · GitHub
相关文章:
《ChatGPT技术深度解析》
2018年,OpenAI开始开发GPT模型
2019年情人节,GPT-2 模型上线,训练费用为43000美元
2020年6月,GPT-3模型发布,使用了更全面的数据集训练
2022年11月,GPT-3.5模型发布。心智相当于9岁儿童。
2022年11月,OpenAI推出ChatGPT,上线5天后用户突破100万,两个月后用戶超过1亿。
2023年3月12日,ChatGPT-4发布
ai是什么意思?在线ai对话怎么实现?
ai什么意思?在线ai对话怎么实现?
AI软件成精了,用7万真人照训练,软件学会了把游戏NPC变活人
当科技进步,机器开始学会了自我学习这一个原本属于人类的技能时,一切就开始变得科幻色彩浓重起来了。有些AI学会了简单地和人沟通对话,有些则可以进行换脸,效果让人大