AI大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的2倍
原标题:AI 大模型的语言不平等:英语训练费用最便宜,汉语训练费用是英语的 2 倍
近日,X(原 Twitter)用户@Dylan Patel 展示了一份来自牛津大学的研究:通过对 GPT-4 和大多数其他常见 LLM 的语言进行研究,研究发现 LLM(大语言模型)推理的成本差异很大。
其中英语输入和输出要比其他语言便宜得多,简体中文的成本大约是英语的 2 倍,西班牙语的成本是英语的 1.5 倍,而缅甸掸语则是英语的 15 倍。
究其原理,可以追溯到今年 5 月份牛津大学在 arXiv 上刊印的一篇的论文。
词元是将自然语言文本转换成词元(token)序列的过程,是语言模型处理文本的第一步。在 LLM 计算力成本的核算中,词元越多,耗费计算力的成本越高。
毫无疑问,在生成式 AI 商业化的趋势下,计算力的耗费成本也会嫁接给用户,当下许多 AI 服务也正是按照需要处理的词元数量来计费。
论文显示,研究者通过分析 17 种词元化方法后,发现同一文本被转换成不同语言词元序列时长度差异巨大,即使是宣称支持多语言的词元化方法,也无法做到词元序列长度完全公平。
例如,根据 OpenAI 的 GPT3 tokenizer,倘若给「你的爱意」词元化,英语只需两个词元,而在简体中文中则需要八个词元。即使简体中文文本只有 4 个字符,而英文文本有 14 个字符。
从 X 用户 @Dylan Patel 曝光的图片也可以直观看到,让 LLM 处理一句英语需要 17 个词元(tokens),而让 LLM 处理同样意思的一句缅语,则需要 198 个词元(tokens)。这意味着缅语的处理成本将达到英语的 11 倍。
类似的情况也有很多,Aleksandar Petrov 的网站中提供了许多相关的图标和数据,感兴趣的朋友不妨点击「https://aleksandarpetrov.github.io/tokenization-fairness/」进去查看语言之间的差异。
在 OpenAI 的官网上也有着类似的页面,解释了 API 是如何对一段文本进行词元化,以及显示该文本的词元总数。官网也提到,一个词元通常对应英语文本的约 4 个字符,100 个词元约等于 75 个单词。
得益于英语词元序列长度短的优势,在生成式人工智能预训练的成本效益方面,英语可谓是最大赢家,将其他语言使用者远远地甩在身后,间接产生了一种不公平的局面。
除此之外,这种词元序列长度的差异也会导致处理延迟不公平(某些语言处理同样内容需要更多时间)和长序列依赖性建模不公平(部分语言只能处理更短的文本)。
简单点理解,就是某些语言的用户需要支付更高的成本,承受更大的延迟,获得更差的性能,从而降低了他们公平地访问语言技术的机会,也就间接导致了英语使用者和世界其他语言使用之间形成了 AI 鸿沟。
仅从输出的成本来看,简体中文的成本是英语的两倍。伴随着 AI 领域的深层次发展,总是「差一步」的简体中文显然并不友好。在成本等各方面叠加因素的权衡下,非英语母语的国家也纷纷尝试开发自己的母语语言大模型。
以中国为例,作为国内最早一批探索 AI 的巨头,2023 年 3 月 20 日,百度正式上线生成式 AI 文心一言。
随后阿里巴巴的通义千问大模型、华为的盘古大模型等一批批优秀大模型也陆续涌现出来。
在这当中,华为盘古大模型中的 NLP 大模型更是行业内首个千亿参数中文大模型,拥有 1100 亿密集参数,经过 40TB 的海量数据训练而成。
正如联合国常务副秘书长阿米娜·穆罕默德曾经在联合国大会上警告说,如果国际社会不采取果断行动,数字鸿沟将成为「不平等的新面孔」。
同理,伴随着生成式 AI 的狂飙突进,AI 鸿沟也很有可能成为新一轮值得关注的「不平等的新面孔」。
所幸的是,平时「惨遭嫌弃」的国内的科技巨头已然采取了行动。
企名片科技APP是企名片科技旗下一款科技快讯、企业百科APP,接入Newdata全球企业数据库,同步科技创新企业每日动态,让用户洞察行业,先人一步。
人工智能公司探索先进计算机技术,解决面部识别或语言翻译等问题。 ChatGPT是美国人工智能研究实验室OpenAI新推出的一种人工智能技术驱动的自然语言处理工具,使用了Transformer神经网络架构,也是GPT-3.5架构,这是一种用于处理序列数据的模型,拥有语言理解和文本生成能力,尤其是它会通过连接大量的语料库来训练模型,这些语料库包含了真实世界中的对话,使得ChatGPT具备上知天文下知地理,还能根据聊天的上下文进行互动的能力,做到与真正人类几乎无异的聊天场景进行交流。ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。
智能语音技术提供商,专业从事智能语音及语言技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成,产品涵盖语音引擎、行业应用、教育产品、手机应用、互动音乐等多个领域。
一家专注于计算机视觉和深度学习原创技术的创业公司。商汤科技拥有深厚的学术积累,并长期投入于原创技术研究,不断增强行业领先的全栈式人工智能能力,涵盖感知智能、决策智能、智能内容生成和智能内容增强等关键技术领域,同时包含AI芯片、AI传感器及AI算力基础设施在内的关键能力。此外,商汤前瞻性打造新型人工智能基础设施——SenseCore商汤AI大装置,打通算力、算法和平台,大幅降低人工智能生产要素价格,实现高效率、低成本、规模化的AI创新和落地,进而打通商业价值闭环,解决长尾应用问题,推动人工智能进入工业化发展阶段。商汤科技业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块,相关产品与解决方案深受客户与合作伙伴好评。
一家利用人工智能检查语法的软件,这家创企利用人工智能技术在用户拼写错误的单词和词组下划线,功能类似于微软Word的纠错功能。除了纠错外,该公司表示它们还会为用户定制专属他们的写作用词和语气。
史上star增长最快的开源创业公司,专注于NLP技术,拥有大型的开源社区。尤其是在github上开源的自然语言处理,预训练模型库 Transformers,已被下载超过一百万次,github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的预训练语言模型结构的模型和调用框架。
前身为微软小冰团队。目前,小冰框架是全球承载交互量最大的完备人工智能框架之一,技术覆盖自然语言处理、计算机语音、计算机视觉及人工智能内容生成。其中,在开放域对话、多模态交互、超级自然语音、神经网络渲染及内容生成等领域居于全球领先。
自主品牌全球化APP应用软件提供商,软件产品包括Windows、Mac OS X、iOS、Android等诸多平台系统上的影音分享、高效办公、数据安全三大系列,硬件产品是物联网家居安全产品系列。
人工智能安全和研究公司,致力于构建可靠、可解释和可操纵的人工智能系统。在寻求开发生成式人工智能,这些复杂的计算机程序可以在几秒钟内编写脚本和创作艺术作品。Anthropic Inc.开发了一款名为Claude的智能聊天机器人,但尚未公开发布。
成立于2019年,是一个自然语言处理平台,用于构建能够理解世界并使所有人安全访问的机器。开发人员可以使用该公司创建的自然语言处理软件为企业构建人工智能应用程序,包括聊天机器人工具和其他可以理解人类语音和文本的功能。
企名片企业百科|10家最值得关注的AI大模型企业
2. LoRA 角色模型训练:
? YouTube 频道 @Bernard Maltais
? https://youtube.com/watch?v=N4_-fB62Hwk&t=338s
✨ 推荐理由:Kohya 训练脚本的作者,上下两集共90分钟讲解了 Lora 模型的训练,从数据集收集到处理到训练参数。建议这种教程能看开发者做的就看开发者做的,很多追热点的 up 经常为了图快没玩明白就出攻略,我跟着很多油管的教程操作,常被带进坑里……
3. 微调风格模型训练:
? Twitter @Nitrosocke
? https://github.com/nitrosocke/dreambooth-training-guide
✨ 推荐理由:Nitro 训练过很多非常棒的模型,他的 GitHub 页面有详细讲风格模型怎么训练的教程。他自己本身是设计师出身,在去年年底微调了几个很厉害的风格模型后,现在被 StabilityAI 挖走了。
4. ControlNet 插件研发用户推荐
? Twitter @toyxyz
? https://toyxyz.gumroad.com/
如何用AI工具训练自己的模型
总结一下我自己在做模型训练时关注到的一些很喜欢的AI前沿探索者,以及工具和资源。