ChatGPT热或在降温,但一个重要的新行业正在形成参考消息2023-09-2916:59参考消息2023-09-2916:59
参考消息网9月29日报道英国《经济学人》周刊网站9月21日发表题为《ChatGPT热或在降温,但一个重要的新行业正在形成》的文章。文章认为,一个以超强劲的人工智能模型为核心的全新产业正在形成。编译如下:
第一波有关生成式人工智能的兴奋情绪无与伦比。在2022年11月上线后的两个月内,聊天生成预训练转换器(ChatGPT)就获得了1亿用户。互联网上对人工智能的搜索激增;仅今年上半年,就有超过400亿美元的风险资本流入人工智能公司。
此后,热情有所降温:对ChatGPT的使用已经下降,用谷歌搜索人工智能的人越来越少。据信,以进入有泡沫的市场而著称的日本投资者孙正义有意投资推出ChatGPT的开放人工智能研究中心(OpenAI)。但第二个更为重要的阶段已经开始。一个以超强劲的人工智能模型为核心的全新产业正在形成。有三个要素将决定它最终会是什么样子——以及是OpenAI保持主导地位,还是其他参与者胜出。
第一个要素是算力。算力成本迫使模型建造者提高效率。例如,面对训练和运行更强大模型的惊人成本,OpenAI还没有开始训练它的下一个大模型GPT-5,而是训练GPT-4.5,这是它当前领先产品的更高效版本。这可能会给谷歌等财力雄厚的对手一个迎头赶上的机会。这家科技巨头即将发布的尖端模型双子座被认为比OpenAI目前的版本更强大。
高昂的算力成本也鼓励了规模小得多的模型的大量增长。用特定数据训练而成的这些模型可以完成特定任务。例如,初创公司Replit训练了一个生成计算机代码的模型,可以帮助开发人员编写程序。开源模型也使人们和企业更容易进入生成式人工智能的世界。根据人工智能企业抱抱脸公司所做的统计,目前约有1500个版本的这类微调模型。
所有这些模型现在都在抢夺数据——影响生成式人工智能行业的第二个要素。最大的模型——比如OpenAI和谷歌的模型——都是大胃王:用来训练它们的数据超过1万亿个字,相当于250多个英文版维基百科。随着它们的规模越来越大,它们对数据的需求也水涨船高。但互联网即将被吃干榨尽。因此,许多模型制造商正在与新闻和摄影机构签署协议。有的模型制造商争相利用算法创造合成训练数据;还有的则试图利用新形式数据,比如视频。它们竞争的目标是一个击败对手的模型。
生成式人工智能对数据和算力的渴求使得第三个要素——金钱——更为重要。许多模型制造商已经放弃面向普通民众的ChatGPT式聊天机器人,转而着眼于付费业务。于2015年作为一个非营利性项目起家的OpenAI在这方面一直特别有活力。它不仅授权微软公司使用其模型,还为摩根士丹利和赛富时等公司提供定制工具。阿联酋计划成立一家公司,帮助其类ChatGPT开源人工智能模型猎鹰的应用商业化。
另一种策略是吸引软件开发人员,希望让他们迷上你的模型,创造出在技术上非常宝贵的网络效应。OpenAI正在提供工具,帮助开发人员利用它的模型搭建产品;元宇宙平台公司希望,它的开源模型llama将帮助创建一个忠实的程序员社群。
谁会胜出?像拥有大量用户的OpenAI和财大气粗的谷歌这样的公司具有明显的先发优势。但是,只要算力和数据仍受到限制,能巧妙绕过它们的回报就会很大。一个策略最高效、数据合成方法最独创或者对客户的宣传最动人的模型制造商就可能会抢占领先地位。
炒作或许已经降温,但大戏才刚刚开始。
举报/反馈
-
上一篇
姚前:ChatGPT类大模型训练数据的托管与治理
作者|姚前「中国证监会科技监管局局长」
-
下一篇
如您希望下载PDF版本,请点击文末阅读原文获取。
引言
ChatGPT,一款由美国科技公司OpenAI于2022年11月30日发布的AI聊天机器人,一经面世便引发全球热议。随着其热度不断升高,与之相关的诸多版权争议受到广泛关注,训练数据侵权问题便是其中之一。
作为语言生成式模型,ChatGPT训练数据由大量文本数据组成。目前各国对生成式AI训练数据的使用仍未单独制定成文法规定,但域外对文本与数据挖掘(Text Data Mining,后称TDM)技术的法律规制却具有重要借鉴意义。TDM指的是利用自动分析技术分析文本与数据的模式、趋势以及其他有价值的信息,是以计算机为基础的,从文本或数据导出或组织信息的过程。[1]从技术原理来看,ChatGPT训练数据库的建构与TDM均以文本和数据输入为基础,二者在著作权法上具有相似意义。而在法律层面上,基于制度衔接与法律秩序稳定性的考量,针对使用主体、使用目的、使用方式、限制条件等问题,二者的法律适用应当存在一定程度上的延续与联系。因此,本文将围绕ChatGPT训练数据之合理使用展开分析,从比较法视野分析英国、欧盟、美国及中国对TDM所制定的合理使用制度,继而分析现行法律框架下ChatGPT所实施的数据挖掘行为是否具有合法性依据。
01
ChatGPT数据挖掘原理与侵权风险
ChatGPT是一种基于自然语言处理(NLP)的AI系统,使用了深度神经网络和自然语言处理技术来生成文本,其工作原理可分为三个阶段:数据输入——机器学习——结果输出。自然语言处理AI的训练数据通常由大量文本数据组成,当中包含了语言的各种形式和用法。
浅析ChatGPT训练数据之合理使用