海天瑞声再次冲刺科创板IPO:AI训练数据专业提供商,市场份额位居行业前五
原标题:海天瑞声再次冲刺科创板IPO:AI训练数据专业提供商,市场份额位居行业前五
6月22日, 科创板复读生——北京海天瑞声科技股份有限公司(下称海天瑞声)的科创板上市申请获上交所受理。之后,上交所官网分别于9月7日、10月19日披露了两轮问询回复。
招股书显示,海天瑞声此次IPO保荐机构仍为华泰联合证券。公司发行前总股本为3,210万元,本次拟向社会公众公开发行不超过1,070万股,全部为新股发行。本次公开发行股份占发行后总股本的比例不低于25%。假设本次公开发行1,070万股,则发行后总股本预计不超过4,280万股。
本次IPO拟募资7.66亿元,将投向自主研发数据产品扩建项目、一体化数据处理技术支撑平台升级项目、研发中心升级建设项目及补充流动资金。
表:IPO募资用途
来源:海天瑞声招股书
据了解,海天瑞声此次为二度冲刺科创板。2019年4月,海天瑞声首次提交科创板IPO申请。2019年7月26日,海天瑞声主动撤回申请材料,首次IPO终止。公司方面称,主要考虑公司长远发展的战略布局,鉴于公司发行规模及科创板对战略配售规模的指导,公司或有提前引入优质机构投资者的考虑,股权结构恐发生变化,故主动终止科创板上市申请。
一、AI训练数据专业提供商,客户包括阿里等明星企业,市场份额位居行业前五
资料显示, 海天瑞声(A20208.SH)成立于2005年5月11日,是我国领先的AI训练数据专业提供商。自2005年成立以来,始终致力于为AI产业链上的各类机构提供AI算法模型开发训练所需的专业数据集。主营业务包括 训练数据定制服务、训练数据产品及 训练数据相关的应用服务三大板块。
公司所提供的训练数据覆盖智能语音(语音识别、语音合成等)、计算机视觉、自然语言等多个AI核心领域,全面服务于人机交互、智能驾驶、智慧城市、机器翻译、智能问答、信息提取等多种创新应用场景。其中智能语音为海天瑞声的优势领域,服务/产品线已覆盖150余个主要语种及方言。
同时,海天瑞声的客户榜单可谓星光熠熠, 阿里巴巴、腾讯、百度、科大讯飞、海康威视、微软、亚马逊、三星等皆在其列。目前,海天瑞声客户累计数量已超400家,覆盖了多家大型科技公司、人工智能企业及科研机构。
招股书显示,海天瑞声是中国AI基础数据服务行业的头部企业,市场份额位居行业前五。根据艾瑞咨询发布的《2020年中国AI基础数据服务行业研究报告》, 2019年,以海天瑞声、百度众包为代表的AI基础数据服务行业前五大企业的市场份额为26.2%。行业整体仍处于低集中竞争阶段,行业活力充足,发展空间较大,市场份额仍有较大的提升空间。
值得注意的是,根据艾瑞咨询出具的《2020年中国AI基础数据服务行业研究报告》, 海天瑞声在中国AI语音类基础数据服务领域企业中营收份额占比排名第一。
按数据类型划分,中国AI基础数据服务行业的市场需求可以分为语音类数据需求、图像类数据需求和自然语言处理类数据需求。现阶段国内AI基础数据服务商以提供图像类数据和语音类数据服务的公司为主。
图像类数据业务内容涉及人像数据、OCR数据、自动驾驶数据等,百度众包在图像类基础数据服务领域的营收份额占比最高。而提供语音类数据产品和服务的供应门槛高于图像类数据,业务内容包含语音识别数据、语音合成数据等,海天瑞声在语音类基础数据服务领域的营收份额占比最高。
二、股权结构:实际控制人为贺琳,引进中移投资控股等机构投资者
股权结构方面,截至招股说明书签署日,海天瑞声的股权结构如下图所示,共有14名股东,其中2名为自然人股东,2名为员工持股平台,10名为其他机构股东。
图:海天瑞声股权结构
来源:海天瑞声招股书
公司控股股东、 实际控制人为董事长贺琳,直接持有海天瑞声866.97万股股份(占发行前总股本的27.01%),并通过控制中瑞安间接控制发行人495.41万股股份(占发行前总股本的15.43%), 合计控制公司42.44%的股份。
贺琳毕业于北京大学。1987年至2017年7月任职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作。
值得注意的是, 贺琳在任职中科院声学研究所期间创办了海天瑞声并担任相关职务,上交所在首轮问询中对此提出疑问,要求海天瑞声说明贺琳是否存在利用任职单位的资源或便利、相关技术成果创办海天瑞声的情形,是否违反中科院的规章制度或与中科院的劳动合同以及相关专利发明及计算机软件著作权中是否属于贺琳在中科院时发明创造或职务作品,有无纠纷...
海天瑞声在问询回复函中称,贺琳在中科院声学所任职期间创办海天瑞声并任职,虽未就兼职事项与中科院声学所签署协议,但中科院声学所知悉贺琳创办公司并同意其兼职,确认贺琳兼职未影响其履行中科院声学所岗位职责,未损害中科院声学所权益。贺琳不存在利用任职单位的资源或便利、相关技术成果创办海天瑞声的情形。
此外,根据海天瑞声确认,公司及其子公司已取得及正在申请中的计算机软件著作权的主要创作人为唐涤飞、李科、黄宇凯、郝玉峰、曹琼、邵志明、郝志峰、王涛、陈兆全、李虹辰、董立、王越、司尧、闫启伟、孙文涛、张哲玮、孟君、杨福星等,不涉及贺琳作为创作人。
其他持股5%以上的主要股东分别为:北京中瑞安投资中心(有限合伙)持股15.43%,中移投资控股有限责任公司持股12.01%,唐涤飞持股11.15%,北京清德投资中心(有限合伙)持股7.93%,上海丰琬投资合伙企业(有限合伙)持股5.86%,北京中瑞立投资中心(有限合伙)持股5.83%。
其中,中瑞安、中瑞立为员工持股平台。
招股书显示,2019年12月,海天瑞声通过增资及少量股权转让引入了中移投资、中国互联网投资基金等机构投资者。引入投资者后, 中国移动旗下的的中移投资持股占比12.01%,位列海天瑞声第三大股东。
值得注意的是,中移投资是国有独资企业通过投资关系能够实际支配其行为的企业,符合《上市公司国有股权监督管理办法》第七十四条的规定,证券账户应被标识为CS。截至招股说明书签署日,中移投资尚待取得国有资产监督管理机构关于国有股权管理的相关批复。
第九大股东中国互联网投资基金持股占比4.02%,其背后是中国移动、中国联通、中国人寿保险等股东。这一变化也印证了海天瑞声此前终止科创板IPO申请的声明。
三、2017至2019营收复合增长率达41.25%,训练数据定制服务占主营收入比重超5成
财务数据显示,2017年至2019年,,受益于人工智能行业整体的高速发展,公司呈现出较高的成长性,营业收入从2017年的1.19亿元增长至2019年的2.38亿元,复合增长率达41.25%;实现归母净利润分别为3407.87万元、6713.07万元、8158.68万元。
按照产品和服务的具体类型划分,海天瑞声的主营业务包括训练数据定制服务、训练数据产品及训练数据相关的应用服务三大板块。上述产品服务均以公司生产的专业训练数据集为核心。公司通过设计训练数据集结构、组织原料数据采集、对取得的原料数据进行加工,最终形成可供 AI 算法模型训练使用的专业数据集。
表:海天瑞声主营业务构成(按照产品和服务的具体类型划分)
来源:海天瑞声招股书
· 训练数据定制服务
2017年至2019年,训练数据定制服务分别取得营业收入6297.23万元、12369.55万元和14232.91万元,占主营业务收入的比例分别为52.89%、64.20%和59.91%,2018年和2019年分别同比增长96.43%和15.06%。
训练数据定制服务包括以下形式:①采集+加工服务。根据客户需求设计训练数据集结构、组织原料数据采集、对采集到的原料数据进行加工,最终形成定制化训练数据集。②纯加工服务。客户提供原料数据,发行人根据客户需求进行加工,形成定制化训练数据集。在训练数据定制服务业务类型下,发行人为客户提供训练数据集定制服务,最终形成的训练数据集成品的知识产权由客户享有。
盈利模式:根据客户需求提供训练数据定制服务并收取服务费。在此种模式下,公司仅享有服务费收入,不享有最终生成的训练数据的知识产权,不可将此类业务生产的训练数据向其他客户重复销售。
· 训练数据产品
公司训练数据产品分别取得营业收入5,489.31万元、6,601.67万元和9,176.47万元,占主营业务收入的比例分别为46.10%、34.27%和38.63%,2018年和2019年分别同比增长20.26%和39.00%。训练数据产品的收入规模在2018年增速放缓,在公司主营业务中的贡献率略有下降。
训练数据产品,是根据市场需求,以及对AI算法技术应用前景、发展趋势的评估预判,开发训练数据产品,开发完成后授权客户使用。在训练数据产品业务类型下,发行人最终生产的训练数据集成品的知识产权由发行人享有,一次生产完成后可重复多次销售使用权。
盈利模式:公司开发自有知识产权的训练数据产品,通过销售训练数据产品的使用授权许可,获取让渡资产使用权收入。此类训练数据集一经开发完成,可多次销售并获取授权许可收入。
· 训练数据相关的应用服务
公司训练数据相关的应用服务分别取得营业收入120.55万元、294.55万元和346.44万元,占主营业务收入的比例分别为1.01%、1.53%和1.46%,2018年和2019年分别同比增长144.33%和17.62%。训练数据相关的应用服务是公司基于自身训练数据研发和技术优势所提供的增值性服务和延伸服务,收入规模较小,对公司整体业务和营业收入不构成显著影响。
该服务是基于其生产的训练数据提供 AI 算法模型相关的训练服务,运用训练数据研发能力助力下游客户完成其 AI 算法模型的语言拓展、特定算法模块拓展、垂直应用领域拓展等,为客户定制针对特定应用场景的专属 AI 算法模型,提高AI 技术应用效果。
盈利模式:通常以软件授权或软硬件一体化形式交付算法模型拓展、开发成果,获取让渡资产使用权收入和技术服务收入,以及极少量硬件销售收入。
2017到2019年,公司综合毛利率水平分别为72.26%、64.77%和70.25%,其中训练数据产品所发生的支出在当期全部计入研发费用,无相应的营业成本,毛利率为100%,训练数据相关的应用服务由于收入和毛利规模较小,对公司综合毛利率水平不构成实质性影响,因此公司综合毛利率主要取决于训练数据定制服务的毛利率水平以及公司主营业务收入在服务和产品上的结构性变动。
表:海天瑞声主营业务毛利率情况
来源:海天瑞声招股书
按应用领域分类的主营业务收入分析,公司两大主要业务类型训练数据定制服务和训练数据产品覆盖了 智能语音、计算机视觉及 自然语言处理三大AI核心领域,广泛应用于人工智能算法模型的开发、训练、优化、应用场景拓展等环节。2017到2019年,公司训练数据定制服务和训练数据产品按应用领域分类的收入情况如下:
表:按应用领域分类的主营业务收入分析
来源:海天瑞声招股书
报告期内,公司产品及服务的主要应用领域为 智能语音,贡献训练数据定制服务和训练数据产品收入的80%以上,其中包括语音识别采集、语音识别转写和语音合成三个业务方向。同时,计算机视觉和自然语言是公司产品及服务的另两大应用领域,得益于下游人工智能行业这两大细分领域的高速发展,公司来自于这两个应用领域的训练数据定制服务和训练数据产品收入也保持整体增长趋势。
2017年到2019年,智能语音类训练数据定制服务的 毛利率分别为48.06%、46.18%和51.55%,2017年和2018年相对稳定,2019年有所提升,主要原因是相对毛利率较低的语音识别采集和语音识别转写在2019年收入占比明显下降,而相对毛利率较高的语音合成在2019年收入占比由41.66%上升至57.79%。
根据以上显卡参数进行对比分析,我们可以得出以下结论:
NVIDIA A100是目前市场上最强大的算力卡,具有最高的CUDA核心数和Tensor核心数,以及最高的显存带宽和容量,但价格昂贵,适合进行高负载的深度学习模型训练和大规模并行计算等高性能计算任务。
NVIDIA V100也是一款高性能算力卡,具有较高的CUDA核心数和Tensor核心数,但相对于A100来说性能略有逊色,同时价格也比A100低一些,适合进行中高负载的深度学习模型训练和计算任务。
AI训练如何选择显卡?NVIDIA显卡性能和价格分析
随着人工智能技术的迅速发展,AI训练成为了各大企业和研究机构必须面对的任务。而作为AI训练的重要硬件之一,显卡的性能和价格都是决定选择的关键因素。在市场上,NV