投放dou+?为什么投?怎么投?投给谁?
如何让你的作品快速突破500播放?
如何通过抖加来撬动自然流量?
如果你想通过dou+解决流量问题就要理解这三点:为什么投?怎么投?投给谁?
其中投给谁最重要?很多人投抖加没效果,就是卡在了这一步,
先说为什么投抖加为什么能撬动自然流量?
咱们做某音的朋友都知道某音一共有8个流量池,当你上传了一条作品之后,某音会给你基础的500个播放,你能不能突破流量池获的持续推荐,某音还得参考你这条视频的点赞,评论转发转粉完播率复播率停留时长,这些指标,如果数据很好,就继续推荐,如果不好就停止推荐,那为什么抖加能撬动自然流量?
你视频的数据好不好,取决于某音给你推送的人是不是精准基础的500播放量。
因为范本太少是有可能匹配不到精准人群的,比方说500播放300精准,200不精准。你的整体数据就不会好,所以要通过抖加来校正人群。
用金钱的力量强行匹配到对的人群,人群精准互动量就会提升,数据提升上去之后,就有可能达到继续推送的标准,那视频达到什么样的数据才能突破流量池,继续推送受众人群较多的赛道。
比如美食,泛娱乐类互动率至少要达到8%-10%,受众人数少的小众赛道互动率至少要达到3%-5%,互动率就是你的点赞,评论转发转粉的总和,除以你的播放量数据越好,突破流量池的概率就越大。
抖加怎么投是投智能推荐,还是投达人相似。投智能推荐,只不过是从500播放变成5000播放,还是有可能推送不到精准的人群互动率也不一定能够提升,反而有可能会下降。
所以要投达人,想死不到1000粉丝的可以投粉丝量或者点赞评论,1000粉丝以上的想都不要想,直接投点赞,评论,因为同样是100块投点赞,评论的互动要比头粉丝量的互动要高得多,
重点来了,那我们投达人相似的时候要投给谁呢?一定是根据你的目标受众去投,假设你是做服装的,不是随便找个服装账号就可以,服装分为男装女。假设你做男装,男装有不同的年龄段,少年、青年、中年、老年。
假设你做青年青年服装里面有不同的风格,小镇青年跟一线城市青年的审美肯定不一样,所以你要找到跟你目标受众完全一样的账号去投达人相似,这样才能保证你投的每个人都对你的视频感兴趣,把100块的价值放到最大。
还没有结束,找到目标受众跟你完全一样的账号之后,还是不能直接投,你要投受众跟你一样,但视频质量和内容完全不如你的账号,视频质量和内容完全不如你粉丝,受众又和你一样,粉丝没道理,关注他不关注你,找到这样的账号直接无上限,开头投到他崩溃,如果按照我以上说的内容都没有效果,不要犹豫,直接去优化内容。
-
上一篇
AIGC模型用起来好用吗?怎么做AI配音
AIGC模型是一种基于人工智能技术的音频合成软件,其主要功能是将文本转化为语音。该模型的优点在于能够快速高效地合成自然流畅的语音,并且可以根据用户的需求进行个性
-
下一篇
早期Windows上的ViaVoice软件
在2003年贾磊毕业的时候,基本上人们对于语音输入的产业期望已经很低了,各大公司都降低了语音技术的投入和预期。贾磊刚毕业就立刻迎来了语音技术的第一个低潮期,当时很多做语音专业的学生都转换方向,不少人做语音也是选择留校,而不是工业届。当时国内各大公司比较多见的语音需求是手机上的数字和人名拨号系统、以及车载语音导航等嵌入式产品研发,技术也大都集中在设备端侧的单通道语音识别或者是语音合成。技术上讲,这些应用都是嵌入式孤立词语音识别系统,其特点是只能识别特定的指令词和句式。之后的几年,除了零星的嵌入式设备应用外,语音技术在工业界的拓展乏陈可新,语音产业持续低迷。
语音技术的产业应用迎来第二波高潮
痛苦的日子总算没有太长。在2007年,微软公司收购语音识别技术企业Tellme Networks,并开始组建自己的语音团队,语音技术的产业应用又重新回到大公司的关注热点中。很快,谷歌于2008年在美国发布了英文语音搜索服务Voice Search,并应用于Android、诺基亚S60、黑莓、iPhone 等多个系列的手机。之后,谷歌又在 2009 年发布了中文语音搜索,语音的产业应用迎来了新一波高潮。这一波热潮的核心特点是以互联网需求和实现为基础,此时模型处在云端,所以体积可以更大。例如语言模型,由于位于云端,语言模型体积可以达到上G,这是之前2000年左右的ViaVoice 语音系统所不可能达到的(2000年的比较好的PC计算机内存才256M,那是语言模型位于终端,也只有几十M)。语言模型位于云端后,热词新词的信息更新也更加及时,同时大的模型体积意味着对支持的语言领域更加广泛。同时,技术上虽然声学模型仍然是以 HMM 框架 GMM 建模为主体,但是可以采用更多更大的训练语料。数千小时乃至上万小时的声学训练语料库已经开始进入工业界。因此从 2000 年到 2010 年左右的十年期间,虽然语音识别的核心算法技术仍然是 HMM、GMM 和 Ngram 统计语言模型,但是因为互联网技术的引入,可以采用云端体积更大的声学模型和语言模型,训练这些模型的语料库也显著增加,最终导致语音交互的用户体验得到很大提升,语音技术的云端应用逐渐开始流行。
深度学习首次应用语音识别的系统框图
2011年, 微软的邓力和俞栋两位学者通力合作, 把深度学习技术应用于工业级的大词汇量连续语音识别实验, 获得相对于传统基线系统 23% 的显著提升,这标志着语音识别技术最先迎来深度学习革命。深度学习应用于语音识别,最初的整体建模框架仍然是 HMM,但是声学输出分布 GMM 模型被替换成了深度学习 DNN 模型。这时候的语音识别系统是一种 HMM 和 DNN 混合 (hybrid) 的语音识别系统。随着深度学习技术在语音技术中越来越深入的应用,从 DNN 到 CNN,再到 CNN+LSTM,语音识别系统的字错误率以每年 10%- 15% 的相对错误率降低。再后来伴随着 CTC 技术的引入,更大粒度的建模单元(WordPiece 模型,音节和字)开始逐渐越来越多的被采用,应用于语音识别几十年的 HMM 框架逐渐被淘汰。
语音识别技术进入端到端时代
从 2015 年开始到 2020 年这段时间,注意力建模技术的研究,又让语音识别技术开始进入端到端的时代。2019 年之前,Attention(注意力) 技术早已经广泛应用于 NLP、图像等商业产品领域。但是语音识别领域,从 2015 年开始,实验室内就广泛进行了基于 Attention 的声学建模技术,也获得了广泛的成功。国际上通常用于语音识别的注意力模型有两种,一种是谷歌的以 LSTM 为基础的 LAS(listening attention and spelling) 模型。另外一种是基于 self attention 的 transformer 模型。这两种注意力模型在实验室的各种实验中,都能够显著提升语音识别系统的识别率,同时实现了一套深度学习模型,语音语言一体化的端到端建模。虽然注意力模型在实验室范围内获得巨大成功,但是应用于工业界的实际在线语音交互产品,还存在一系列的技术障碍。核心难题就是在线需要识别系统需要流式解码,而注意力模型需要拿到整段语音才能进行解码,会造成用户无法接受的识别延迟问题。所以注意力模型直到 2019 年初,都没有在工业在线语音交互中使用注意力模型做语音识别的成功案例。2019年1月,百度发布率先发布了基于流式置信度建模技术的语音输入法产品,首次提出流式多级截断的注意力模型 (SMLTA),这是国际上注意力模型在在线语音识别领域的大规模工业应用的首个成功案例。之后,流式注意力模型在学术界也开始进入广泛的研究。最近,语音识别应用中的逐渐集中到流式的 self-attention 建模,包括流式的 transformer 等。人类对于语音识别的核心技术提升的脚步从来没有停止过。
基于注意力机制的语音识别端到端建模的通用框架
2015-2020年期间,智能音箱产业在中国乃至世界范围内,都得到巨大的发展和普及。在智能音箱使用场景下,目标声源距离拾音器较远,致使目标信号衰减严重,加之环境嘈杂干扰信号众多,最终导致信噪比较低,语音识别性能较差。为了提升远场语音识别准确率,一般会使用麦克风阵列作为拾音器,然后利用数字信号处理领域的多通道语音信号处理技术,增强目标信号,最终产生一路清晰信号,送给后面的语音识别系统进行语音识别。这时候数字处理信号系统和语音识别系统相互级联是主流的远场语音识别技术,这种级联技术也成为第一代智能音箱远场语音交互技术的主流技术。随后,语音学术界开始进行一系列的技术创新,从数字信号处理到语音识别一体化的端到端建模成为热点。这是一种创新的远场语音交互技术,一套深度学习模型打穿数字信号处理和语音识别两个领域。国际上,Google 最先试图解决这个问题。谷歌的解决方案采用的深度学习模型结构,来自于类似于 filtering and sum 的数字信号处理思想,模型底部的结构设计,模拟了数字信号处理的多路麦克处理过程。在此之上,模型仍然是采用传统的近场语音识别的深度学习模型。该模型直接建立了从远场语音多路信号到识别文字之间的端到端的进行。百度团队针对远场语音识别的特殊需求,也提出了自己的基于复数 CNN 的远场端到端建模方案,并大规模应用于工业产品。
语音技术从之前的云端竞争开始逐渐向端侧芯片延伸
2020年左右的AI芯片的发展,也对语音交互行业产生了巨大的推动作用。在AI技术快速普及的今天,算力已经成为推动 AI 行业发展的根本核心力量。2011年微软的科学家能够把深度学习应用于语音识别工业界,除了科学家的勤奋工作之外,更重要的背后的推手是GPU。没有 GPU 的算力支持,就不可能一个月完成数千小时的 DNN 模型训练。从2011年至今,英伟达的股价已经从十几美金,暴涨了几十倍。这一点充分证明了 AI 算力的价值,在语音识别行业,远场识别的兴起催生了 AI 语音芯片的发展。一颗芯片完成端侧信号处理和唤醒成为一个明显的市场需求。在智能音箱领域,这种 AI 语音芯片能够显著降低音箱的成本,并且提供更高精度的唤醒和识别能力。在汽车车载导航领域,AI 语音芯片可以保证主芯片的负载安全,提升驾驶安全。各大语音公司都开始推出自己的语音芯片,语音技术从之前的云端竞争又开始逐渐的向端侧芯片延伸。
2020 年百度语音技术成果盘点
智能语音交互系统是人工智能产业链的关键环节,面对未来智能语音产业链的新需求,百度研发了新一代适合大规模工业化部署的全新端到端语音交互系统,实现了语音交互全链路协同处理,软硬件一体优化,信号语音一体化建模,语音语言一体建模,语音语义一体交互,语音图像多模态融合,全深度学习的语音识别、语音唤醒以及千人千面个性化语音合成等,其中重大技术创新如下。
1. Attention(注意力) 技术早已经广泛应用于 NLP、图像等商业产品领域,但是语音识别领域,从 2015 年开始,实验室内就广泛进行了基于 Attention 的声学建模技术,也获得了广泛的成功,但是在语音识别最广泛使用的语音交互领域,Attention 机制一直没办法应用于工业产品。核心原因是语音识别的流式服务要求:语音必须分片传输到服务器上,解码过程也必须是分片解码,用户话音刚落,语音识别结果就要完成,这时候人的说话过程、语音分片上传过程和语音识别的解码过程三者都是并行的。这样用户话音一落,就可以拿到识别结果,用户的绝对等待时间最短,用户体验最佳。传统注意力建模技术必须拿到全局语音之后,才开始做注意力特征抽取,然后再解码,这样一来解码器过程的耗时就不能和语音识别的解码过程同步起来,用户等待时间就会很长,不满足语音交互的实时性要求。
SMLTA: 百度流式多级截断注意力模型(2019年1月发布)
2019年1月,百度语音团队提出了流式多级的截断注意力模型 SMLTA。该方案采用 CTC 模型和 SMLTA 模型相结合的办法,利用 CTC 的 peak 对连续语音流进行截断,然后在截断的语音流上做截断的注意力模型。这是全世界范围内,第一次基于 Attention(注意力技术) 的在线语音识别服务的大规模上线。该技术显著提升了线上语音交互的语音识别的准确率,同时实现了语音语言的一体化建模,为云端语音识别技术的全面端侧芯片化打下了基础。2020 年,SMLTA 技术全面应用于百度语音识别全线产品:语音输入法、语音搜索、地图语音交互、智能音箱、汽车导航、智能呼叫中心、会议在线翻译等产品上,都能看到 SMLTA 技术对语音交互性能的持续提升。
2. 近些年随着 5G 的万物互联概念的普及,中国社会对智能设备的远场语音交互需求日益增加。在远场环境下,目标声源距离拾音器较远,致使目标信号衰减严重,加之环境嘈杂干扰信号众多,最终导致信噪比较低,语音识别性能较差。为了提升远场语音识别准确率,一般会使用麦克风阵列作为拾音器,然后利用数字信号处理领域的多通道语音信号处理技术,增强目标信号,最终产生一路清晰信号,送给后面的语音识别系统进行语音识别。这时候数字处理信号系统和语音识别系统是级联方式,数字信号处理系统是以信号的清晰度为优化目标,语音识别声学建模是以云识别率为建模目标,两个系统优化目标不统一,错误也会级联放大,最终的交互体验相比于近场识别差很多。国际上,Google 试图采用端到端建模技术解决这个问题,一套模型解决远场麦克阵列信号处理和语音识别声学建模问题。谷歌的解决方案采用的深度学习模型结构,借鉴了数字信号处理领域的类似于 filtering and sum 的数字信号处理思想,模型结构设计模拟经典数字信号处理过程。这种借鉴使得深度学习进行端到端建模更容易收敛,但是后期我们通过实验证明,这种借鉴严重影响了深度学习技术在该方向上的发挥和延伸,限制了深度学习模型的模型结构的演变,制约了技术的创新和发展。
基于复数 CNN 的语音增强和语音识别一体化的端到端建模
百度语音团队研发出完全不依赖于任何先验假设的信号、语音一体化的适合远场语音交互的深度学习建模技术。该深度学习模型以复数 CNN 为核心,利用复数 CNN 网络挖掘生理信号本质特征的特点,采用复数 CNN、复数全连接层以及 CNN 等多层网络,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,期间充分挖掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下,同时实现了前端声源定位、波束形成和增强特征提取。该模型底部 CNN 抽象出来的特征,直接送入百度独有的端到端的流式多级的截断注意力模型中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做,完全以识别率提升为目标来做模型参数调优。目前该方法已经被集成到百度最新发布的百度鸿鹄芯片中。
百度鸿鹄芯片结构图
2020 年,百度在智能音箱、车载导航和智能电视控制方面,落地了百度鸿鹄语音芯片。研发了以远场语音交互为核心的鸿鹄芯片解决方案,一颗芯片解决远场阵列信号处理和语音唤醒的问题,打造了云端芯一体化的语音交互解决方案。百度鸿鹄语音芯片设计,变革传统芯片设计方法,推出 AI 算法即软件定义芯片的全新设计思路。百度鸿鹄芯片采用双核 Hifi4 架构自定义指令集,2M 以上超大内存,台积电 40nm 工艺,在此硬件规格上,100mw 左右平均工作功耗,即可同时支持远场语音交互核心的阵列信号处理和语音唤醒能力,满足车规可靠性标准。同时,百度鸿鹄芯片为远场语音交互算法量身定制了芯片架构,完全契合 AI 算法需求的核内内存结构设计、分级的内存加载策略、依据 AI 算法调教的 Cache 设计和灵活的双核通信机制,最终实现了深度学习计算过程和数据加载的高度并行。百度鸿鹄芯片是中国行业内唯一一颗能够承载全部远场阵列信号处理和智能音箱唤醒技术的语音芯片,也已经完成了业内首个支持电视熄屏唤醒的 AI 芯片解决方案并实现工业产品落地。
百度鸿鹄芯片之后,贾磊团队又将整个语音交互的复杂算法、逻辑和数据模型耦合的语音交互技术,利用百度全新研发的端到端语音建模技术,抽象成多个单纯的深度学习计算过程,从而可以几乎在性能无损的情况下将整个语音识别过程从云端搬到客户端。基于以上思路的百度鸿鹄芯片二代也正在紧锣密鼓的研发中,一颗芯片解决远场语音识别和合成问题将不再遥远。5G 时代的云端定义语音交互功能,端侧执行语音交互功能,云端一体的语音交互,很快会成为现实。
百度智能语音全景图
在语音技术的产业化过程中,贾磊认为核心关键的要素是技术创新要把握产业需求,而不是闭门造车。比如百度的语音语言一体化的流式多级截断的注意力建模技术 (SMLTA),核心就是针对性的解决注意力(Attention)建模技术不能进行流式识别的问题,后者是在线语音识别技术必须的关键要求。再比如百度研发鸿鹄芯片,核心就是解决一颗芯片集成远场信号处理和远场唤醒,从而提升智能音箱的远场交互体验,降低智能音箱的成本。文以载道,技术提升的首要目标是产品体验提升,而非纯粹的学术创新。管理上要集中优势兵力优先解决技术工业应用时的痛点问题,要基于用户感知体验提升去迭代技术,而非单纯的技术指标提升。
贾磊畅谈AI语音技术的现在、过去和未来
在国内,谈到智能语音技术,肯定绕不开一个人,那就是现任百度语音首席架构师贾磊,他是智能语音界举足轻重的AI大牛,于2010年加入百度,组建了百度语音团队,主导研