零基础5分钟搭建一个私有知识的AI机器人,接入微信、抖音和飞书
现在,许多企业都开始借助AI技术来提高自己的生产效率,那么在了解了AI的强大之后,我们是否有可能搭建一个专属于自己的AI机器人呢?这篇文章里,作者便尝试教你零基础学会搭建,一起来看看吧。
AI 这么强,你或者你的公司一定想有一个专属的机器人。
就是那种问它问题,它回答像 ChatGPT 一样流畅,但回答的内容是关于你或者公司的业务介绍。
但是看了一些资料后,都被里面那个向量[1]知识库给劝退了。
这篇文章,只会提三次向量[2](最后一次在文末)。
我们先讲一下原理:怎么让 AI 机器人回答问题的时候,回复跟你自己/你公司相关的信息。
当你正常问 ChatGPT 问题时,它是这么干活的:
你:张佳是谁?
ChatGPT OS:(把你的问题拆开,张佳是谁)—>(理解到你想问一个名字叫张佳的人)—>(在大模型里匹配查找关于张佳的信息)—>(没找到张佳)—>(决定糊弄一下)
ChatGPT:很抱歉,根据我的知识截止日期(2021年9月),我无法提供有关张佳的具体信息,因为这个名字可能属于普通的中国姓名,涵盖了许多不同的个体。如果你能提供更多上下文或信息,我将尽力提供更准确的答案。
但是如果你这样问 ChatGPT:
你:张佳是谁?请根据以下信息,整理成通俗易懂的介绍,告诉我:张佳,咨询顾问,句子互动 CMO&解决方案专家,TOP1 医疗健康MCN运营VP,新榜高级咨询顾问,专栏作家,《短视频内容算法》作者。在私域、流量、运营、数据和产品方面有丰富的经验,深谙商业逻辑,可以为个人和企业提供非常棒的解决方案和 idea。持续关注最新趋势、最新玩法,希望每个人都能先进。
ChatGPT OS:(拆解问题:给了个提问,给了参考答案,让我根据参考答案整理一个个人介绍)—>(这是个文本编辑题)—>(说点好听的给他)
ChatGPT:张佳是一位……他在……他擅长……总之,……。
看出第二次提问和第一次提问的区别了么?
这就是打造个人/企业专属知识 ChatGPT 的精髓所在。
你会问了:我怎么让用户提问问题的时候带着你说的那些资料啊?
想要打造一个专属对话机器人,我们需要先劫持一个机器人,也就是在用户问它问题之后,它带着问题去问大模型之前,在传输的信息上动点手脚。
我画了一个图,你大概就理解了:
所以,想要打造一个私有/企业专属的 ChatGPT,你应该有一些可以加到用户问题后面作为参考资料的知识库。
这个知识库可以是一些个人、公司、产品的介绍文档,也可以是一些 QA 问题库,或者你的客服应答用户的聊天记录。
接下来,你需要把这些知识资料拆成一段一段的,尽量保证是「一个问题+一段答案」,或者一段一段的「概念描述或介绍」性的文字。
因为我们知道,AI 的对话都是有字数限制的,太多了 AI 处理不了或者容易整不明白,并且我们调用人家的大模型,是按照字数收费的。(如果你以前不知道,现在已经知道了)
所以每次发给大模型的文字尽量少一点,拆完了大概是这样的:
然后我们只需要再解决一个问题:用户发过来的问题,我们识别出来以后,在拆好的一段段文字中找到最相关的,加到用户的问题后面发给大模型就好了。
原理搞明白了吧?
摩拳擦掌,开搞!
这里推荐一个已经相对成熟、应用范围比较广的国产玩具
大概花 5 分钟就能拍桌子大呼:我自己真牛逼。
网址在这里:https://chato.cn
注册完进去以后就会让你创建个机器人,选 AI 创建。
相信我,AI 创建的比你自己琢磨的要牛逼。
把角色名起,写一下希望这个机器人完成的事,简单一俩关键词就好了,剩下的等 AI 给你输出。
创建完以后,其他的先不用管,直接进入知识库。
这里支持两种方式:问答式和文档式。
「录入问答」这种机械性的工作咱不干,直接选文档式。
文档式有三种选择:第一种是你有现成的文档,支持 N 多文档格式(连epub都有,摆明了让你上传电子书);第二种是输入文档,手打编辑复制粘贴这样,上限 10 万字。前两种你上传完成以后系统自己给你分段,你决定不了啥,只能随缘(Chato 的 PM 看到以后加个班)。第三种就硬核一点了,直接粘贴网址,它直接帮你采集(违法抓你不抓他们)。
我这里把白皮书里《如何使用企业微信添加客户为好友》的一篇文档上传到知识库了。
然后等着机器人来学习,说是 5-10 分钟,如果字数不多一两分钟就完事。点击上面的聊天演示就可以测试一下 AI 的能力了。
问了一个知识库里有答案的问题,AI 的回答基本上就是一个抄。
测试差不多,现在可以把我们的私有机器人拉出去溜溜了。
之所以给大家用这个玩具来展示,是因为它可以接入到其他位置非常便捷。你可以把它嵌入到你现成的网页里,比如官网;可以接入到企业微信账号上,拉到你们的企业微信群中;也可以嵌入进公众号、飞书机器人、微信客服和抖音私信!
基本都是手把手配置,复制粘贴一些 ID 和密钥就可以直接用的状态。
我来展示两个:
比如我有一个官网,它长下面的样子:
我想在官网里接入这个机器人,只需要把他们提供的代码,复制粘贴到我的官网代码里即可(给大家看源代码了,证明它不是 PS 的)。
比如我想让这个机器人在我们公司群里协助回答一些问题,可以按照后台的指引文档,配置一个机器人应用(也是手把手的,我就不一步一步教了)。
把飞书机器人拉进群里,可以@它问问题。
回答也是完全按照知识库资料来的,只是顺序变了一些。
其他类似企微客服接入、公众号接入,也都是一步一步手把手教程文档。(这里其实可以夸一下 Chato 的产品团队,写的教程很好)
这些自己探索吧,都是增值内容了。
最后,还有一个关键信息。
类似搭建企业专属 ChatGPT 这样的信息,是我《AI+私域提效行动营》的一部分。如果你想使用 AI 发挥更大的价值,把 AI 实实在在的用到你的工作中,提高工作的效率,请务必报名。
第一期已经收获了学员的巨多好评(我还没来得及截图,但我从不吹牛)。
第二期正式开始招募,同样采用21 天直播+练习+答疑的模式,手把手教你把 AI 用起来,让具体的工作被提效!
还记得我们在文章开始的时候说要再提一次向量[3]么?
现在说一下:
因为GPT 大模型支持的字符数是有限的;
为了尽最大可能的节省 token 的消耗,所以很多技术同学会把拆开的一段一段知识库文字,通过 OpenAI 提供的 embedding 接口,转化成跟大模型的参数存储形式一样的格式,也就是本文承诺只提三次的那个词,这样也更适合大模型去匹配自己的知识能力。
但如果你不差钱,就不需要学习这些脑仁疼的技术。
2020年6月,哈工大师生陆续发现MATLAB软件无法使用,MATLAB 是美国MathWorks公司出品的商业数学软件,受到全世界上百万名数学家和工程师的喜爱,尤其是中国工科学生绘制论文图表的首选软件。而哈工大的学生却突然收到了正版软件取消激活的通知。
向开发公司MathWorks询问之后得知,因哈工大被纳入实体清单,在特朗普政府的要求下,MATLAB将对哈工大师生强行停止授权,即使是在已付费的情况下。目前,国内共有 13 所被列入「实体清单」的高校,其中包括10所985高校。
MATLAB事件只是中美脱钩的一个缩影,这样的商业软件在我国的科研生产中影响还较为有限,在MATLAB替代品的讨论中,也有人提到了开源软件,例如Octave等。与商业软件相比,开源软件有着更加广泛而深入的影响,比如数据库产品常常基于Mysql、 MariaDB和 MongoDB 这一类开源数据库软件的核心代码;平常浏览的网站,大多都是使用开源的 Nginx 或者 Apache 服务器软件搭建;此外,谷歌的Tensorflow以及Facebook的PyTorch也经常被数据科学家们当作人工智能研究的基础代码库。
值得注意的是,虽然开源软件本身难以受美国封锁,但开源软件的开发、维护、升级等整个生命周期往往需要开源软件平台的支撑,而支撑开源软件的平台本身却是商业平台,例如处于垄断地位的GitHub。
开源无国界,但被微软收购后的 GitHub,却是有国界的。毕竟它是一家美国企业,需要遵守美国的出口管控条例。2019年初,一位伊朗开发者的 GitHub 账号被禁,原因是自己的所在地伊朗受到美国制裁,并且目前整个伊朗地区的 GitHub 账号均无法使用,连让该地区开发者下载备份数据的机会都没有。不仅如此,定居在克里米亚的21岁俄罗斯公民的账号同样遭到封禁,点击「封禁理由」则会跳转到关于美国贸易管制的网页,该网站告诉他正处在一个「受美国制裁的国家」。虽然单一的开发者可以迁移他的项目到其他平台,但这会损失大量的原有用户。而对于团队开发者来说,这种迁移是不可想象的。
幸运的是,国内的有识之士们已经着手开发出了一些GitHub的替代产品,中国的开发者有以下几种选择:
1. 开源中国旗下的代码托管平台:码云(Gitee)
码云是开源中国社区团队(深圳市奥思网络科技有限公司)推出的基于Git的免费代码托管平台,并且为开发者提供云端软件开发协作平台。无论是个人、团队、或者是企业,都能够用码云实现代码托管、项目管理与协作开发。
码云提供开源软件服务和企业服务,是最为接近GitHub功能的国产开发平台。码云上目前已经有超过10万家企业/机构入驻,其中不乏招商银行、比亚迪汽车等大牌厂商。码云近期也通过了通过 ISO27001:2013 信息安全管理体系认证及 ISO9001:2015 质量管理体系认证,可以说是国内比较先发、规模比较领先的代码托管平台。
7 月 14 日,工业和信息化部技术发展司公布了 「2020 年开源托管平台项目」的招标结果,由深圳市奥思网络科技有限公司(开源中国)牵头,与国家工业信息安全发展研究中心等 10 家单位组成的联合体中标该项目,联合体将依托码云建设中国独立的开源托管平台。
2. 程序员最爱的代码托管平台:Coding.net
Coding.net是深圳市腾云扣钉科技有限公司推出的产品。与GitHub和码云的定位不同,Coding.net重点面向团队和企业的代码协作开发服务,而没有将开源软件作为重点。Coding.net的特色包括在最开始就主推Web IDE的开发模式,通过与腾讯云的合作,提供了免费及时部署调试的环境,形成了差异化的竞争。
Coding.net的项目管理包含任务、讨论、文件等功能,支持多成员协作,并且深度集成了代码仓库的操作与状态。此外,还提供社会化协作功能,支持移动客户端。
随着Github免费策略的推进,CODING 也已经顺势开放所有基础功能(项目协同、代码托管、CI/CD 等)免费使用,不限成员数,帮助国内开发者零成本开始研发协作。
3. 国内人工智能开发者绝对不能错过的平台:Agit.ai
Agit.ai是阿吉特云计算有限公司(澳门)推出的产品,其定位上更为国际化。Agit.ai的界面是熟悉的GitHub风格,并且同样也是面向开源软件。从平台更新历史上看,Agit.ai是2020年7月上线的新平台,在项目管理和其他协同开发功能上具备基本的Git服务,但与码云还是略有差距,积累的开源仓库也不够丰富。
除了GitHub,中国程序员还应该知道这些代码托管平台
机器之心发布