|
《基于智能搜索和大模型打造企业下一代知识库》之《制造/金融/教育/医疗行业实战场景》byAWS Team | on25 7月 2023 | inArtificial Intelligence, Industries |Permalink |
感谢大家阅读《基于智能搜索和大模型打造企业下一代知识库》系列博客,全系列分为 5 篇,将为大家系统性地介绍新技术例如大语言模型如何赋能传统知识库场景,助力行业客户降本增效。更新目录如下:
第一篇《典型实用场景及核心组件介绍》
第二篇《手把手快速部署指南》
第三篇《Langchain 集成及其在电商的应用》
第四篇《制造/金融/教育/医疗等行业实战场景》(本篇)
第五篇《与 Amazon Kendra 集成》
背景
在本系列的《基于智能搜索和大模型打造企业下一代知识库》博客中,前面 3 篇已为大家介绍了核心组件、快速部署指南以及 LangChain 集成及其在电商的应用场景,本篇将继续下沉到具体行业进行场景以及实施案例的介绍:
方案架构图如下:
通用场景:基于企业内部知识库例如 IT/HR 信息的问答
在该场景下,企业可利用 IT 手册,员工手册,销售手册等构建企业知识库。使用人员为所有的内部员工,帮助员工提升信息获取的效率,从而提升工作效率。
提问与员工手册相关的问题,搜索引擎会首先获得相关的预料,然后使用 LLM 对预料进行信息抽取,过滤和总结,然后直接给出问题答案。
例 1:查询年假时间
例 2:查询上下班时间
制造行业行业场景
制造行业中相对来说是一个传统的行业,因为历史积累,拥有众多的原始文档,但是由于大部分企业处于数字化转型的初期,无法有效利用这些文档。因此,其主要诉求为建立一个企业级的知识库平台,利用散落各处的文档提升企业运行效率。例如随着制造业的发展,企业对装备的维护和保养变得更加重视。装备维保知识库问答系统可以提供实时的维护指导,帮助操作员和维修人员解决各种故障和技术问题。售后客服对于提供优质的客户支持至关重要。装备的故障和技术问题可能会对客户的生产线造成重大影响,因此快速响应和解决问题是必要的。
客户选择此方案出于三个考虑:
1. 制造行业中,许多文档描述都是比较专业的知识,所有的描述都需要严谨,因此大语言模型的幻觉问题会导致内容输出不可信,反而出现更多不可控的风险;
2. 所有的回答必须精确到具体出处,避免大语言模型生成内容出现偏差;
3. 存在大量敏感数据,包括维保记录,机械设计图纸等,使用第三方 API 调用的大语言模型有可能存在数据泄漏,造成违规和安全隐患。
典型的使用场景为装备维保知识库问答和售后客服。
行业场景实践装备维保知识库问答和售后客服
在该场景下,企业可利用历史维保记录,例如故障现象,故障原因,维修手册,用户手册等构建企业知识库。使用人员为一线维保工程师或者售后客服,结合检索和大语言模型,可以直接针对用户的故障现象,给出具体的原因分析。
例 1:装备维保场景-提问某零件生锈的原因(中文场景)
例 2:产品售后场景-提问某指示灯状态意义(英文场景)
【数据来源:Midea Dishwasher 产品手册】
金融行业行业场景
金融行业分为银行、保险、资本市场以及支付多个子垂直行业,基于智能搜索和大模型的知识库,银行可以快速准确地回答客户的各类问题,提供个性化的金融产品推荐和投资建议;保险机构可以赋能用户快速找到适合自己需求的保险产品,并了解保险条款和理赔流程;资本市场成员可以借助其帮助投资者快速获取和理解市场动态、公司财务数据和分析报告等信息;支付机构则建立智能客服系统,帮助用户快速解决支付相关的问题。
客户选择此方案出于三个考虑:
1. 金融行业中所有的描述都需要严谨,数据需要精确,因此大语言模型的幻觉问题会导致内容输出不可信,严重则损坏企业形象以及客户流失;
2. 金融机构(如银行、保险)会提供相关的咨询服务,所涉及到的回复必须精确到具体出处,尤其法律法规相关内容需要和法规文件完全一致;
3. 金融数据存在大量敏感数据,包括交易、企业营收、内部资产以及个人信息,使用公开的大语言模型有可能在不经意间泄漏相关数据,造成违规和安全隐患。
典型的使用场景为智能客服与智能报告生成。
行业场景实践智能客服
智能客服在金融行业中具有广泛的应用和场景,包括:
例 1:金融产品的咨询
通过提问(如下例)关于金融产品营收数据的分析,搜索引擎会搜索获得相关语料,并作为大语言模型的输入,进行汇总和总结。
例 2:金融专业知识的咨询
对于某些金融知识(如 GDR,存托凭证等)存在专业性强、不易理解的特点,传统客服无法快速理解、整理并得出相关的结论来回应该类型的客户咨询,造成用户体验差。同时对于专业知识的回应,需要准确且严谨的材料中获得,因此参考资料的出处也是本场景重要的指标。使用智能搜索和大模型方案可以有效提高内容总结的效果,同时列举出清晰的数据出处,精确到文档的句和段。
智能报告生成
金融行业中尤其是资本市场,无论是券商还是二级市场机构分析员,均需要对大量的数据和报告进行阅读和分析,同时需要对外输出各类型的报告,如行研、个股分析、市场分析和展望、投资建议分析等。他们会遇到以下痛点:
通过使用智能搜索和大模型方案,可以在资讯整理理解以及基础报告生成两个方面减轻上述问题带来的成本。
以下例子以大宗商品中的原油为例子,需要写一篇“关于原油上涨带来的风险“的报告:
通过提交相关的任务指引,包括(但不仅限于):1)任务描述; 2)文章规定的格式、标题和段落;3)文章规定的分段内容和主旨。智能搜索引擎会先进行从已经加载的数据中获得相关内容,并将内容传递到大语言模型,并要求大语言模型按照指引进行内容生成和输出。输出的报告可以作为基础内容提供给报告撰写和分析团队进行二次加工,从而提高生成效率。
【数据来源:1)金融相关财务报告;2)金融专业知识样例公开数据 ;报告生成参考数据(大宗商品)】
教育行业行业场景
针对教育领域和智能教育产品的行业场景,可以从以下两个角度来说明,包括学校/老师角度、学生/家长角度。
学校/老师:本方案为基础来提供创新的在线教育工具,例如 AI Class Bot,助力学校和培训机构快速建立在线学习课程,帮助学校提高教学质量和效率,也能够节省教学资源和成本,减轻老师课程设计和辅导的负担,拓展教学内容和形式,增强教学创新和竞争力。
学生/家长:以本方案为基础来构建智能辅导系统,根据每个学生的水平和进度,生成适合他们的学习内容和方法,自适应地生成不同难度和类型的问题和解析,做到实现因材施教和自适应教育。同时还可以构建学校与家长之间的智能问答系统,可以帮助家长了解孩子的学习情况和需求,提供更多的学习支持和指导。
在教育行业中,客户选择此方案出于三个考虑:
1. 通过本方案可以快速、方便的将课程内容导入到知识库,利用大语言模型形成课程问答机器人。结合数字人技术还可以提供多轮对话的功能,让教育过程增加更多的趣味性。
2. 通过本方案利用 AI/ML 技术实现的用户正向反馈功能,可以帮助每个学生实时反馈搜索结果的权重,从而优化自己的知识库模型,以便实现自适应学习的目标。
3. 通过本方案可以把学校已知的资料以及散落在互联网的资料统一汇集到知识库,包括各种非结构化和半结构化数据,让家长更加快捷的查找所要的信息。
典型场景为面向学生的问答机器人和面向学校的问答机器人。
行业场景实践
例 1:学生场景的问答机器人(AI Class Bot)-英文单词学习的 AI 客服机器人
针对英文单词学习领域,将现有英文单词学习过程中的相关 FAQ 知识库导入现有方案中,该知识库文件中包含了众多在英文单词学习过程中的客户问题以及处理办法,通过本方案的知识库上传功能,将数据导入到知识库系统中。
本例中,我们希望客服机器人的答案一定是要基于知识库的范围内进行作答,如果不在知识库的范围,要回答“根据已知知识无法回答该问题”, 也就是说我们要避免大语言模型的幻觉问题。基于这个要求,普通的大预言模型在回答用户问题时可以有一定的创新性,也就是模型可以设置 temperature 值,以控制大语言模型的创新性。但是就算设置非常低的值,也不能保证大语言模型不自己创新的回答用户问题。
本方案针对该需求增加了置信度(evidence)的判断,对于大语言模型给出的答案与用户的问题、知识库的搜索结果都做了相似度计算,低于某个值就返回用户“无法回答该问题”。如下图所示:
有一些问题在知识库的范畴内,问答机器人就可以回答,如下图:
例 2:学校场景的问答机器人(AI School Bot)–报考志愿问答机器人
面临中考、高考的考生家长相对比较焦虑,他们需要掌握更多的学校信息以便和自己孩子的学习情况做比较,选择更加适合自身的学校和未来的报考专业。以下是一个询问中学信息的问答场景,我们仅仅导入了几个国际学校的数据到知识库,希望问答机器人在知识库的范畴内回答问题,同时需要给出答案的置信度。如下图所示:
当问询某个国际学校的课程信息时,问答机器人将做如下回答:
医疗行业行业场景
医疗行业有大量文档,其中既包括敏感资料如药物临床研究数据,患者健康数据,药研实验数据,也包括大量的公开数据集如基因数据,医学论文等。然而,作为一个历史悠久等行业,很多医院与企业仍然处于数字化转型的初期,存在数据量大,格式不统一,阅读理解难等问题。医疗健康领域数字化转型,降低医学数据的使用门槛一直是该领域的重要方向。具体来看:
典型场景是医疗论文信息检索。
行业场景实践医疗论文信息检索
本次场景演示中,我们从亚马逊云科技的公开数据集中选取大家非常最常使用的 NCBI 数据集,并选择 2023 年度的一个子数据集作为样本数据,供测试。
为了方便测试,我们清洗一部分血液病相关的论文作为测试数据集,使用一些常见的血液病问题进行提问,平台将会从相应的数据集中进行召回,并根据 prompt 来生成相应的内容。考虑到医疗相关的论文都为英文,我们本次测试中,都使用的是擅长英文的开源大模型进行测试。
由于论文数据多样、还会有历史等不同信息等,所以在实际使用中,有可能需要通过不同的关键词、句来召回最适合您使用场景的结果。
而对于知识库没有的数据,平台将会召回“Not found answer” 或者“I don’t know”。这是确保在医疗、生命科学场景,对于不确认的信息,规避无效数据的回复。
由于论文数据的庞大,新旧数据的冲突等各种原因,在实际使用过程,我们建议用户您根据自己的实际情况、使用场景的需求,对于论文、内部科研数据、任何您需要使用的数据做一次提前的清理,比如,最保留最新数据等。这样保证数据在召回时候更符合您的需求。 |
|