释放LLM和知识图谱的力量(简介)

我们正处于一个激动人心的时代,人工智能的进步正在改变专业实践。

然而,2022年底ChatGPT的推出引发了创建人工智能助手的运动。

到2023年底,OpenAI推出GPT,将指令、附加知识和任务执行结合起来。

GPT为个人助理的梦想铺平了道路,现在看来这一梦想已经可以实现。对话式法学硕士代表了一种理想的人机界面形式。

要开发强大的人工智能助手,必须解决许多问题:模拟推理、避免幻觉以及增强使用外部工具的能力。

过去几个月里,我和我的两位长期合作伙伴Guillaume和Thomas一直在研究这个课题。

我在这里介绍我们的第一个原型SEO助手的开发过程。

我们的目标是创建一个能够实现以下功能的助手:

对于第一个任务,只要我们能够约束它们使用准确的信息,LLM就已经相当先进了。

关于规划的最后一点很大程度上仍然属于科幻小说的范畴。

因此,我们专注于使用RAG和GraphRAG方法以及外部API将数据集成到助手中。

我们将首先创建一个基于检索增强生成(RAG)方法的助手。

图片来自作者,2024年6月

为了构建此助手,我们将使用矢量数据库。有许多可用的数据库:Redis、Elasticsearch、OpenSearch、Pinecone、Milvus、FAISS等等。我们选择了LlamaIndex提供的矢量数据库作为我们的原型。

我们还需要一个语言模型集成(LMI)框架。该框架旨在将LLM与数据库(和文档)链接起来。这里也有很多选择:LangChain、LlamaIndex、Haystack、NeMo、Langdock、Marvin等。我们在项目中使用了LangChain和LlamaIndex。

一旦您选择了软件堆栈,实施就相当简单了。我们提供框架将其转换为对内容进行编码的向量的文档。

有许多技术参数可以改善结果。不过,像LlamaIndex这样的专业搜索框架本身表现就相当不错。

为了我们的概念验证,我们提供了一些法语SEO书籍和一些来自著名SEO网站的网页。

使用RAG可以减少幻觉并提高答案的完整性。您可以在下图中看到来自母语法学硕士和使用我们RAG的同一法学硕士的答案示例。

我们在这个例子中看到RAG给出的信息比单独LLM给出的信息更完整一些。

如果一个答案需要结合来自多个文档的多个信息,RAG方法可能就不奏效了。为了解决这个问题,我们对文本信息进行预处理,以提取其底层结构,即承载语义的结构。

这意味着要创建一个知识图谱,这是一种对图中实体之间的关系进行编码的数据结构。这种编码以主题-关系-对象三元组的形式完成。

在下面的例子中,我们有几个实体及其关系的表示。

图中描绘的实体有“水獭鲍勃”(命名实体),还有“河流”、“水獭”、“毛皮宠物”和“鱼”。关系在图的边缘上标明。

数据是结构化的,表明水獭鲍勃是一只水獭,水獭生活在河里,吃鱼,是毛皮宠物。知识图谱非常有用,因为它们允许推理:我可以从这张图中推断出水獭鲍勃是一只毛皮宠物!

构建知识图谱是一项使用NLP技术长期完成的任务。然而,LLM凭借其处理文本的能力,促进了此类图谱的创建。因此,我们将请LLM创建知识图谱。

当然,LMI框架可以有效地指导LLM完成这项任务。我们在项目中使用了LlamaIndex。

此外,当使用graphRAG方法时,我们的助手的结构变得更加复杂(见下图)。

我们稍后会回到工具API的集成,但对于其余部分,我们将看到RAG方法的元素以及知识图谱。请注意“提示处理”组件的存在。

这是助手代码的一部分,它首先将提示转换为数据库查询。然后,它通过从知识图谱输出中制作出人类可读的响应来执行逆向操作。

下图展示了我们用于提示处理的实际代码。您可以在此图中看到我们使用了NebulaGraph,这是首批部署GraphRAG方法的项目之一。

可以看出,题目相当简单。事实上,大部分工作都是由LLM完成的。LLM越好,结果就越好,但即使是开源LLM也能给出高质量的结果。

我们已将用于RAG的相同信息输入知识图谱。答案的质量是否更好?让我们看看同一个例子。

我让读者判断这里提供的信息是否比以前的方法更好,但我认为它更结构化和完整。然而,GraphRAG的缺点是获取答案的延迟(我稍后会再次谈论这个UX问题)。

至此,我们拥有了一个可以更准确地编写和传递知识的助手。但我们还希望让助手能够传递来自SEO工具的数据。为了实现这一目标,我们将使用LangChain使用自然语言与API进行交互。

这是通过向LLM解释如何使用给定API的函数来实现的。对于我们的项目,我们使用了工具babbar.tech的API(完整披露:我是开发该工具的公司的首席执行官。)

上图显示了助手如何收集有关给定URL的链接指标的信息。然后,我们在框架级别(此处为LangChain)指示该功能可用。

tools=[StructuredTool.from_function(get_babbar_metrics)]agent=initialize_agent(tools,ChatOpenAI(temperature=0.0,model_name="gpt-4"),agent=AgentType.CONVERSATIONAL_REACT_DESCRIPTION,verbose=False,memory=memory)这三行代码将从上面的函数中设置一个LangChain工具,并初始化一个聊天室,用于根据数据制作答案。请注意,温度为零。这意味着GPT-4将输出直截了当的答案,没有任何创意,这更适合从工具中传递数据。

同样,LLM在这里完成了大部分工作:它将自然语言问题转换为API请求,然后从API输出返回自然语言。

您可以下载带有分步说明的JupyterNotebook文件,并在本地环境中构建GraphRAG对话代理。

实现上述代码后,您可以在Jupyter笔记本中使用下面的Python代码与新创建的代理进行交互。在代码中设置您的提示并运行它。

它使我们能够顺利地访问我们领域的所有知识,并且可以轻松地与最复杂的工具进行交互(谁从未抱怨过即使最好的SEO工具的GUI?)。

只剩下两个问题需要解决:答案的延迟和与机器人讨论的感觉。

这个问题只有几个解决方案:更多的硬件或等待我们正在使用的各种软件模块的改进。

第二个问题比较棘手。虽然LLM模拟了真人的语气和写作,但界面专有这一事实说明了一切。

这两个问题都可以通过一个巧妙的技巧来解决:使用一个众所周知的、主要由人类使用且通常存在延迟的文本界面(因为人类以异步方式使用)。

我们选择WhatsApp作为与SEO助理沟通的渠道。这是我们工作中最简单的部分,通过Twilio的消息传递API使用WhatsApp业务平台完成。

最终我们得到了一款名为VictorIA(这个名字结合了法国著名作家维克多·雨果的名字Victor和法语缩写IA,即人工智能)的SEO助手,如下图所示。

我们的工作只是一段激动人心的旅程的第一步。助手可以塑造我们领域的未来。GraphRAG(+API)推动了LLM的发展,使公司能够建立自己的LLM。

这些助手可以帮助新的初级合作者加入(减少他们向高级职员询问简单问题的需要)或为客户支持团队提供知识库。

我们已为有足够经验的人提供了源代码,可以直接使用。此代码的大多数元素都很简单,有关Babbar工具的部分可以跳过(或用其他工具的API替换)。

但是,了解如何设置Nebula图形存储实例(最好在本地设置)至关重要,因为在Docker中运行Nebula会导致性能不佳。此设置有文档说明,但乍一看似乎很复杂。

对于初学者,我们正在考虑很快制作一个教程来帮助您入门。

THE END
1.养宠进阶指南萌宠知识大全猫咪饲养者#养宠进阶指南# #萌宠知识大全# #猫咪饲养者# 0条评论|0人参与网友评论 登录|注册发布 相关新闻 上海首个宠物友好保租房社区亮相浦发有家康桥社区 11月22日 16:10| 新民晚报新闻荟租房上海 生猪市场情况分享2024-11-22 11月22日 11:41| 市场资讯3 萌娃新去处,普陀又一个社区宝宝屋开业啦! 11月22日 ...https://cj.sina.com.cn/articles/view/6605418944/m189b6b1c003301ciq0
2.宠物电子病历查询方法装置电子设备及存储介质与流程6.根据鼻纹特征、宠物主人对宠物的病症描述和宠物的基本信息,得到查询向量,并将查询向量切分为m个子查询向量,m为大于1的整数; 7.基于预设半径和预设邻域密度阈值,确定m个子查询向量在一一对应的m个子聚类空间中所属的m个聚类中心; 8.采用预先构建的电子病历知识图谱,对m个聚类中心中每个聚类中心下的多个子待查询...http://mip.xjishu.com/zhuanli/05/202210781732.html
3.一种基于课程知识图谱的智慧教育系统平台设计方法.pdf本发明涉及一种基于课程知识图谱的智慧教育系统平台设计方法,包括如下步骤:步骤一、搭建学生端和教师端,以及构建服务器端;步骤二、在系统平台中通过大数据埋点获取学生历史交互数据通过预定长度时间内系统收集到的数据形成时序数据,将学生历史交互数据存储在服务器端的数据库中;步骤三、构建知识图谱,根据课程的大纲要求、...https://m.book118.com/html/2023/0424/5201333204010144.shtm
4.2020年中国知识图谱行业研究报告艾瑞2020.0445页.pdf更与生产力相对应,NLP和知识图谱是发展认知智能的基础。 原始数据通过知识抽取或数据整合的方式转换为三元组形式,然后三元组数据再经 SMS 过实体对齐,加入数据模型,形成标准的知识表示,过程中如产生新的关系组合, 2 通过知识推理形成新的知识形态,与原有知识共同经过质量评估,完成知识融合, 最终形成完整形态上的知识...https://m.taodocs.com/p-486920080.html
5.宠物饲养技术—智慧树网知识图谱 73个知识点106个知识关系 教程资源 122个挂载素材 AI 课程简介 随着我国经济的发展和人民生活水平的提高,越来越多的人们开始饲养宠物。宠物是我们人类最忠实、最可靠的朋友,给我们生活增添了极大的乐趣。目前,我国宠物的饲养量正逐年持续增长,只有科学饲养、以积极向上的心态善待宠物,才能创造出人与动物和谐...http://coursehomenew.zhihuishu.com/courseHome/overview?courseId=1000008326&recruitId=136401&termId=18
1.猫咪的多样性探究一种分类系统及其视觉资料集波斯长毛是世界上最古老的一些犬科动物之一,被誉为“皇室宠物”。 [图像: 长毛波斯] 5-10 类似方式介绍其他九个品种 三、新兴及罕见家喵喵品种 3-1 小足虎斑(Tortoiseshell Tabby) 小足虎斑是一位混合颜色的美丽女孩,她具有红褐色条纹并带有黄白色斑点。 https://www.tr0dmu0cp.cn/pin-zhong/488638.html
2.深入研究最新科学发现如何改进我们的猫咪品種識別能力对许多人来说,了解自己的宠物是何种品种是一件既有趣又充满挑战的事情。不同的品种不仅拥有独特的外观,还可能有各自独特的情感特质,这使得了解这些差异成为一个非常重要的话题。今天,我们将探讨一些最新的科学发现,以及这些发现如何帮助我们更好地理解和鉴定不同类型的人类伙伴——猫咪。 https://www.godyood.cn/shou-cang/718215.html
3.揭秘时代背景下的猫界革新,最新猫咪破解指南背景概述随着科技的持续进步和人们生活水平的不断提升,宠物猫已经成为现代家庭中的重要一员,从简单的宠物身份到日益丰富的文化符号,猫咪经历了漫长的发展过程,近年来,“猫咪最新破解”成为热门话题,引发了广泛关注,本文将详细...https://www.dlq818.com/post/30702.html
4.喵呜探秘猫咪的多样性大探险尽管目前我们已经认识到了如此多样的宠物猫,但仍然存在很多未知的地方待研究。科学技术正在不断进步,为我们提供了更多去理解这些灵巧机器人的工具。不仅如此,对于那些尚未被发现或记录下的野生捕食者,以及潜在改良当前已有的亲缘关系,我们还有无限可能性的空间来挖掘知识,同时也将继续推动这种合作进化过程,让我们的生活更加...https://www.gurotsr.cn/geng-duo-chong-wu/558289.html
5.动物分类识别教程+分类释义+界面展示动物分类是生物学中的一个基础知识,它是对动物进行分类、命名和描述的科学方法。本教程将向您介绍动物分类的基本原则和方法,并提供一些常见的动物分类释义。 动物分类的基本原则 动物分类根据动物的形态、结构、生活习性、遗传等特征进行分类。动物分类的基本原则包括以下几点: ...https://blog.csdn.net/qq1309399183/article/details/143926433
6.宠物行业市场现状发展历程产业链知识图谱及未来发展趋势预测...宠物产业百科作为宠物产业一站式系统化研究工具,全面归纳了宠物产业知识信息,内容涵盖宠物产业的定义、分类、政策、产业链、竞争格局、发展趋势等,并依靠信息技术建立智能互链的行业知识图谱,为行研从业者及相关投资者提供深入的洞察力和全面的信息。 智研咨询以“用信息驱动产业发展,为企业投资决策赋能”为品牌理念。为...https://www.shangyexinzhi.com/article/20790977.html
7.基于pyqt5的原神桌面宠物:打造一个桌面端的原神语音智能助手...打造一个桌面端派蒙小助手,通过大规模的文本数据训练原神领域的文本预训练模型, 利用收集到的三元组数据搭建原神知识图谱,通过预训练模型进行语音识别和智能问答,通过语音合成技术来帮助回答用户问题。如有侵权请告知,请勿涉及商业用途,否则后果自负!!!注:绿幕素材来源于B站UP:皮皮虾米锅巴 感谢大佬!!! https://gitee.com/fg_slash/yuanshen-desktoppet
8.宠智灵宠物AI大模型服务平台宠智灵,宠物ai大模型服务商,覆盖多种宠物行业场景:宠物医疗,穿戴,食品,美容,社交,智能设备等。提供先进的AI技术服务,全面涵盖宠物应用领域,助力企业AI化转型。https://www.gjpet.com/
9.宠智灵AI宠物医生在线咨询宠物医院兽医问诊宠物知识问答 全面解答养宠疑问,化解养宠困扰。宠智灵采用先进的自然语言处理和知识图谱技术,结合权威的宠物百科全书和专家知识库,为您提供全面、专业的宠物知识解答。我们的知识库涵盖了猫狗、鼠兔、鸟鱼等多种常 见宠物,内容包括宠物饲养、宠物喂食、宠物训练、宠物医疗、宠物美容、宠物托运等各个方面。 https://www.chongzhiling.com/
10.关于我们宠智灵1、 基于AI的宠物智能问诊系统,提供专业、高效的在线诊断 2、智能宠物健康测评,定期生成全面健康报告 3、宠物图片智能分析,包括品种识别、情绪分析和疾病检测 4、基于知识图谱的宠物养护问答系统 我们承诺不断创新,为您的爱宠带来更科学、更贴心的呵护,共同缔造美好的宠物生活。 https://www.ack-pet.com/about.html
11.GraphMaker:轻松使用开源大模型将文本转为知识图谱,发现新知识!本文将介绍一个Python库——Graph Maker(图谱生成器),它可以根据给定的本体从文本语料库中创建知识图谱。 用大模型处理知识图谱为什么这么重要? 我们来看看展示知识图谱在AI时代巨大潜力的精彩论文。它展示了知识图谱不仅可以用于知识检索,还可以用于发现新知识。以下是我最喜欢的摘录之一: ...https://53ai.com/news/qianyanjishu/2024060658627.html
12.知识图谱应用篇(二)问答系统笔者写了一篇知识图谱在搜索与推荐中的应用,这篇文章会着重讲讲问答系统中的人机交互和自然语言处理相关的问题。简单聊聊人机交互,目前人机交互的常见场景有如下三种:闲聊型(Chatbot)、问答型(QA)、任务型(VPA)。 闲聊型,典型的应用案例是微软小冰,你可以和小冰进行闲聊 ...https://www.jianshu.com/p/ed36c3576d54
13.郑州轻工业大学——HarmonyOS宠物降系统的开发分享当然我们还希望未来能拓宽宠物项圈领域,比如:和搭建宠物疾病诊断知识图谱的团队进行合作,这将有助于提高...https://developer.huawei.com/consumer/cn/forum/topic/0203814250124330309?ha_source=csdn
14.JoveMind知识图谱平台发布,面向企业级客户提供定制化服务中译语通科技股份有限公司(以下简称中译语通)在2018年7月31日 “Hi,Five”品牌战略发布会上推出的JoveMind就是一款面向企业客户的知识图谱构建分析平台,实现知识图谱构建后的可视化数据检索分析https://www.iyiou.com/p/78588
15.数字人文视角下的文化遗产信息资源知识图谱构建及其应用您的位置:首页 图书列表 数字人文视角下的文化遗产信息资源知识图谱构建及其应用收藏 评价 数字人文视角下的文化遗产信息资源知识图谱构建及其应用商品编号:7688750 ISBN:9787577201993 出版社:华中科技大学出版社 作者:彭博,叶颖著 出版日期:2024-01-01 开本:16 装帧:暂无 中图分类:G112 页数:196 册数:1 大约重量...https://m.jarhu.com/book.php?id=6688750
16.90后成宠物险投保主力!宠物险快速升温背后,机遇挑战并存二是从宠物保险服务方面提升用户体验,加速数字化发展。比如,引入风险减量增值服务吸引用户,实现预防风险的价值理念,如消费频次高、单次均价低的疫苗、驱虫、体检等服务;以及完善宠物数据库建设,包括宠物档案、知识图谱等数据,助力宠物保险的精准运营和投保、理赔效率。 https://static.nfapp.southcn.com/content/202308/19/c8011945.html
17.4年宠物医疗SaaS创业经历,小暖医生分享这10条创业心得4月26日,宠研社第8期活动上海活动现场,宠物医院管理系统小暖医生创始人毛本浩分享创业历程,同时首发《2017中国宠物健康报告》。以下是宠业家对演讲内容的整理。 正文: 今天非常希望跟在座创业者分享我的一些创业体会,愿对大家有所帮助。 目前小暖取得的成绩:在小暖平台的医院,每周8000万流水,每天产生病历30000份。以下...http://www.360doc.com/content/21/0322/13/74257732_968267397.shtml