知识地图

因为在工作中参加了一个智能问答相关的项目,所以需要了解“知识图谱”的知识。作为一个非技术类的B端产品经理,刚刚涉足AI领域,有些陌生和不习惯。

于是我看了很多文献和技术科普,也咨询了身边都是AI的技术生,从中大致了解了“知识图谱”的一些原理,整理了以下文章。

希望我的文章能帮助非技术产品经理,或者其他岗位的同学,更简单快捷的理解什么是“知识图谱”。

在介绍知识地图之前,先说一下知识地图在日常生活中的使用。

再比如,在线医疗行业,患者想挂号却不知道挂哪个科室的时候,可以通过预诊助手获取科室信息。预诊助手基于专业的医疗知识图谱,利用多种算法模型和多轮智能沟通,了解患者病情,根据患者病情精准匹配医疗科室。

以支付宝为例。在支付场景下,利用知识图谱将票据诈骗、信用卡套现等行为扼杀在摇篮里。通过知识图谱的图谱数据库,针对不同的个体和群体进行关联分析,可以从人物在指定时间内的行为来判断用户,比如去过的地方的IP地址,使用过的MAC地址(包括手机、PC、WIFI等。),社交网络的关联分析,银行账户之间是否有历史交易信息。

在描述定义之前,我们先来看看知识图谱3354 [E-R图]的表示方式:

从上图可以发现,E-R图无论变换成什么形状和外观,都是由多个点和线连接而成的关系网络。

我们称之为点[实体]和线[关系],每个实体可能与一个或多个实体相关。基于此,要形成最简单的关系网络,只需要三个要素:两个实体和一个关系。这个结构叫做“三元组”,多个三元组形成一个知识图谱。

(三次)

比如“小方和小明是同事,两人都因为工作需要买笔记本。”小明觉得用苹果笔记本会更有说服力,就下手了,而小方觉得联想笔记本更便宜,就选了联想。后来小方发现同事安利看过的软件草图只有苹果上有。它比Axure更智能,更容易使用。”从这句话中,我们可以拆解出多个三元组:

知识地图三元组不仅可以表达实体之间的关系,还可以表达实体的一些属性。比如“小明”是一个实体,他的“性别、出生年月、籍贯”可以归为属性。

事物被定义为实体的“属性”,有两个基本原则:

同时值得注意的是,根据实际情况,实体有时可以是属性,属性也可以是实体。

下图是一个例子:“员工”是一个实体,“员工编号、姓名、年龄”是员工的属性。如果“职称”没有与“工资、岗位津贴、福利”挂钩,换句话说,它没有可以进一步描述的特征,那么按照1的标准,它可以视为员工实体的一种属性。

但是,如果不同的职称有不同的工资、岗位津贴和不同的附加福利,那么把职称作为一个实体来处理更为合适。

说了这么多,你应该能更好的理解知识地图的定义了:知识地图是一个结构化的语义知识库,用来以符号的形式描述物理世界中的概念及其关系。它的基本构成单位是“实体-关系-实体”三元组,以及实体及其相关的属性-值对。实体通过关系相互连接,形成网络知识结构。

了解知识地图的构建可以帮助我们更好地理解知识地图的使用原理。

知识地图的构建过程可以概括为三种方式:

为了介绍每个步骤及其意义,我编制了下表:

非商业转载请注明出处。

下图是知识地图的技术框架,可以帮助你更好的理解知识地图构建的过程。虚线框中的部分是知识地图构建和知识地图更新的过程。

1)构建知识图谱需要什么样的数据?

答案是:结构化数据。

一般来说,知识地图的原始数据有三种:结构化数据和非结构化数据。

所谓结构化数据,是指高度组织化、格式整齐的数据,是一种可以放入电子表格的数据类型。典型的结构化数据包括:信用卡号、日期、财务金额、电话号码、地址、产品名称等。

相比之下,非结构化数据是指不容易组织或格式化的数据。它没有预定义的数据模型,所以不方便用数据库的二维逻辑表来表示数据。它可以是文本的或非文本的,人工的或机器生成的。

简单来说,非结构化数据就是具有可变字段的数据,主要是一些文档、文档等。比如一些合同文件、文章、PDF文档等。

半结构化数据是非关系型的,具有基本的固定结构模式,如日志文件、XML文档、JSON文档等。

对于非结构化数据和半结构化数据,我们需要确认可以从中提取哪些信息,并制定信息录入规则。在NLP等技术的帮助下,可以将有效信息生成结构化数据,然后将结构化数据纳入知识图谱。

2)图形数据库和关系数据库的区别

知识地图是基于图形数据库来存储数据的。所谓图形数据库,不是指存储图片和图像的数据库,而是指存储图形的数据结构的数据库。我们之前讲的E-R图就是图形数据的可视化展示。关于

与使用二维表存储数据的传统关系数据库不同,图数据库传统上被归类为NoSQ。

l(不仅仅是SQL)数据库,也就是说图形数据库属于非关系数据库。为了避免过于技术化,这里就不深入介绍图数据了,简单说说下面的数据库和关系数据库的区别。

关系数据库不擅长处理数据之间的关系,而图数据库在处理数据之间的关系方面灵活高效。

传统的关系数据库在处理复杂的关系数据时性能较差,因为关系数据库通过外键的约束来实现多个表之间的关系引用。查询实体之间的关系需要JOIN操作,通常非常耗时。

图形数据库最初的设计动机是为了更好地描述实体之间的关系。图数据库和关系数据库的最大区别是无索引邻接。图数据模型中的每个节点都会维护其相邻节点关系,这意味着查询时间与图的整体大小无关,只与每个节点的相邻点数有关,这使得图数据库在处理大量复杂关系时保持了良好的性能。

另外,图的结构决定了它容易扩展。我们不必在模型设计之初就考虑所有的细节,因为以后添加新节点、新关系、新属性甚至新标签都很容易,也不会破坏现有的查询和使用功能。

在关系数据库中,如果一开始就设计好了数据字段,运行一段时间后,再添加更多的字段会很麻烦。开发者或产品经理需要在开发初期就设想好未来可能添加的字段,提前添加到数据表中。

次级图形数据库

通俗易懂的知识图。

什么是图形数据库?

题图来自Unsplash,基于CC0协议。

相关问答:PC端,是什么意思?PC终端是与移动终端相对应的名词,指的是网络世界中可以连接电脑主机的端口。它是基于计算机的接口系统,不同于移动终端的手机接口系统。其实PC的英文全称是:Personal Computer,翻译成中文就是:个人电脑或个人电脑。PC是一个含义很广的词,也是计算机的统称。目前,个人电脑有很多种,如传统的台式电脑、DIY电脑、笔记本电脑,以及近年来开始流行的平板电脑、一体机、超极本、掌上电脑和嵌入式电脑。换句话说,PC是一个广义的词,属于计算机的总称。