一、机器学习
美国华盛顿大学的佩德罗·多明戈斯(Pedro Domingos)对机器学习下了一个定义:机器学习由三个部分组成,分别是表示、评价和优化。
(1)表示是指建立问题与数据的抽象模型。
(2)评价是指设定目标函数及评价模型性能。
(3)优化是指求解目标函数在模型下的参数最优解。
1、机器学习可以根据多种分类标准进行划分:
2、什么是监督学习、无监督学和强化学习
监督学习是一种机器学习方法,即机器通过人工给定的标注,比如告知机器某张图片中的是猫,另外一张图片中的是狗,学习数据特征以及标注信息中一一对应的映射关系,从而在部署应用中,根据一定的策略把数据特征预测出来。常见的监督学习算法包括:k-近邻(k-Nearest Neighbors, kNN)算法、决策树、朴素贝叶斯。
无监督学习与监督学习最大的不同是,前者不需要人工标注。在现实世界中,大部分数据也是没有被标注的,机器可以根据算法(如聚类、降维等)对数据进行处理,实现机器视角的特征归类。在无监督学习中,不需要对数据进行人工标注,而是由机器对数据进行解析,得到特征之类的机器可理解的表征,再通过聚类算法等获得数据的分布,从而得到数据类别。无监督学习可依靠算法找到数据内在的监督信息。
强化学习也叫增强学习,是智能体与环境通过交互完成序列化的过程,一般由系统环境、智能体(Agent)、状态、行动和奖励五个部分组成。在这个过程中,智能体通过不同的行动,作用到系统环境中,系统环境根据行动的结果,给予智能体奖励或者惩罚,同时反馈当前系统环境的状态。为了获得最多的奖励,智能体会在这个过程中不断调整行动,以求用更优的行动来获得更多的奖励,最终完成任务。以AI玩通关游戏《超级玛丽》为例子,玩的时间越久、通过的关卡越多,获得的奖励就越多,在通关的过程中可操作的动作有向前跑、跳等,智能体通过不断尝试,最终会学习出一套通关的策略以帮助完成任务。强化学习的基本流程如图3-4所示。
强化学习是通过不断试错和追求最大化长期回报这两个特征来实现的,突破了监督学习标注数据的局限,也突破了非监督学习无法与环境动态交互的局限,为机器学习拓展了实现路径。强化学习十分适合用于决策类的场景,如训练控制算法和游戏AI等。在深度神经网络取得突破性进展之后,两者结合得到的深度强化学习更是助力AlphaGo、AlphaZero等象棋应用打败了人类。
除了监督学习、无监督学习和强化学习三种区分性较强的学习范式外,近些年,半监督学习、自监督学习等范式被不断应用。半监督学习是监督学习和无监督学习的结合,一般来说,半监督学习是在人工标注数据远远不够的情况下,通过少量标注数据和大量未标注数据进行学习的方式。在应用中,如何应用好大量未标注的数据,得到比应用大量标注数据更好的效果,是半监督学习方法需要关注的。
自监督学习是近些年比较活跃的研究领域,自监督学习是通过数据本身的标签或者变换得到的标签进行学习的,不需要专门的人工标注的标签。换一种说法,它从大规模数据中挖掘或者构造自身的监督信息,利用这些内在监督信息对网络的表征进行学习,从而在下游任务应用中,只需要少量的监督数据就可以获得较好效果。自监督学习由于无须提供人工直接标注的监督数据,故可以认为它是一种无监督学习,但从监督信息的角度看,它又存在自身挖掘或构造的监督信息,故又可以认为它是一种有监督学习。例如学习如何将黑白视频转换为彩色,可以先将彩色视频转为黑白视频,再将彩色部分作为监督信息来训练模型,模型因此学会从黑白到彩色的映射关系,而不需要人工专门为黑白视频标注上色;又例如,将图片中一部分区域遮挡,让机器学习如何恢复,如图3-5所示。
3、深度学习
深度学习是近年来发展最快的机器学习分支。深度学习是深度神经网络及其训练方法的统称。了解深度学习,应先从神经网络开始。
神经网络是由神经元组成的,人工神经元是模仿人的大脑的神经元细胞的基本模型。生物神经元包含了树突、细胞体、轴突、突触这4个主要部分,神经元有抑制和兴奋两种状态,当处于激活状态时,神经元处于兴奋状态,会产生电信号并将电信号传递给下一个神经元。在神经元中,树突用于接收信号,信号经过细胞体处理之后若满足激活条件,则通过轴突和后面的突触向另一个神经元输出。多个神经元之间的连接和层级组合构成了神经网络。
人工神经元包含了输入、处理、激活、输出4个部分。输入可以是原始信号,也可以是经过神经元处理的信号,信号经过不同神经元连接加权后会得到信号数值(加权和),该数值再经过激活函数的判断,就会得到输出信号,人工神经元和生物神经元有极大的相似性。
生物神经元与人工神经元对应关系
最小可学习的神经网络被称为感知机,多个感知机进行层级连接组合就可以得到多层感知机。多层感知机一般有一个输入层、一个输出层,还有一个或多个隐藏层,多层感知机所有层之间是全连接的,故这些层统称为全连接层。
多层感知机也就是我们说的人工神经网络,而随着隐藏层的增加,网络深度也在增加,我们称具有两个以上隐藏层的神经网络为深度神经网络。对于深度神经网络的训练,一般会使用反向传播(Back Propagation, BP)算法。
深度学习算法本身是一种优化问题的方法,该方法的优化效果取决于网络结构(建模)和参数。在不同的应用场景中,通过调整网络结构,以及通过数据训练网络参数,可得到最优的应用模型。深度学习可以理解为一套解决问题的数学模型,通过构建公式和学习参数,得到最后的解决问题的表达式。深度学习之所以强大,是因为深层网络可以学习数据中更深层的特征信息,因此深度学习本质上是一套拥有强大表征学习能力的通用的信息处理算法。深度学习通过更改接收和处理信息的结构和训练方法,可以应用于计算机视觉、语音识别、自然语言处理及其他各类信号处理等场景。
从归属上看,深度学习是机器学习的子集,而机器学习是AI的子集。机器学习又可分为监督学习、无监督学习、强化学习,而这三种算法与深度学习是一种交叉关系,也就是它们中有一部分属于深度学习。
深度学习的改良发展可总结为两大路线:一类是“大”路线,即大模型、大算力、大数据;另一类是“小”路线,即小模型、小算力、小样本。这两条路线也代表了两种应用场景,即云和端。在云场景中,有丰富且强大的算力用于处理海量数据,在这种场景下深度学习可集中解决中心化的问题,并突破问题的边界;在端场景中,算力、存储小,故这种场景中的深度学习更讲究经济性。
(1)在模型维度,“大”路线最具代表性的就是基于Transformer技术路线的超大规模预训练模型(如GPT-3等),该模型追求强大的表征能力;“小”路线最具代表性的是包括MobileNet等在内的一系列用于端场景的模型,该模型关注如何在保持精度的情况下对算力和存储要求更小,并更快得到结果。
(2)在算力维度,“大”路线追求如何利用大规模算力快速实现分布式训练、推理;“小”路线追求如何极致利用小算力。
(3)在样本维度,“大”路线追求用更多的数据让机器泛化能力更强;“小”路线追求小样本学习,可以举一反“百”。
尽管深度学习在很多领域获得了很大的成功,也有不错的发展前景和持续提升的空间,但是在商业落地上依然存在很多问题。这些问题很多是由深度学习的局限性导致的。比如,数据贪婪性,可解释性问题,泛化能力弱。
4、生成对抗网络
生成对抗网络(Generative Adversarial Networks, GAN)是一类无监督的机器学习模型,是Ian Goodfellow等人在2014年提出的。生成对抗网络包含了生成器和判别器两部分。生成器和判别器都可以是神经网络,生成器生成仿真样本,判别器判别样本好坏,两者形成一种竞争对抗的关系,在竞争中两部分都不断优化提升。 生成对抗网络示意图GAN在图像和语音等领域都有应用,其中在图像领域应用非常广泛,产生了许多框架,如DCGAN、StyleGAN、BigGAN、CycleGAN等,在人脸生成、动物和环境生成、人脸不同年龄段生成、通过文本语义生成图片等任务中获得了逼真的效果。
5、元学习
一般来说,我们使用机器学习来学习一个任务,是学习一个从X到Y的映射。比如学习分辨猫和狗的任务,我们需要收集大量的猫、狗的标注数据,然后对模型进行训练,当训练完成之后,模型可以用于预测图片中的是猫还是狗。但是当我们拿一张鱼的图片给该模型预测的时候,模型依然只能将图片中的动物分为猫或者狗,即该模型没有辨别鱼的能力。当我们想重新学习一个鱼的分类任务时,就需要重新收集鱼的图片,然后重新学习模型映射。这就是监督学习的最大缺点。针对这个问题,业内提出了许多方法,其中一个就是快速实现模型从一个领域到另一个领域的转换,就好像人学会了辨别万物之后,再面对未知的东西,只需要针对一两张新图片进行再学习,就可以快速掌握。如何让机器也学会学习?元学习(Meta Learning)就是这样一种技术。
元学习是机器学习的一个子领域,其思想是让机器学会学习。学习是一种基础能力,在这种基础能力的加持下,机器可以在已有知识的基础上快速学习其他领域的知识。元学习在方法上可划分为三种:基于模型的方法、基于度量的方法和基于优化的方法。
6、联邦学习与隐私计算
在深度学习中,为了让算法达到可应用落地的效果,除了模型本身要具有良好的特征学习能力外,还要有大量的标注数据。大批量的数据标注会面临3个问题:1)在一些场景中,对数据的标注需要具备专业知识,比如在医疗领域。2)数据的标注一般需要从需求方采集数据并汇集到算法方,一些需求方对数据安全的要求非常高,难以对外提供数据,对于高敏感数据甚至在一个企业内部的部门之间流通都非常困难。3)有些数据的产生是长周期的、长尾的,在数据标注方面的投入难以集中一次性完成,这是一个持续的、长期的过程,这会导致数据和算法的运维成本高昂。上述3个问题中,数据安全是最为棘手的问题。如何解决隐私和数据安全问题,是AI发展必须面对的一个重要问题,而联邦学习是一个可行解决方案。
联邦学习是多方合作的机器学习,是一种各个参与方可共同进行建模,在数据不出本地、保证数据安全的情况下对模型进行联合训练并共享最终模型的方法。联邦学习的核心是在本地训练模型以及加密、更新、共享参数,并最终优化出高质量的联合模型。
联邦学习最重要的价值是解决了安全隐私问题,从而解决了数据孤岛问题,这促进了更丰富信息在个体之间的交换,加速了AI创新应用。联邦学习还会促进企业之间的合作,催生新的商业模式。
7、可解释AI
对于可解释AI(Explainable AI, EAI/XAI),尽管学术界和工业界尚未形成统一定义,但可以理解为提供一套面向深度学习的工作机理可理解、决策可解读且人类可信任的技术和方法集合,从而满足用户对解释性的诉求。这些技术包括可视化、逻辑推理等。在深度学习的发展过程中,可解释AI也在不断发展。在视觉领域的常用使AI具有可解释的方法有基于梯度的可解释性、基于掩码的可解释性、基于类激活映射的可解释性等,这些方法都是通过关注AI判别的区域来确定AI是否做出了正确判断。
二、多模态感知及理解
每一种信息的来源或者形式都可称为一种模态。人与人之间可以通过视觉信息、语音信息、文字信息等进行交流,而交流的过程可以视为针对不同模态的信息进行沟通和理解。智能体与外界同样需要通过像图像、语音、文本这样的信号进行交互。
1、计算机视觉(Computer Vision, CV)
研究计算机如何模拟人或生物视觉系统的学科,是使用计算设备(如摄像机、计算机等)代替人眼进行环境感知和理解的技术,具体地说是计算机通过感知获得成像数据,并对成像数据中的目标进行识别、跟踪、测量、理解等。计算机视觉是重要的AI研究领域之一。
在计算机视觉领域的AI落地过程中,采集图像是工作的第一步,而如何获取好的图像或视频是至关重要的。在安防、交通、工业质检等行业的许多应用中,人们会在图像生成方案上下非常大的功夫。比如在自动驾驶领域,视觉+激光雷达的方案会利用2D和3D信息进行融合分析。在图像生成上,为了无死角获取全车信息,一般在车的前、后、左、右、上这5个方向安装传感器。在工业质检中,在图像生成上,人们会在光源、镜头、相机等几个维度下足功夫,以确保获得针对目标缺陷清晰、无异议的图像。
自2013年R-CNN算法提出,至今发展出了很多目标检测方法,在精度和性能上都有了很大的提升。从目前应用来看,比较流行的检测算法可以分为两大类:一类是R-CNN系列算法,包括R-CNN、Fast R-CNN、Faster R-CNN等,这类算法是基于两阶段(two-stage)实现检测的,即先在图像中产生目标候选框,然后对候选框做分类或回归;另一类是基于单阶段(one-stage)实现检测的,仅用一个网络同时预测目标位置和类别,比如YOLO、SSD。两阶段的方法精度高但速度慢,单阶段的方法速度快但精度相对较低。
2、语音识别(Automatic Speech Recognition, ASR)
语音识别(Automatic Speech Recognition, ASR),是将音频信号转换为文字/文本信息的一种技术。语音识别的核心是将声音转换成文字,无法区分说话人,也无法理解文字所表达的意思。从技术处理的流程看,语音识别的输入是音频,中间经过预处理、特征提取、特征识别,最终输出为文本。
在传统的语音识别中,需要经过语音预处理、语音特征提取、声学模型训练和识别、语言模型构建等环节的处理,才得到最终语音对文本的转换。
3、自然语言处理(Natural Language Processing, NLP)
NLP是计算机和AI领域中的重要应用方向。自然语言是人类在社会发展中发明的以文字为核心的信息交流形式,包括汉语、英语、法语等不同种类的语言。自然语言处理是研究人与计算机如何通过自然语言进行交流的融合学科。
自然语言处理根据应用过程中理解和回应两个环节,可以分为自然语言理解(Natural Language Understanding, NLU)和自然语言生成(Natural Language Generation, NLG)。NLU主要解决机器如何理解自然语言的问题,包括文本分类、实体识别、语句分析、机器阅读理解等。NLG则关注机器在理解自然语言之后如何做出回应,并将回应转换成人类可理解的语言,包括自动摘要、机器翻译、自动问答。可以说,NLU是NLG的基础,可以帮助机器更有效地生成人类可理解的语言。
从应用方向上看,NLP主要用于信息抽取、信息检索、文本分类、文本挖掘、信息过滤、舆情分析、文本摘要、文本生成、机器翻译、对话/问答系统、知识库、知识图谱等。
4、认知图谱(Cognitive Graph)
认知图谱(Cognitive Graph)旨在结合认知心理学、脑科学和人类知识等,研发集知识图谱、认知推理、逻辑表达于一体的新一代认知引擎,实现AI从感知智能向认知智能的演进。智能发展到现在已经经历了4个阶段。智能发展的4个过程知识被认为是从感知跨越到认知的基石。所有感知的信息只有在知识的加工下,才可以形成更高级的认识。知识图谱就是AI技术中关于知识构建(加工)的技术,也是从感知智能向认知智能跨越的桥梁之一。当大规模的知识被结构化地构建和连接后,认知推理、联想等更多高级别的行为才有可能得到真正推动。知识图谱(Knowledge Graph, KG)本质上是一种语义的网络、一种图形化的知识表达形式,可将客观世界中的实体、概念、关系、事件等进行有效联结。
知识图谱技术主要指构建知识图谱所需要使用的技术,这是融合了机器学习、信息抽取和检索、知识表达等的综合性技术。整个知识图谱的构建是一个从知识获取和表达到知识的关联构建,再到知识的存储和利用的过程,因此可以从知识图谱表征、知识图谱构建、知识图谱存储三方面介绍知识图谱技术。
常见的语义搜索、知识问答、推荐系统的实现均需要知识图谱技术的支持,知识图谱的性能决定了这类应用的性能以及智能化程度。语义搜索是最常见的应用,在我们使用搜索引擎进行内容搜索的时候,搜索系统会解析用户输入,提炼实体和关系等信息,利用知识图谱的结构化知识挖掘深层含义,理解用户意图,然后找到与用户意图匹配的语义内容,再通过特定形式排序并呈现。
知识问答可以理解为在特定场景下的语义搜索,这类应用在智能客服等场景中使用较多。其通过一问一答的方式解析用户语义,挖掘知识图谱中与之目的最匹配的答案,并进行回答呈现。
基于知识图谱的推荐系统也有非常广泛的应用,在电商、社交、支付等互联网消费场景中,对用户行为、关系等进行画像分析,可以获得用户的兴趣爱好、消费倾向与时机等。利用知识图谱技术,可构建用户和产品的关系,从而推断用户规律性和阶段性的需求,从而实现精准推荐。
5、机器翻译
机器翻译是NLP中最常见的应用,也是备受关注的研究方向,机器翻译是将源语言文本通过机器转换为目标语言的过程,谷歌翻译、百度翻译等应用都是基于机器翻译技术实现的。机器翻译的应用场景众多,包括开放翻译系统中的语句翻译,如谷歌翻译、百度翻译;聊天场景中的辅助翻译,如微信;输入法翻译;还有诸如AI同传、语音问答翻译等。机器翻译技术的突破解锁了大部分的翻译场景。
我们身处一个充满多模态信息的世界,人对世界的理解不仅可以通过视觉感官实现,还可以通过听觉接收声信号、通过嗅觉感知气味、通过味觉感知味道来实现,然而世界上有众多信息是超越人感官可感受的,比如超声波、激光、辐射信号等。而对于智能体,要获得更高的智能,与外界进行信息交互也不可仅局限于单模态,而应该充分利用多模态信息,因此多模态信息的表达、互补、融合及理解成为AI应用中的重要课题。
AI赛道有非常多的划分方法,如技术导向和业务导向。技术导向是根据AI技术进行市场细分赛道划分,如根据计算机视觉、语音识别、自然语言处理、机器学习进行划分。业务导向是根据AI落地应用的业务方向进行赛道划分,如AI+安防、AI+交通、AI+制造等。
AI产业的发展会形成两个方向:一个方向是以基础能力为核心的横向发展,如AI技术的产品化、标准化、通用化;一个方向是为传统行业赋能的纵向发展。定义横向发展为AI行业化,纵向发展为AI赋能百业。AI的行业化是寻找稳定的、标准的能力或者载体,如AI芯片、多模态AI平台、虚拟数字人等,这些区别于传统业务和产品的“新物种”,让AI本身成为一个行业。而AI赋能百业,更多的是在原有业务基础上使用AI工具进行优化。当我们寻找赛道的时候,会关注横向新物种的发展,也会关注纵向业务应用,其中最关键的是要看准市场需求、市场规模、市场阶段和时机、市场竞争。