百度云刘炀:ABC时代,AI让消费者洞察更准确更深入

11月30日上午,百度云智峰会在北京召开,百度云事业部联席总经理刘炀表示“ABC”时代开始了。

何为ABC?刘炀表示,A代表智能、B代表大数据,C代表云计算,这三者在技术、业务、产业等方面有非常紧密的结合,而百度云将自己定位于云计算、大数据、人工智能三位一体的公司,原因正是在此。

百度云联席总经理 刘炀(至顶网供图)

刘炀认为,新时代背景下呈现出三个新特点:消费者驱动、数据爆炸和人工智能。他表示,从经济发展轨迹看,当下的经济环境已经从三十年前的产能不足发展成产能过剩,是一个消费者驱动的时代,谁能够真正的洞察消费者,谁就可以掌握先机。随着互联网、物联网的发展,消费者的数据、物联网数据,以及内容数据正在充斥整个世界,企业需要从这些数据中获得洞察,理解这些结构化、半结构化、非结构化的数据,而人工智能则会让技术对于这些数据的理解和洞察更准确、更深入。

为此,百度云发布了人工智能平台——“天智”,这也是继“天算”、“天像”和“天工”三大平台后,百度云发布的第四大平台级解决方案。至此,百度云实现了人工智能、智能大数据、智能多媒体和智能物联网全方位的智能平台服务。

据了解,天智由感知平台、机器学习平台和深度学习平台三部分组成。感知平台主要包括图像技术(文字识别和人脸识别)、语音技术(语音识别、语音合成和声纹识别)和自然语言处理(NLP Cloud),可以应用于智能客服、身份验证、内容审核等场景,应用开发者可针对特定场景的应用直接调用API。

刘炀介绍道,在人工智能技术研发方面,百度每年都要投入巨大的资金支持,并且已经拥有了深厚的技术积累,其中百度语音识别入选2016年MIT十大突破性技术,中文识别准确率达到97%。

机器学习平台是百度云端托管的机器学习服务,可以打通机器学习全流程,内置20多种高性能算法,并开放Spark MLlib,同时支持百度用户画像数据,并提供多种应用场景模版。

深度学习平台具有灵活、高效、可伸缩、开源等特点。它支持多种神经网络结构和优化算法以及自定义网络配置,对于计算、存储、架构、通信等多方面多了细致优化。它支持多核、多GPU、多机环境,其Paddle内部技术已经使用成熟,并实现对全球开发者的开放。深度学习平台适用于精通深度学习的数据科学家,针对企业或研究部门的特定项目,需要大量的客户标注数据。

刘炀表示,借助天智平台,企业和开发者可以便捷地获得百度的人工智能技术能力,实现业务创新、提升用户体验等。百度天智将持续保持开放,推动各个行业的转型,进入ABC时代。

这几年来,百度已陆续将人工智能技术用于搜索、安全、医疗、教育、无人车等每一个业务层次,人工智能不仅支撑着百度的核心业务发展,此次“天智”平台的发布,也标志着百度云通过天智、天算、天像和天工四大平台向企业和开发者共享人工智能技术能力,推动整个行业的创新进步。

以下是演讲实录:

各位嘉宾上午好,今天非常荣幸有机会在这里跟大家一起汇报一下百度在ABC这个时代的想法,ABC是什么意思呢?刚才张亚勤已经做了一个解释,A的话是AI,B的话是大数据,C是云计算。ABC还有另外一个意思,大家知道ABC是英文26个字母的三个首字母,对于首字母来讲ABC代表一个时代的开始。

既然我们提到一个时代,首先我们看看这个时代有什么样的特征。首先我们看到这个时代是一个消费者驱动的时代,我是70后,我相信在座的有不少朋友经历过三十年前我们很多东西需要票的,有粮票、饭票、菜票等等几两几两的。为什么有票呢?三十年前是一个产能不足的时代,供不应求,所以过去的三十年里面大家又看到中国的历史发展的话主要的精力都在做提升生产力。IT作为一个行业的话,在这个过程中扮演了一个非常重要的角色,整个IT的话我们帮助进行这个流程自动化。所以过去的三十年间,整个这个IT的话主要是以流程自动化的方式在大幅度提升这个生产力,必须说过去的三十年是非常非常成功的三十年。

今天的话我们很快,短短三十年里面,已经从产能不足到了一个产能过剩的时代了。今天大家更多的不是担心东西造不出来,而是东西卖不出去。所以今天已经成为一个消费者驱动的一个时代了,谁能够把东西卖给消费者,谁能够真正的洞察消费者,谁就可以掌握先机,今天是一个消费者驱动的时代到来。第二个时代是数据爆炸的时代到来。这个和前面非常相像,我们看到有几种类型的数据爆炸,一种是消费者行为数据在爆炸。像百度、BAT等等国际上所有的互联网公司发展起来基本上都是在做消费者行为大数据,所有这些公司今天能够发展到这样一个规模的话,都是因为消费者行为数据在大量的收集,并且在应用这些消费者行为大数据的话,产生了很多的产品,今天我们不断的看到消费者上网的人数在不断的上升,中国现在已经是七亿互联网网民了,同时越来越多的设备也在收集消费者行为,用户行为的数据。

所以第一个爆发的数据是消费者行为数据,所以前面的消费者驱动时代的到来几乎是同时的发展的,第二个爆发的数据是物联网数据,这个不用说了,就是说到2020年,260亿的设备上网,40个CB的数据上网,这都是物联网数据在爆发,第三个数据是很容易被忽略的,内容大数据,我们看到内容数据也是在不断的上升,像图片和视频。我们今天很多朋友拿手机拍照片,上传到像百度网盘这样的设备里面。那么百度网盘每年的数据的增长量几乎都在每年翻番的速度在增长。所以这一类数据和前面两类数据有一点不同,前面两类数据往往是结构化,半结构化的数据,这一类的内容的数据往往都是非结构化的数据,所以处理结构化,半结构化的数据,像Hadoop这样大数据平台的话,很多能够成立结构化,半结构化,对于内容数据的话我们往往需要理解内容,所以人工智能的数据需要跟着这些数据大规模的起来。

所以我们看到第三个时代的到来,人工智能的时代到来。人工智能不是一个新概念,有60多年历史了,过去的发展也经历过起伏,为什么今天人工智能的发展这么快呢?核心的来讲是深度学习的技术突破。左边这张图的话就展现了一下,老的一些算法的话,数据增大之后边际递减比较快,效果随着数据的增加就不会再增加,而人工智能是数据增加以后,效果会不断的增加,所以人工智能和算法数据爆炸时代相结合的话,就形成了人工智能这么热,这么火一个很重要的原因。

刚刚这三个时代的到来,大家可以看到是环环相扣的,消费者时代的到来,大家对消费者行为数据的大规模的收集和理解,引起了我们大数据的规模的发展,同时我们推动了互联网大数据的处理,同时由于消费者行为数据的大幅度的增加,我们越来越多的内容数据也是在不断的增加,这些数据需要更好的算法和更好的人工智能的能力,所以紧跟着人工智能也是在这个大环境下大规模的爆发。

所以我们看到ABC这三个东西不是说拼凑起来的,ABC之间是有着非常天然的紧密的,不但是技术上,也有业务上,产业上的紧密相关的联系。百度作为一家中国的互联网平台级公司,我们一直也是说沿着这样一个逻辑,沿着这样一条路线走过来。我们在云计算、大数据、人工智能都有多年的一个积累和沉淀,我们的视野后面相信这是一个时代的需求。所以我们一直给自己的定位就是说云计算、大数据、人工智能,三位一体的这样一个云计算平台。

2016年的话可以说是百度云的一个元年,在今年的话,我们七月份,正式对外,也是发布了百度云计算的战略,十月份的话也是进行了品牌的升级,从过去叫做百度开放云,重新命名为百度云。今天的话我们也是作为这个首次的百度云智峰会来给大家见面。所以我们说2016年是一个百度云的商业元年,2016年是诞生的元年,我们孕育过程中很长,有十几年的技术积累,今年之前百度云的团队也成立了,进行了很多研发,这些使得我们能够非常快速的推出很多的新产品,到今天的话,百度云上面我们已经有80几款产品了,所以的话,大家也可以到我们的官网上对这些产品有更多的了解。

这里花几分钟的时间把我们的产品给大家做一个简要的汇报,七月份的战略发布会上,我也是给大家介绍了百度的基础云、天算、天像、天工的智能平台,基础云是云基础设施,天算是智能大数据平台,天像是智能多媒体平台,天工是智能互联网平台。首先看基础云,提供了从计算到存储、到网络、到安全整个完整的基础架构的设施。那么百度的基础架构是基于百度多年的发展,我们今天拥有中国最大的自己建设的互联网数据中心。我们有非常多的专列在这个硬件的研发上的专利,我们的存储,经过了百度网盘的考验,我们的存储是中国最大的存储系统,同时我们提供了完整的,一般的分级的存储机型,可以有多附本和低附本的,可以适用于一般的也可以备用的场景等。

今天下午我们在分论坛上也会向我们ABC的网络设备的产品的话正式对外开放,所以我们在整个的基础云领域的话投入了非常多,也做出了非常多的事情。

天算的话是希望能够提供一个完整的,从数据收集,到数据存储,到数据分析,再到最上层的专项方案到行业方案一套完整的解决方案,能够帮助大家把这个数据处理好,能够把这个数据真正用起来,因为数据爆炸时代必须要有一套完整的后台体系,能够支撑数据从数据资源变成真正的业务价值。

天像是这个智能多媒体平台,前面提到了今天是内容数据大爆炸的时代,天像主要是针对内容数据的,所以天像我们原来取明叫做天涯咫尺、包罗万象,就是讲天像很重要的一点,能够帮助把你把这个内容给到天涯之外的人,像咫尺一样,在内容分发等领域做了很多的事情,包罗万象是指天像是含有不同的各种内容,无论是文本、还是音频,还是图像、直播等等的内容,这些内容在天像平台上都可以进行支持。所以天像的话,如果你有什么内容数据需要支持的话,无论是什么类型,无论是什么样的方式传递给你的消费者的话,天像平台都可以提供非常强大的支持。

天工是智能物联网平台,刚刚提到了三个数据大爆炸里面,其中有一个是物联网数据大爆炸,我们也非常看好物联网这个时代的到来。所以天工的话事实上是说我们可以提供全方位的支持,从端上面的数据采集到通过工业协议,将数据传递到云上,在云上进行设备的管理和可视化的展现,同时的话,我们也比较特殊的支持实时数据库,这是物联网时代一个非常有用的东西。更重要的一点,天工和后台的天算平台和整个百度云可以进行深度集成,所有的数据在云上,使用我们所有的大数据的能力进行处理。

简单的介绍了一下刚才提到的这个百度云在七月份的发布,接下来这些平台都会有分论坛,在分论坛里面会对所有的产品进行一个更全面,更详细的阐述。

今天的话,我们必须要谈下一幕是什么?我相信大家看到这三个字毫无疑问可以猜出来是后面四个字是什么,对,是希望人工智能。在今年的人工峰会和百度峰会上都在提出来下一步人工智能的概念,今天来讲人工智能已经成为整个百度的核心战略,百度非常多的基础研发都是围绕着人工智能来进行的。

所以今天的话,也是借这个机会,借这个场合我们推出一个新的在百度云上的平台,天智平台,这是人工智能平台,天智这个名字来自于哪里呢?来自于韩非子,一一篇文章其中提到了人也者,乘与天明以视,寄于天聪以听,托于天智以思虑,这句话什么意思呢?我也不是古文专家,我的理解是这样的,人依靠自然生存的视力去看,依靠自然生存的耳朵去听,一号自然生存的思维的能力去进行思虑。这句话后面下面一段是什么呢?下面一段说如果一个人用眼过度,目光就会模糊,如果一个人用耳朵过渡,听觉的话也会受损,如果一个人思虑太多也会使他的神志受到影响。所以这是韩非子在这句话后面的一句话。我觉得这句话很契合我们天智平台所推出的原因。我们其实推出天智的原因是让天智帮助你听,让天智帮助你看,让天智帮助你思考,减轻你过渡的听、看、思考的负担,让大家能够把更多的精力放在更有意义,更有创造性的事情上。所以这是我们天智平台的名字的来源,以及我们天智平台所期望达到的愿景。

刚才提到了人工智能的话,作为一个百度战略,百度在上面投入了非常非常多投入。我们首先看一下我们在百度,在这个人工智能的视野上到底是怎么样的,百度是做搜索起家的,同时的话,我们主要收入来源靠百度推广,所以无论是推广还是搜索,都是已经在过去大量使用积极学习的方法,人工智能的方法在我们的系统中。除此之外我们在2012年百度是中国互联网公司里面最早成立专门的研究院来布局人工智能。我们在美国的话,有美国的研究院,同时的话我们在北京也有北京的深度学习研究院,大数据研究室,我们在自然语言的理解和图像和语音等等方面都是有非常多的投入。

同时,百度也花了很大的精力会聚世界上最优秀的全球顶尖人才,像我们的首席科学家是全世界人工智能领域首屈一指的科学家,张亚勤也是在这个领域里面非常资深的科学家。

正是因为这样的投入,在2016年,麻省理工科技评论中,在评选了全球最聪明的50家公司里面的话,百度名列第二,这主要的原因是我们在人工智能上的非常大的投入。

同时就是说百度在研发的投入上非常大,我们收入的百度15.89的比例是投入在研发里面,这个比例在中国所有公司里面,应该说在研发强度上最大的公司。

那么,这么大的投入,在人工智能领域里面,今天百度的人工智能到底突破到了哪里了呢。以前有一个讲法,现在人工智能的能力到了一个几岁小孩儿的水平,我们后来自己思考的话,其实这个说法也不是很恰当,因为比方说三岁的小孩子,他要做一个乘法都做不出来,而这一点几十年前的计算机就可以做了。另外一个方面,三岁小孩儿所能表达出来的创意和情感、情绪,这些东西,事实上今天的,用百度几十万台机器的话也并不一定能够完全的模拟。所以我们觉得很难用一个简单的说法来讲智能到了几岁小孩儿的水平来描述。

那么怎么样来描述呢能够让大家很容易听懂,我们总结了两句话,基本上今天的百度人工智能做到什么程度呢,比如说一个正常人一秒钟能够做的事情,百度人工智能也基本上可以做好。另外一个是假如你有大量的数据,大量的重复事件的数据,你想预测下一次到底怎么样的话,那么百度的人工智能能力基本上也可以做好。这是今天百度人工智能能力今天已经突破到了一个境地。

那么我们简单的来看一下第一个的话是语音识别,百度的语音识别是世界上最早使用深度学习的方法来进行的Deepspeech语音识别的系统,中文识别率大于97%,同时目前的MAT2016年十大突破,传统的语音识别经过了多个分段的模型,从最开始的到音素再到语言模型进行一个转型,得到最后的结果。但是事实上大家知道我们自己人进行语音理解的时候是没有这些阶段的,基本上声音听到了马上在脑袋里面就变成了最后的理解的涵义。不会有多阶段的模型的转化。那么今天基于这样的思想,百度在深度学习领域里面的大规模的研究和突破的话,今天百度也是完全采用了深度学习的方式,多层的神经网络,而不再是使用像过去一样进行声学模型、声素模型和语音模型等等的多层转换,也正是因为这样的新技术使得百度在语音识别上的能力有了大幅度的突破。

第二个例子看看从图像,因为大家知道图像的数据,今天是爆发性的增长,越来越多。而且图像,人的眼睛其实是人获取信息最大一个渠道,百闻不如一见啊,就是说眼睛是人获取信息最大的一个渠道。所以图像的话在各个领域的使用也是越来越多。举一个例子,这个图像应用在真假的识别,到底是真还是假,百度在这个领域做的也是非常多,包括了人脸的识别,图像的识别。图象识别的情况下,即便这一个图像的质量很差,比如说光很暗的情况下,百度的图象识别可以远远高与人眼的识别能力,像很暗的人,我也可以判断出是不是真,是不是假。另外我们人脸识别可以做非常好的活体检验。一个人动的话我们在非常快的时间内就可以判断出来这个人是不是在动,同时的话这个人在动的过程中可以把脸部的图像进行和身份的引证。手写签名也是一个例子,很多的银行等领域需要用手写签名来判断,今天这个手写签名也可以做到这个非常高的识别率。

除了从图像中识别真假的话,更重要的,更有用的事情是从图像中识别内容。这里面有三个例子,第一个例子是从图像中去寻找文字,这个的话事实上是传统中大家所说的OCR,OCR也不是一个新概念了,但是过去这几年,OCR的技术是突破得非常快的。因为过去也像语音一样早期的OCR的话也是采用了,分了很多段的模型。今天的OCR已经是大量使用深度学习的方法了,像人一样,一眼看上去不会把一个文字先分解成笔划,而是通过一个整体方式去获取信息。百度OCR在国际文档分析和识别大会的去年竞赛中获得了四个领域的世界第一。也就是说总分的话也是世界第一。所以百度在OCR的领域事实上做了非常多的事情,很多的产品,比如说像作业帮的拍一张题目,放一个词出来,在图书中拿出来文字,也相当与拿一个菜单拍照,结合百度翻译把菜名从中文翻译成英语等等很多的领域都是在OCR。所以OCR今天已经是进入了一个特别实用的时代了。

除了OCR之外,我们还支持从这个图像中去分别内容,比如说第二张图,问冲浪板是什么颜色,黄色,事实上这看上去很简单,但是很重要的一点,需要从这张图里面去寻找,哪一个部分是冲浪板。不但是有对图形的识别,我们也支持视频的识别。后面这个视频中可以讲述大致是什么样的内容。

当然,人工智能不会只停留在这些领域,还会大量的使用在百度的无人车的领域,今天百度在无人车和自动驾驶领域投入很大,我们同时投入L3和L4,既包括全自动的人工智能,也包括高度辅助的这个自动驾驶。今天的话,人工智能其实是一个,无人车是一个人工智能集大成的领域。非常多的技术都在无人车上使用,语言分析、分析决策、高清地图、图象识别、规划行动和智能推荐等等。刚刚过去的乌镇互联网世界大会上,百度的18辆无人车在现场给大家做了非常多的演示,很多的朋友去尝试乘坐了百度无人车,当然,无人车的路还很长,需要更多的人工技术去投入和发展。

综合前面所有的技术,百度在今年9月份首次向外界全面披露了百度人工智能的成果,包括了刚刚提到了语音技术、图像技术、自然语言处理和机器学习的平台和用户画像等值。九月份百度向大家全面展示了百度人工智能的成果。

今天的话,百度大脑的能力通过我们的天智平台对外开放。所以天智平台,像刚刚所提到的所有的人工智能的能力的话,对外进行输出,对外进行开放。

那么接下来我花一点时间介绍一下天智平台到底包括了什么,我们这次发布了什么,天智平台,基本上分为三个子平台,分别是感知平台,机器学习平台和深度学习平台。我接下来稍微介绍一下这三个平台各自干什么的。

感知平台主要输出是图像技术、语音技术、自然语言处理的技术。图像技术的话包括了文字识别、人脸识别等等,语音技术包括了语音的识别和语音的合成,声纹的识别等等。自然语言处理的话包括了百度的NLP Cloud的能力,也会对外进行输出。如果你想很容易的记住这个感知平台干什么的话,大家就记住一个字,聪明的“聪”,聪是由耳目口心组成的,所以耳朵干的事情,百度的感知平台上可以听,可以理解,眼睛能干的事情,我们会把图象识别和视频识别的技术进行对外开放。嘴巴能干的事情,把自然语言合成,然后生成带情感的自然语言进行输出,可以在这个平台上完成。我们还要对内容进行理解。

所以感知平台其实有一个特点,基本上的话基于百度自己搜集的大量的人机交互的数据来进行这个机器学习来生产模型,最终的话我们感知平台可以提供一个API,由外部直接进行调用。所以对感知平台的使用者其实不需要懂人工智能的技术的细节,因为感知平台包装出来的API基本上都是应用级别了,像输入一段语句,我们可以把文本自动翻译出来,或者是说输入文本把自然的语音输出出来,所以对于感知平台使用者来说不需要懂机器学习也不需要积累大量的数据,百度已经做好了这件事。所以应用开发者可以直接使用感知平台,应用开发者很重要的一点为感知平台寻找非常好的应用场景。

第二个平台是机器学习的平台,机器学习平台跟感知平台不一样,机器学习平台事实上是一个托管服务。在机器学习的平台上我们将完整的数据训练的流程打通,我们机器学习平台和天算平台,和我们的智能大数据平台,是进行了一个深度的集成。所以这个平台上的话,我们打通了机器学习的全流程,我们内置了二十多种常用的机器学习的算法。同时的话,我也支持业界标准的Spark MLlib,同时也对应了百度内部的非常多的数据和常用模板。机器学习是什么内容呢?第一个是你自己得有数据,机器学习到哪了,一秒钟的时间可以解决的事情,我们通过感知平台可以解决。另外是如果有大量重复发生的数据需要进行预测的话,百度的机器学习平台的话实际上是非常适合这样的场景的。

比如说我们在物流领域里面如果有大量的过去的传输的数据的话,这可以预测下一次从一个地方到另外一个地方要花多长时间哪一条路最好,这适合机器学习平台去解决的。所以机器学习平台需要团队里有数据工程师,需要他来理解数据的流程和特点,需要懂一点点机器学习的常识,在平台上把数据玩转,所以机器平台主要是适合这样的朋友。

第三个平台是深度学习平台,百度也是在九月份在百度内部最有名的深度学习的框架对外进行开源。那么,paddlepaddle是百度内部大量的数据系统组成的深度学习的平台,今天对全球开发者进行开放。这是非常多的神经网络的算法,同时非常高效也非常灵活,如果是小规模的数据进行研究的话,可以单机进行,如果说数据量大一点,一个分布式系统可以运行,如果数据量特别大的话需要有CPU的集群来进行这样一个能力来学习。今天paddlepaddle开源了,大家可以在自己的机器上进行搭建和使用。同时在百度云上我们将paddlepaddle服务化,您自己没有机器,希望快速使用paddlepaddle的话,在我们百度云的平台上也可以来使用。

那么深度学习平台使用适合于谁?深度学习平台因为今天已经非常简单化了,更适合与数据科学家,对数据的模型运作有深刻的理解才能够来使用这个数据学习平台。您是一个创新型的,专门做人工智能领域的公司,或者是说您是有非常非常大量的数据能够找好的数据科学家来进行解决问题的公司的话,深度学习平台是一个非常好的平台。

所以综上的话百度天智平台由三个部分组成,感知平台,深度学习和机器学习平台,这样的场景对应各自不同的公司的数据,您做应用开发,把人机交互的能力做得很好,希望能够做大量的语音图像等等的领域的事情,欢迎使用感知平台,如果您自己手上有大量的数据,希望从这个数据中去挖掘出能力,欢迎大家使用这个机器学习的平台。如果您有超大量的数据,同时的话,您这里有数据科学家,可以帮助您处理的话,我们欢迎大家来使用深度学习平台。

当然,今天的话天智是1.0的发布,未来还有很长的路要走,今天我们在机器学习领域我们认为我们还处在一个感知的时代,后面还有非常长的路要走来解决认知的问题。所以我也是希望随着百度在人工智能的领域不断的积累,不断的将越来越多的能力通过天智平台进行对外诉求。

所以最后我们也是非常看好整个人工智能在未来所有的行业里面的应用。O2O、物流、智能家居、医疗、金融、智能终端等等所有领域都有非常大的,非常强的人工智能的场景。所以我也是希望百度云能够服务好各位,我们一起携手来让人工智能,大数据和云计算的能力在更多的领域里面开花结果,好,谢谢大家。


AD:《极客网》企业会员火热招募中...

  • 写评论
  • 0