来源:Coursera吴恩达深度学习课程

 作为deeplearning.ai课程的一部分,Andrew希望除了教授技术理念之外,同时介绍一些深度学习的先驱给大家认识。在这个视频中,Andrew也希望问问这些先驱们,能不能给一些工作上的建议,关于如何入门深度学习,如何做课题研究或者如何在深度学习领域找一份工作。作为这个采访的开头,很荣幸先展示Geoffrey Hinton的采访视频【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton。接下来,采访 Pieter Abbeel,文章末尾有总结。

 吴恩达:谢谢你,Pieter,能够来到这,很多人都认为你是一位有名的机器学习、深度学习、机器人技术的研究者。我想让更多人知道你的故事,你是怎么开始的呢。

 Pieter Abbeel:这是个好问题,要是你问14岁的我,我的志向在什么,可能就不会是现在的答案,那时候我想当职业篮球运动员,我不认为我能做到。

吴恩达:机器学习侥幸做成了,篮球应该没戏。

Pieter Abbeel是的,没戏,打篮球很好玩,但是变成职业不太行,在学校我最喜欢物理和数学(physics and math,所以之后学工程就比较自然,也就是实际应用物理和数学。之后,我本科毕业于电子工程后,我不太确定做啥,因为工程相关的一切都太有趣了,去懂得一个东西如何运作很有趣,建一个东西也是某种意义上,AI赢了,因为看起来它在某种程度能帮助所有学科,并且它看起来是一切东西的核心,你会思考一个机器怎么思考的,那可能是一切的核心,也就不用选某个特定的学科。

吴恩达:我一直在说AI是新的电力(AI is the new electricity),听起来14岁时的你,已经有很超前的意识,过去几年你在深度增强学习中贡献很大,现在情况如何,为什么深度增强学习(deep reinforcement learning)突然变得重要?

Pieter Abbeel在我研究它之前,我研究了很多增强学习,与你和Durant在斯坦福的时候。当然了,我们做了自主直升机飞行,后来去伯克利和我的学生们,做了个会叠衣服的机器人。可以说是用组合的学习方式来描述,做成一些不学习就无法做成的事,也结合了领域知识才能完成,这很有趣。因为你需要领域知识,想办法学到很好玩,但同时每次想做成新的应用都会很耗时,需要领域知识(domain expertise)和机器学习知识(machine learning expertise)。在2012年,通过Geoff Hinton多伦多小组对ImageNet的研究结果突破,AlexNet证明监督学习,突然之间大大减少了工程量,AlexNet中所用的工程量非常之小,让我开始思考,我们该用类似观点回顾增强学习,看我们能否用增强学习做与监督学习同样有趣的事。

吴恩达:听起来你早于,大多数人前,发现深度监督学习的潜力。展望未来,你看到下一件事是什么,你对下一阶段有什么样的预测在深度增强学习中

Pieter Abbeel我认为深度增强学习有趣在于,某种程度上比监督学习有更多的问题,在监督学习中问题在于输入,输出,映射;在增强学习中是数据是从何而来的,就是探索问题本身,当你有数据之后,你怎么做信用赋值,你怎样理解早期做什么,才能之后受益以及安全问题,当你有自主收集数据的系统后,在很多情况下其实很危险,想象一家自驾车公司说,我们只会用深度增强学习来运行车辆,听着就像会有很多事故,在真正起作用之前。

吴恩达:你需要反面例子(negative examples),对吧。

Pieter Abbeel是需要反面例子,希望也有正面的。我觉得深度增强学习还有很多挑战,在解决特定问题时如何做成功,深邃的部分在于表达,增强学习本身还有很多问题,我个人觉得是深度学习的进步,一部分增强学习的谜团能被解开,就是表达的部分,如果有模式,我们可能表达为一个深度网络,并抓取模式,怎么分解模式仍然是增强学习中很大的挑战。我认为大挑战在于,如何让系统在长时间线上保持推理能力(how to get systems to reason over long time horizons.,现今很多深度增强学习,都是短时间线上的。还有很多问题是,如果对五秒的反应不错,对整个问题的反应都会不错。五秒和一天的规模相差很大,或是让机器人或软件主体保持一辈子的功能。我认为这里面有很多挑战,安全方面的挑战是当效果已经很不错时如何安全持续地学习。所以,再举个例子,很多人对自主驾驶车(self-driving cars)很熟悉,让它们比人开车更好。假设人在每三百万英里,碰到一次很糟的事故,会需要很长时间才会有负面数据,如果和人一样好的话,但你想要更好,那么数据的收集就变得很难,很难得到让系统表现更好的数据,探索其中有许多牵连的挑战。我最兴奋看到的是,我们能不能往后一步,还是能学增强学习的算法。增强是很复杂(So reinforcement is very complex),信用赋值(credit assignment)也是,探索(exploration)更是,就像对于深度学习中的监督学习,可以做到替代领域知识,可能也能有程序--增强学习的程序也能做到取代我们亲自设计细节

吴恩达:学习回报函数还是整个程序?(learning the reward function or learning the whole program?)。

Pieter Abbeel这就需要学习整个增强学习程序,可能是,想象一下,你有这么个程序,不管是什么,你给它一个问题,看多久才能学会,然后发现,嗯,花了挺久,让另一个程序来修正原本这个,加完这一步,试试看,要是学的快多了,修正的就很好,然后从此想办法继续进步。

吴恩达:我明白了,奠定基础。

Pieter Abbeel这可能和可用的计算量有关,就像在内环中运行增强学习,现在,运行增强学习是最后一步,越多计算量越有可能运行的了,就像在内环的增强学习是更宏观算法的一部分。

吴恩达:从14岁起,你在AI工作有二十多年了,你怎么理解AI这段时间的进化

Pieter Abbeel我试着理解AI的时候很有趣,因为其实与我在斯坦福的硕士学位相符,其中有很多领袖我亲自交流过的,比如John McCarthy,相比较2000年时,用的方法与众不同,和大多数人在做的事不同。然后和Daphne Koller的交谈,形成了我对AI最初的想法,她的AI课程,她的概率图模型课(her probabilistic graphical models class),让我真正产生兴趣,随机的变量如何应用于简单的分布,再被分成子集变量(subsets variables),然后其他的结论,都会让你知道好多,要是能让它计算起来也容易,那就很具挑战了。从那之后,我开始攻读博士,你到斯坦福后,是个很棒的现实提醒,也就是,不该去检验你研究里的度量是否正确,而是去看一种关联(connection,你在做的事情和影响你的东西之间有何关联,你的研究实际改变了什么,而不是具体里面出现的数学

吴恩达:对,很棒,我没发现之前遗忘了这点。

Pieter Abbeel是的,这是其中一件,除了大多数人在问的,哪一个Andrew给的意见,一直在影响你,是确保你能看到这种关联性

吴恩达:你已经并且会继续在AI领域有很棒的职业前途,对一些在看视频的人,要是他们想入门AI,你有什么意见

Pieter Abbeel:我想现在是进入AI的大好时机(I think it’s a really good time to get into artificial intelligence需求量是如此之高,工作机会如此之多,有大量研究课题,也有大量创业机会等等。所以我很肯定决定入行是很机智的决定,你们中的大多数都能够自学,不管是不是在学校里,有好多好多网课,比如Andrew的机器学习课,也有,比如说,Andrej Karpathy的深度学习课,也有线上视频,作为开始很棒,Berkeley也有增强学习的课程,所有课都在网上,都是很棒的入门方式。很重要的是,你自己要真正着手去做(make sure you try things yourself,不是只看看视频,要亲自试,可以用TensorFlowChainer,TheanoPyTorch等等,随便你喜欢哪个,开始是很容易的,进展也会很快

吴恩达:只要不断练习,对不,实际操作并关注什么成功了,什么没成功。

Pieter AbbeelMashable上周有篇文章,讲一个英国16岁,Kaggle比赛中的领导,里面提到他跑去学习,在网上找到东西,自学了一切,从未上过任何正统课程,一个16岁的少年能在Kaggle上有这么强的竞争力,说明是真的可能。

吴恩达:我们生在好时代,对人们学习的好时代(We live in good times. If people want to learn

Pieter Abbeel完全正确。

吴恩达:还有个应该常被问到的问题是,要是有人想进入AI机器学习,深度学习的领域,他们该读博还是去大公司工作

Pieter Abbeel很大程度上取决于你能得到的指导(I think a lot of it has to do with maybe how much mentoring you can get.。在博士学位里,基本肯定的,是教授的本职工作,也是你的导师,会来主动找你,竭尽他们所能去成就你,帮助你在任何领域,比如AI,得到成功,有很多用功的人,有时会有两个导师,那是他们的本职工作,也是为什么他们当了教授,大多数教授都能帮助学生做更多事情。但不是说在公司里不是这样,很多公司有很棒的导师并且很爱帮助教育和推进其他人等等。只不过是,可能不会有那样的保障,不会像攻读博士一样,而博士的一大优点,就是你肯定能学到好多并且总有人能帮助你学习。

吴恩达:取决于公司和博士项目本身。

Pieter Abbeel完全正确,但是我想,主要还是得自己能学很多东西(it is key that you can learn a lot on your own要是自学的很快,再加上一个更有经验的人,能加速过程,因为他们的职责就是帮助推进你的进步

吴恩达:你是深度增强学习中很有名的领袖之一,那么是什么样的东西,在深度增强学习中已经很成功了。

Pieter Abbeel关注深度增强学习中的成功例子,非常非常引人入胜,比如说,通过像素学习玩Atari,处理像素也就是被处理的数字,被变成一个游戏中的行动。然后,举个例子,我们在Berkeley做过的一些研究,造了会走路也有回馈的模仿型机器人,只是简单的告诉它越往北走越好,对地面影响越小越好,它突然会选择,走路或跑步,即使并没有人告诉它什么是走和跑,或让机器人学讲给儿童的故事,并想法子组在一起,创造更多开放结局等等。

我认为有趣的是,它们能学习,从原始的感觉输入到控制。比如发动机中的扭矩,但是是同时完成的,有趣在于你能用一个单一算法,比如,推力是一瞬间的(thrust is impulsive),你可以学习,可以让机器人学会跑,学会站立,可以有两条腿的机器人,再换成四条腿的,只要用同样的算法,它都会跑,所以增强算法不用改变,非常宏观,Atari游戏也是如此,每个游戏里DQN都是同一个DQN。当它开始进入,还未曾实现的边界后,它能为每一个任务从头一点点学起,但要是能重复利用,之前学过的东西,更好了,那样学下一个任务就更快了,这是目前未能实现的事情,本质上,它总是从头学起。

吴恩达:你觉得多快,就能看到使用深度增强学习的机器人,出现在我们身边,被广泛应用在全世界

Pieter Abbeel我认为真实情况是,从监督学习开始,行为克隆,人类的工作。我觉得会有很多业务会建立起来,但总是有人类在幕后指挥工作,比如Facebook的信息助手,像这样的助手能被建起,但背后一定有人,做大量工作,机器学习能做人所做的事,并开始为人们提建议,人类会被提供,有限的几个选择,过一阵子,就能变得更好,可以给增强学习,一些实际目的,而不是让人在幕后工作,是实际给它们目标去完成。比如,两者中哪个能更快计划好会议,或多快能定好机票,或是花了多长时间,满意程度如何,不过可能会需要大量克隆人类行为的引导程序,去告诉它们怎么做。

吴恩达:听起来行为克隆:是监督学习,去模仿人在做的事,之后逐渐增强学习会能思考的更长远,这样总结合适吗?

Pieter Abbeel我觉得是,单因为观察增强学习,从头开始,就很有意思,超级有趣,很少有比观察增强学习机器人从啥都不会到发明创造更好玩的事了,不过非常耗时,而且不总是那么安全。

吴恩达:太谢谢你了,这个采访太棒了,我很荣幸我们有这次聊天机会。

Pieter Abbeel:谢谢你邀请我,我非常感谢。

总结:(1)不管是选择读博还是进入大公司,主要还是得自己能学很多东西(it is key that you can learn a lot on your own要是自学的很快,再加上一个更有经验的人,能加速过程,因为他们的职责就是帮助推进你的进步

(2)我想现在是进入AI的大好时机(I think it’s a really good time to get into artificial intelligence需求量是如此之高,工作机会如此之多,有大量研究课题,也有大量创业机会等等。很重要的是,你自己要真正着手去做(make sure you try things yourself,不是只看看视频,要亲自试,可以用TensorFlowChainer,TheanoPyTorch等等,随便你喜欢哪个,开始是很容易的,进展也会很快

说明:记录学习笔记,如果错误欢迎指正!转载请联系我。

Logo

NVIDIA官方入驻,分享最新的官方资源以及活动/会议信息,精选收录AI相关技术内容,欢迎大家加入社区并参与讨论。

更多推荐