DeepMind团队冲击脑科学领域 揭秘大脑的分布式奖励机制

  • 时间:
  • 浏览:0
  • 来源:大发5分PK10-极速5分时时彩-急速5分快3

来源:钛媒体 林志佳

自从被谷歌母公司 Alphabet 收购以来,DeepMind 发布的多项技术创新成果都令人印象深刻,你这俩次,DeepMind 向脑科学领域发起冲击,希望你还才能类与 AI 之间才能更加紧密的结合,一起也验证了分布式强化学习的潜力。

近日,DeepMind 和哈佛大学的科研人员,借鉴强化学习的经验,优化分布式强化学习算法,提出了关于朋友人类大脑内奖励机制的新理论:人类大脑在使用与 AI 类似于的分布奖励机制。

科研人员希望通过这套算法理论,研究并解释多巴胺细胞对大脑的行为、情绪等方面的影响。据悉,该研究成果昨日登在世界最权威学术期刊《Nature》(自然)杂志上。

该论文发布前一天,DeepMind 公司创始人 Demis Hassabis 非常兴奋的在其推文中表示:

"DeepMind 每天都将努力工作,并致力于创造你这俩厚度创新的科学研究!"

这也是 DeepMind 今年第一次发表最新的论文研究,也是 Nature 非常罕见的将3个团队研究出的两篇论文倒入同一天的期刊上,意义不同寻常。

优化的强化学习算法,让多巴胺奖惩机制完美实现

事实上,强化学习(Reinforcement learning)是本身动态编程。它使用奖励和惩罚系统来训练算法。强化学习强调怎么可不后能 基于环境而行动,以取得最大化的预期利益,这是神经科学与 AI 相连接的最早,也是最有影响力的研究之一。

在上个世纪 60 年代,当时在哈佛大学读书的马文·明斯基(Marvin Minsky)借鉴了著名生理学家伊万·巴甫洛夫(Ivan Pavlov)在动物行为领域的观察结果,试图设计本身智能机器和神经网络模型。

到了 60 年代后期,计算机科学家则利用你这俩神经网络模型,希望开发了本身算法,你这俩算法仅依靠奖惩反馈作为训练信号,就还才能单独学精怎么可不后能 执行冗杂的行为。

事实上,最后朋友真的研究出来了本身时序差分算法(Temporal Differences,简称 TD),该算法还才能说是强化学习的中心点,很好的回答了当时所遇到的机器算法问提,有时候预测了未来价值体系。

与此一起,在 TD 算法开发出来之时,又有另一波神经科学家在研究猴子的多巴胺神经元行为。

没人,哪些是多巴胺呢?

多巴胺的化学式

简单来说,多巴胺是本身脑内分泌物。作为神经递质调控中枢神经系统的多种生理功能,多巴胺神经元聚集在中脑,它的不断释放,会反馈到大脑,得到人类更加快乐或悲伤的情况报告。

由于说,神经科学家研究多巴胺可是我 为了观察猴子大脑的话,没人与 TD 算法的结合,或许是3个新的发展。

或多或少科学家利用多巴胺效应,应用于奖惩机制,有时候与 TD 算法结合。此外,为了让厚度神经网络更加强大,也让 AI 变得更强,更多的科研人员科学科学发明了分布式强化学习。毕竟,更迭的算法机制才是决定 AI 不是强大的主要因素之一。

技术不断更迭,AI 是在不断强大了,没人人类呢?朋友大脑的多巴胺奖赏机制是怎么可不后能 的呢?

DeepMind 团队的研究人员,从分布式强化学习中获得了启发,并采取优化,发现3个惊人的事实:人类在使用与 AI 一样的大脑机制。

过去,大多数人认为,人类的多巴胺神经元所触及的反应都大致相同,与 AI 是不太一样的。 

“很重像在3个诗唱班,每自己唱的全是一模一样的音符。”论文中原来表示。

但并且,DeepMind 的研究人员发现,前一天朋友的固有认知是错的。学习和动力是由内内外部和内外部奖励驱动的,受到环境或心情影响,实际上每个多巴胺神经元释放出来的结果是地处概率性分布,或多或少是消极,或多或少则是积极的。

在理论基础上,DeepMind 和哈佛大学实验室的科研人员通过训练 11 只小鼠,让其执行可变任务的培训,并给予不同大小且不可预测的奖励。最后,朋友从小鼠细胞上发现了“分布式强化学习”证据,从而得出上述结论。

总而言之,对于朋友普通人来说,顶端的细节有或多或少晦涩难懂,只都要记住的话就还才能了:朋友大脑与 AI 一样采用分布式强化学习算法,多巴胺会被调节为不同形式。也可是我 说,朋友人类的嬉笑怒骂并全是3个表情,可是我 由无数种表情和情况报告形成的。

未来的应用在哪儿?

由于你看得人这里的话,会总爱感觉,你这俩结论明明可是我 3个我知道的结论,可是我 科学家去帮忙验证罢了。但事实上,你这俩结论还才能应用到整自己工智能技术和机器人交互领域。

最近几年,AI 技术发展迅猛,语音交互由于深入朋友的生活场景,比如苹果苹果苹果的 Siri、小米的小爱同学,它们在慢慢替代你的动手操作能力,打电话、听音乐、设置铃声。它们看起来无所还才能了,甚至被命名为“助理”。

事实上,即便是 Pepper 机器人,也可是我 在完成“任务”,而不足感情的的话是哪些 。任务型人工智能可是我 没人感情的的话是哪些 的机器,何谈助理一说。

但如今,DeepMind 的这份研究成果,或许会开拓机器感情的的话是哪些 化的方向,让 AI 技术更好的服务于人类。

值得注意的是,就在这篇论文登上 Nature 的一起,DeepMind 还有另外一篇研究再次出现了同一期刊上—利用 2018 年 12 月宣告 的 AlphaFold 机器系统,还才能预测每对氨基酸之间的距离以及连接的化学键之间的扭转角,从而预测蛋白质的 3D 形态,你这俩结果比前一天的任何算法模型全是精准。

“蛋白质的3D形态由于是科学家还才能获得的最有用的信息,以帮助了解蛋白质的作用及其在细胞中的工作土办法。”

伦敦大学学院(UCL)生物信息学小组负责人 David Jones 表示,“挑选蛋白质形态的实验技术既费时又昂贵,有时候迫切都要更好的计算机算法来直接从编码蛋白质的基因序列中计算蛋白质的形态,而 DeepMind 致力于将 AI 技术运用到你这俩长期地处的问提上,这在分子生物学中是绝对的进步。这是分子医学的新发现。”

毫无问提,DeepMind 已成为人工智能技术发展的主要推动者。

尽管 DeepMind 团队是依靠 AlphaGo 在围棋赛场上一站成名,但如今,DeepMind 团队希望将目光聚焦到更实际、更容易落地的 AI 技术研究当中。

正如 Demis Hassabis 所提到的:(DeepMind 可是我 要)通过创建重要情报(研究成果)本身,来解锁或多或少世界上最棘手问提的答案。

或许,这可是我 两篇论文的实际意义吧。(本文首发钛媒体,作者/林志佳,编辑/赵宇航)

猜你喜欢

【彩神真的假的】蔓蔓青萝刘钰是谁演的 朱嘉琦个人资料简介

《蔓蔓青萝》正式选则男女主演,姚笛饰演女主角李青萝,朱嘉琦饰演刘珏,对于乔振宇饰演男二有些有些日本前前前男友和书迷都表示非常不满意。  大型古装剧《蔓蔓青萝》在横店影

2020-03-30

【pk10全天计划-秒速pk10全天计划】电脑报第31期科技TOP

电脑报第31期科技TOP2016/8/1510:00:24类型:原创来源:电脑报报纸编辑:电脑报作者:【电脑报在线】我觉得像我们我们儿那我的语言洁癖症患者来说,对网络流行语往往

2020-03-30

彩客彩票《Apex英雄》超35万作弊PC玩家被封号

扩大团队、升级技术,《Apex英雄》将加大作弊封号力度彩客彩票。具体内容请关注今天的彩客彩票小熊微科技【每日彩客彩票必读】栏目。......扩大团队、升级技术,《Apex英雄》

2020-03-30

【彩神快3计划】异地恋的成功率是多少 教你如何在异地恋中维持感情

村里人 说过:孤单都在和化俱来,太多太多我由你爱上四个 人的那一刻开始英文英语 。当你准备开始英文英语 一段恋情,尤其是异地恋时,别紧张,别害怕。小编会教

2020-03-30

【好运三分快3在哪玩】大众集团子公司SEAT加入西班牙区块链联盟Alastria

图片来源图虫:已授站长之家使用今日块讯(ChinaZ.com)1月18日消息:据tokenpost消息,大众集团的子公司、西班牙汽车制造商SEAT了西班牙多部门半公共区块链联盟

2020-03-30