最新消息:

稀疏的奖励:开悟与强化学习

励志好文 lizhia 112浏览 0评论

 

今天早上我的朋友分享给我一篇博客文章,叫做 A Lovely Autumn Night ( 一个美好的秋夜 ),来自于一位在人工智能公司 Anthropic 工作的工程师和研究者 Thariq Shihipar,他的个人博客很有意思,分成了职业身份和个人身份两个版块,在个人版块我阅读了他的几篇短文,能感觉到他喜欢文学也虔诚地笃信自己的宗教。

“真正的善(goodness),其回报就是善本身。”

我摘录了其中两篇,作为今天的分享,希望对你有启发。周末愉快。

稀疏奖励:开悟与强化学习

Sparse Rewards: Enlightenment and Reinforcement Learning

强化学习入门小指南

A small primer on Reinforcement Learning

作者:Thariq Shihipar

编辑:范阳

发表日期:2026年3月28日

在人工智能中,有一个训练模型的阶段叫做“强化学习”(Reinforcement Learning)。到了这个阶段,模型其实已经学会了关于世界的大量知识— 它知道什么是书、什么是亚马逊、什么是现金。现在,它开始学习如何完成具体任务,比如“在亚马逊上购买一本书”。

我们训练模型的方法,是把它放进一个模拟的“环境”里,并在它做对某件事时给予奖励。每一次尝试任务,模型都会收到一次更新(an update) — 一种微小的调整,希望能把它推向更好的行为(a small change that hopefully nudges it toward better behavior)。例如,如果它一开始点击了搜索栏,它可能会得到一次正向更新,鼓励这种行为。

最困难的问题,是那些“稀疏奖励”(sparse rewards)的问题——模型只能在极少、不可预测的时刻收到反馈。由于缺乏频繁的信号,它很难知道:到底是哪些行为真正起了作用(which of its actions actually mattered)。

举个例子,假设你真正想让模型完成的任务是:“买一些好吃的东西”。

模型当然可以尝试去完成这个任务,但它几乎得不到什么反馈——直到用户真正吃下它买的东西之后,反馈才会出现。

可即便如此,模型也别无选择,只能继续行动,相信在自己做过的一切之中,总有某些行为真正产生了影响。

我觉得,这和我们的人生旅程之间有很多相似之处。我们跌跌撞撞地穿过世界,被一些模糊而不断变化的信号驱动着。幸福来了又走,我们从不真正确定,自己到底做了什么才配得上它,又或者为什么会失去它(Happiness comes and goes. We are never quite sure what we did to deserve it, or to lose it)。

但还有一种更稀有的奖励(a rarer reward)。它稀少到大多数人甚至不确定它是否真实存在。我想,在英语里,最接近它的词也许是“开悟”(enlightenment)。

那是一种并非由任何外部事物引起的喜悦。它带着欣快感,但不是一种令人上瘾的快感( It is a joy that is not caused by anything. It is euphoric but not in an addictive way )。它是平静的,但并不是“没有混乱”的那种平静(It is peaceful, but not in a way that describes the absence of chaos)。它让你感到,其实没有什么真正重要,但也正因为如此,一切又都变得无比重要( nothing really matters, but that is also why everything matters so much )。

普通人也许只能在某些瞬间短暂触碰这种状态(The average person may feel these moments in glimpses and flashes)。比如当你和所爱之人一起,在夜晚看见月亮的时候。

但有些人,却似乎能够持续地活在这种状态之中。他们仿佛解开了生命的谜题。

而在解开谜题之后,世界的浅薄便在他们面前展露无遗。他们能看透一切。

这个世界像是一个训练环境。财富与贫穷,不过是其中的状态与信号,本身既不是优势,也不是劣势。真正的目标,是找到那种名为“开悟”的信号(The point of it all is to find this signal of enlightenment)。

那么,该如何找到这种奖励?这种开悟般的感受?

我倾向于把它描述为“善”(goodness)。但它又并不等同于“做好事”这种行为( it is not the same act as doing good)。你完全可以把自己所有财富都捐出去,可如果你的目的只是为了让自己快乐,那么那也不能称之为真正的善。

“奖励破解”(Reward Hacking)— 在人工智能中,这是一个典型的失败模式:模型找到了一条捷径,它操纵了评价指标,却并没有真正解决问题。从外表看,它像是成功了,但某种本质性的东西已经缺失(It looks like success from the outside, but something essential is missing)。

因此,“善”是很难被精确定义的。我们只能谈论它的一些特征(characteristics of goodness)。

善不是计算性的(Goodness is not calculating)。善并不追求“最大影响力”或“最大效用”。它或许会顺带产生这些结果,但那并不是它的目的。它可能意味着自我牺牲,可能会伤害你自己,甚至可能什么也不给你留下。

我想说明的是,我并没有开悟(I am not enlightened)。离那种状态还差得很远。我只是极少、极偶然地体验到这种感觉。

而我最常在写作时感受到它 — 无论是写代码,还是写文字。所以我不断地写。我常常会想,这是一种多么贫乏的状态:我必须如此费力,才能感受到世界上一些人仅仅通过呼吸就能感受到的东西(I often think of what a poverty it is that I must go to these lengths to feel what some can feel just by breathing )。

但即便如此,我们仍然应该对那些稀疏的奖励心怀感激,每当它们降临时,都去认真聆听它们带来的那些微小更新。

原文链接:

https://www.thariq.io/blog/sparse-rewards/

 

https://mp.weixin.qq.com/s/DAHI17RslosvzZNv-eZzYA

 

转载请注明:励志啊,互联网最励志资源聚集地 » 稀疏的奖励:开悟与强化学习

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址