增强









增強英语:Reinforcement),或称强化,是行为主义心理学中的一个重要概念,是关于理解和修正人的行为的一种学说。


科学研究发现,人类或动物为达到某种目的,会于所处的环境下采取特定行为;当这种行为带来的某種反應或后果对他有利时, 这种行为就会在以后重复出现,而該結果就稱為“增強物”;反之亦然,当其行为会对他带来不利时,这种行为就自然减弱或消失,个体对行为结果所产生的后续反应,就是以操作性条件反射进行的。而由于“增強物”的適時出現,增加了個體以後在相同情形下重複这种行为的機率,這表示“增強物”對於個體的反應起了強化作用。此種强化作用,即稱之為「增強」。


“增强”这一概念的提出源于美国心理学家愛德華·桑代克,后经约翰·布罗德斯·华生、克拉克·L·赫爾等人的发展、修订,到新行为主义代表人物伯尔赫斯·弗雷德里克·斯金纳达到了一定的理论高度并发扬光大。他们都认为强化作用是决定人和动物所作所为的关键因素,并可以用这种“正强化”或“负强化”的办法来影响行为的后果,从而修正其行为。




目录






  • 1 理论发展


  • 2 增強的特性


  • 3 增強的類型


    • 3.1 正强化与负强化


    • 3.2 惩罚


    • 3.3 其他增強用語


    • 3.4 增强计划




  • 4 增強程序


  • 5 塑型


  • 6 連鎖


  • 7 爭議


  • 8 历史


  • 9 参考文獻


  • 10 外部連結





理论发展


美国心理学家、教育家愛德華·桑代克是第一个提出增强理论的学者。他首创迷箱实验,将一只饿猫放在封闭但设有开门机关的箱子里,食物放在箱子外作为脱逃的奖赏。在这个情境中,猫起初在箱子内乱碰乱撞,后来碰巧触动了开门的机关,得以从箱子内逃出,吃到外面的鱼。经过不断重复试验,猫打开门所需的时间变得愈来愈短;至最后“学习”完成时,只要把猫一放进箱子里,它就会表现出正确的反应。桑代克对此的结论是,“猫并没有理智地推论出打开笼子出口与它拉动绳圈这二者之间的关系,而只是对绳圈这个刺缴形成了逐渐加强的拉绳圈反应。”


桑代克从这一实验中,确立了“刺激(stimuli)—反应(responses)”两者之间的联结。这种联结是通过学习过程建立、加强和组织起来的[1]。他以此为基础,提出了几条学习规律,包括准备律(Law of readiness)、练习律(Law of exercise)和效果律(Law of effect),其中最著名的是效果律。










桑代克于1898年发表的第一代效果律,引起了许多理论家的研究和广泛的争论,并指出了其漏洞,一些学者认为“满意”、“不舒适”等字眼是主观性的术语,不宜描述行为。在时间上迟来的结果对已属过去的事实发生反作用,这不符合正常的因果律等。


桑代克和巴甫洛夫的工作几乎是同时的,但又是各自独立发现的。俄国心理学家伊万·巴甫洛夫通过经典条件反射,发现条件刺激与带有奖赏或惩罚的无条件刺激的多次配对,也可以使个体在单独呈现条件刺激时,也能引发类似无条件反应的条件反应。例如,巴甫洛夫在研究消化现象时,观察了狗的唾液分泌。他把食物显示给狗,并测量其唾液分泌。由于狗对食物会自然产生分泌唾液的反应,这种反应是本能固有的,巴甫洛夫把这食物这种刺激称为无条件刺激(Unconditioned stimulus),简称“UCS”;而而由于食物产生唾液的反应被称为无条件反应(Unconditioned response),简称“UCR”。他发现,如果随同食物反复给一个条件刺激,即一个本来并不会自动引起唾液分泌的刺激,如铃声,狗就会逐渐“学会”在只有铃声但没有食物的情况下分泌唾液。在这种情况下,铃声就成为了条件刺激(Conditioned stimulus),简称“CS”,铃声引起的唾液分泌就是条件反应(Conditioned response),简称“CR”。在巴甫洛夫的经典条件中,重要的是引起反应的刺激,反应之后的结果是没有任何理论意义的。所以尽管巴甫洛夫和桑代克都在分析刺激与反应之间的联系,但他们的理论对形成这种联系的程序以及对学习过程的解释是完全不同的。


巴甫洛夫于1902年发表其条件反射研究结果,但他可能是首先在行為方面使用"增強"一詞的学者。巴甫洛夫在用狗做实验时,故意不给狗进食,使之保持饥饿状态,这种饥饿刺激使狗保持对实验环境的警觉。在条件刺激出现时或稍后呈现无条件刺激,这种无条件刺激的呈现起增强“学习”的作用,被巴甫洛夫称为“增强”。但他保守的使用俄語中近似的词汇,且用來指強化一個已學習但較弱的反應。他的用法與今天“選擇並強化新行為”的意義不尽相同。巴甫洛夫也使用了俄語中的“消退”(extinction,或称消弱)一字来描述类似后来斯金纳提出的负强化理论,即巴甫洛夫发现,当狗对铃声的条件作用建立以后,若使食物不再伴随铃声出现,那么狗对铃声作出的唾液分泌反应就会越来越弱,直到最后消失,这种情况即为“消退”。



增強的特性



  • 有規律地出现在生物個體進行特定行為之後。

  • 與行為具有時間與空間上的連續性。

  • 與可能以其他強度進行的行為的機率的增加有關。


例如:每当你的狗听你的话坐下时,就给牠食物。如果狗变得在下指令時更愿意聽話坐下,表示坐下已經被附帶的食物管理所增強。


需要注意的是被增強的是行為而不是狗。提供食物作為增強物強化坐下的行為,使坐下在類似情況下的出现更快或頻率更高。增強只能在回顧中被真正的確認。一個物體、項目、食物或其他增強物之所以成為增強物,只能在行為因增強物的控管後增加表現之後。


增強的研究已经产生擁有可重複性实验结果的龐大體系。增強是行为实验分析的核心概念和過程。



增強的類型



正强化与负强化


行为的增強有2种类型:



  • 正强化,也称积极强化正向增強,指在行為反應之後增加個體所喜愛的刺激所產生的強化作用,如給予食物、金錢等。



抓癢是一種负向增強


正强化发生于一件渴求中的事或物作为一种结果而呈现,而这一结果刺激了这一渴求。



  • 例一:老鼠按下一个按钮会得到奖励,因而老鼠更频繁地按下按钮,越来越多的奖励增加了其按下按钮的次数,因而正强化了其按按钮的行为。

  • 例二:女儿收拾玩具则父亲给糖,如果女儿确实收拾玩具因而变得更勤快了,则糖是正强化物,正强化了收拾东西的行为。

  • 例三: 公司依照员工销售业绩多少进行对应奖励,业绩高则奖励多,员工因此销售更勤快、更高效,则雇主收到正强化的效用。[2]:253



  • 负强化,也称消极强化负向增強指在行為反應之後減少個體所厭惡的刺激所產生的強化作用,如關掉令人痛苦的電流。負向增強有兩種,逃脫制約出現在令人厭惡的刺激剛出現,且行為終結它時。例如抓癢或按下鬧鐘的按鈕。迴避制約出現在一個為了避免出現厭惡刺激的行為時。例如爲了避免飢餓而進食,或是為了避開塞車而改變路徑。

负强化发生于受厌恶英语aversives的事件被避免或者受厌恶英语aversives的物件被清除后,某项行为的程度反而上升。



  • 例一:父母反复唠叨叫孩子打扫卫生后,孩子为了避免前述情况的发生而打扫卫生。此处,父母的唠叨是孩子想要避免的事件,因而负强化了孩子打扫卫生的行为。

  • 例二:一个人用某品牌止痒软膏止蚊子叮咬痒,若止痒效果好,则此人更有可能继续购买使用该软膏,蚊子叮咬引起的瘙痒则是其中的负强化物,负强化了其购买行为。

  • 例三: 公司规定员工布置的业绩进度如在周五前完成则可在周六休假。周六还要上班这一结果是负强化物,是大家所不愿意见到的,因而促进了公司的提升,这一过程则为一个负强化的过程。[2]:253























行為表現頻率

增加 減少
正向
正向增強
正向懲罰(懲罰 I)
負向
負向增強
負向懲罰(懲罰 II)

辨別"正向"與"負向"是個重要的問題。舉例來說,對一個非常熱的房間而言,來自外界的氣流是正向的,因為它帶來了相對涼爽的空氣;但是它也同時是負向的,因為它帶走了原本的熱空氣。有一些增強物可以同時以正向和負向作控制,例如一個毒癮者以吸毒來增加興奮和擺脫戒毒症狀。另一個例子是進食,進食增加了愉悅感同時移除了飢餓的感覺。直到現在,許多行為心理學家以不帶對立性(Polarity)的增強和懲罰來包含所有的環境變化。



惩罚


惩罚是動物所處環境中出現在特定的行为或反應之後,能夠減少往後行為出現的環境變化。與增強相同的是,被懲罰的是行為而不是動物本身。只有知道一個刺激對於行為出現頻率的效果時才能確知它是否為懲罰。




  • 正向懲罰 - 又稱第一型懲罰,實驗者在環境中增加令人厭惡的刺激,以對行為進行懲罰(如短暫電擊)。


  • 負向懲罰 - 又稱第二型懲罰,是將環境中的正向增強減少(如拿走食物盤)。


與增強一樣,辨認一個懲罰不經常需要提到它的正向或負向。


懲罰並非與增強相反的鏡像效應。在對實驗動物的實驗或是對孩童的研究中,懲罰是暫時性的減少先前對某行為的增強,且能夠產生其他的情緒行為(如鴿子拍動翅膀),以及生理改變(如心跳速度),並沒有明顯對等增強。


某些行為心理學家認為懲罰是一個 "初級過程" ,也就是完全獨立的學習現象,與增強有所區別。有些人認為它是負向增強的一種分類,創造任何一個造成迴避懲罰行為(甚至不作反應)的狀態可看成是一種增強。


"令人厭惡的刺激"、"懲罰物" 和 "惩罚刺激" 是同義字,懲罰能夠作為一個 "厭惡刺激" 、"任何懲罰性改變的出現" 或是 "實驗中一個特定行為被懲罰的部分" 。



其他增強用語




  • 非制約增强物 - 有时称为初級增强物,以天生固有的增強,作為一個刺激或狀態,通常具有生物學上的理由(如愛、食物或睡眠机会)。


  • 制約增强物 - 有时称为次級增强物,一種需要與非制約增強物或更早成型的制約增強物(如金錢)許多次的同時出現的刺激或狀態。在古典制約中,稱為二級制約,如 "稱讚" 。


  • 普通增强物 - 一種過去曾与其他許多增强物同時出現的制約增强物(如金钱)。


  • 不相容行为的差别性增强(DRI) - 在沒有懲罰的情況下增強特殊的不相容行為(例如一個人不可能同時離開房間並在房間裡與某人打架),這種方法用來减少已經频繁出現的行为。


  • 其他行为的差别性增强(DRO) - 增強非欲消除行為之外的任何其他行為。


  • 低反应率差别性增强(DRL) - 只增強出現頻率低的行為,例如 "你必須至少每10分鐘才能跟我要一片洋芋片,否則我就啥都不給你" 。


  • 交替行为的差别性增强(DRA) - 將增强物用在較為認可的行為,而不是欲消除的行為上。例如老師將更多的注意力放在坐著的學生,而不是在課堂上說話的學生(假設老師的注意力是一種增強)。


  • 增强物選樣 - 將一個與先前行為無關的潛在但不熟悉的刺激用在動物身上。之後這個刺激將會更加有效的進行增強。


  • 群體增强 - 影響許多種類的管道,且與其他增強產生交互作用。


  • 滿足感 - 对於已经被增强的某些行为,刺激將不再起相同的作用。例如食物的味道對已經餵飽的對象是較弱的增強。



增强计划



  • 固定时距增强(Fixed interval schedule),例子:每月奖金制度。

  • 固定比率增强(Fixed ratio schedule),例子:按销量核算佣金收入。

  • 变动时距增强(Variable interval schedule),例子:升迁制度。

  • 变动比率增强(Variable ratio schedule),例子:按绩效考核的特别奖项或收入。



增強程序




各種增強項目的不同反应行為比率,以支線標示各個特定增強物。


當動物所處環境中夠多的變因被減少或是被控制時,他們在增強後的行為型態將明顯的能夠被預測。甚至當增強的速率適應於特定方法時,非常複雜的行為也能夠被預測。增強程序是用來測定將被增強的反應(特定行為的單獨出現)的計畫。有兩種極端情況,一種是連續增強,指增強所有反應;另一種是消弱,指沒有反應被增強。


其他的程序包括:



  • 固定比率(FR) - 每固定次數反應都被增強。

  • 固定間隔(FI) - 從訓練開始或先前一個增強之後經過特定時間長度之後增強,假設在這段期間至少有一次反應出現。

  • 變化比率(VR) - 在不同的反應次數增強,有一個大約的平均值。

  • 變化間隔(VI) - 在經過一段不固定的時間之後增強,有一個大約的平均值,並假設在這段期間至少有一次反應。


比率程序能夠比間隔程序產生更高的反應頻率。變化程序也比固定程序產生更高的反應頻率。變化比率程序產生較高的反應頻率,且對消弱有較大的抵抗力,賭博是變化比率程序最有代表性的例子。在固定比率程序中,在增強之後會有一段反應暫停時間,稱為後增強暫停,在圖表上呈階梯狀。固定間隔程序也有後增強暫停,但是在圖表上呈現的是扇型。由於在已消逝的時間並沒有增強刺激,因此對象學會了以平緩的速率反應。如果生物個體是一個固定比率程序的對象,會有一個爲獲得增強的行為的次數的瞬間增加,然後生物個體被觀察到在增強來到之前有一段周期性的暫停。這種現象被稱為比率彎曲,對照在圖形上的順序為後增強暫停、比率上升、增強。


考慮消弱的影響,不完全的增強程序比起連續性的增強程序有較大的抵抗力,這種現象稱作不完全增強消弱效應(Partial reinforcement extinction effect、PREE)。比率程序則比間隔程序更具抵抗力,而變化程序也比固定程序更有抵抗力。



塑型


塑型(Shaping)影響了增強的成功,增加訓練者所要求的精確的近似反應。例如爲了訓練一隻老鼠按下槓桿,可將身體轉向槓桿作為第一個步驟,並增強這個動作。在訓練過程中,對象的被增強的行為會愈來愈接近訓練者的要求。



連鎖


連鎖將分散的行為連結成一個系列,每一個行為造成的結果,都是對上一個行為的增強,與對下一個行為的刺激。有許多連鎖的教導方式,如前進連鎖,從連鎖的第一個行為開始;後退連鎖,從最後一個連鎖開始;與全作業連鎖(total task chaining),將所有的行為從頭到尾教完,而不是以一系列的步驟。以打開一個被鎖的門為例,首先將鑰匙插入,然後轉動,然後門打開。


三者差異如下:




  • 前進連鎖 - 將首先教導對象首先插入鑰匙,直到這個動作熟練。之後對象會被要求插入鑰匙,並教導轉動鑰匙,直到轉動的動作熟練。然後教導將門打開。


  • 後退連鎖 - 訓練者先自己插入並轉動鑰匙,然後再教導對象開門。當開門動作熟練,訓練者自己插入鑰匙,並教導對象轉動鑰匙,然後對象開門。最後教導對象插入鑰匙,並由他們自己轉動和開門,第一個動作學會的時候,所有的動作都學會了。


  • 全作業連鎖 - 將所有步驟作為單一系列來教學,在每個步驟中提示對象,並在熟練的過程中同時減少提示。



爭議


增強的理論被批評為循環論證。爭論點在於這種循環定義: “增強物是造成增強效果的東西,而有增強效果的東西是增強物。”而薛菲爾德(F. D. Sheffield)建議定義改為“附帶在反應上的完成行為(consummatory behavior contingent on a response)”,但這種定義尚未被心理學廣泛使用。



历史


1920年代俄国心理学家伊万·巴甫洛夫可能是首先在行為方面使用“增強”一詞的人,但是他保守地使用俄語中近似的词语,且用这一词语來指強化一個已學習但較弱的的反應。他的这一用法與今天選擇並強化新行為的意義不同。巴甫洛夫也使用了俄語中的消弱(extinction)一词作近似於現今的使用。


在一般大眾的使用中,正向增強經常當作報償的同义词來使用,且針對人而不是行為。負向增強則經常被一般人,甚至非心理學領域的社會學者用來指懲罰。雖然與專業上的用法不同,但是斯金納在他1938年的書中如此使用该词语首开先河。在1953年,他才跟隨其他人,減少了厭惡刺激的含义的使用。



参考文獻



  • Dinsmoor, James A. (2004) "The etymology of basic concepts in the experimental analysis of behavior." Journal of the Experimental Analysis of Behavior, 82 (3): 311-316.

  • Michael, Jack. (1975) "Positive and negative reinforcement, a distinction that is no longer necessary; or a better way to talk about bad things." Behaviorism, 3 (1): 33-44.

  • Skinner, B. F. (1938) The behavior of organisms. New York: Appleton-Century-Crofts.

  • Chance, Paul. (2003) Learning and Behavior. 5th edition Toronto: Thomson-Wadsworth.





  1. ^ Edward Lee Thorndike. Virginia Tech Northern Virginia Center. [2011-03-06]. (原始内容存档于2011-10-11). 


  2. ^ 2.02.1 Flora, Stephen. The Power of Reinforcement. Albany: State University of New York Press. 2004. 




外部連結


  • An On-Line Positive Reinforcement Tutorial






Popular posts from this blog

How did Captain America manage to do this?

迪纳利

南乌拉尔铁路局