首页 百科知识 行为学习方法

行为学习方法

时间:2022-07-01 百科知识 版权反馈
【摘要】:行为学习方法最古老的行为学习理论说明,有过共同经历的人们,其思想观点倾于一致。行为科学的心理学家提到了刺激和反应之间的关系。如果某种行为受到惩罚或被忽视,则将来这种行为有可能就会被避免。在积极强化的作用下,被期望行为将带来积极的结果,而在消极强化的作用下,消极结果将继续,直到发生被期望的行为。对不被期望的行为进行惩罚,这与消极强化是完全不同的。

行为学习方法

最古老的行为学习理论说明,有过共同经历的人们,其思想观点倾于一致。行为科学的心理学家提到了刺激和反应之间的关系。因此,学习是经验的一种结果。我们利用过去行为的结果来改变、调整和提高自己将来的行为。通过发现你最后一次做得是好是坏以及为什么是这种结果,你就学会了如何更好地写作业和得高分。没有反馈我们不可能进行学习。行为心理学家和认知心理学家都认为经验影响人们的行为,但是如何影响各自的观点就不一致了。

反馈有可能属于奖励,也有可能是惩罚。按一般常理,如果一种特定行为获得奖励,那么这种行为重复发生的可能性就比较大。如果某种行为受到惩罚或被忽视,则将来这种行为有可能就会被避免。这一观察结论就是行为学家“效应法则”的简述。该法则表明,我们懂得去重复那些能带来好结果的行为,并尽量避免去做那些导致不被期望或无用结果的行为。心理学家就想到了用食物和电棒来训练老鼠在迷宫里跑来跑去。

积极强化:当被期望的行为发生时,通过引进积极结果以鼓励被期望行为的发生。

消极强化:当被期望的行为发生时,通过放弃消极结果以鼓励被期望行为的发生。

消除:通过消除结果,积极的或消极的,例如漠不关心或沉默来消除不被期望的行为。

行为主义使得奖惩之间发生了微妙的差别。在表4.2中,通过举例阐述了这些差别。

在积极强化的作用下,被期望行为将带来积极的结果,而在消极强化的作用下,消极结果将继续,直到发生被期望的行为。对不被期望的行为进行惩罚,这与消极强化是完全不同的。实施消除这一强化手段,不被期望的行为只是被忽视了。

美国心理学家约翰· B.沃森(John B. Watson,1878—1958)于1913年提出了“行为主义”这一术语。沃森批评使用自我反省。在自我反省中,反省对象被要求讨论自己的感官经历和思维过程,这样做的目的是为了探讨他们的思维并告诉心理学家他们发现了什么。而沃森想要知道的是客观的、“科学的”人类行为以及某种行为发生的原因及其结果。为了实现这一目的,沃森和许多其他心理学家从不可见的思维内容转移到对可见刺激与可见反应之间关系的研究上来。这就是为什么行为心理学有时也被称做“刺激—反应心理学”的由来。

表4.2 举例说明强化因素

img69

反馈:有关我们行为结果的信息。惩罚:通过消极结果的应用或坚持积极结果,以避免不被期望行为的发生。

行为学者的观点是有前提假设的,即刺激与反应之间的关系能告诉我们使智力提高的生化学和神经生理学方面的知识。这种生物机制是因控制行为发生的方式而把反应与刺激联系起来。因此,在没有充分理解该机制本质的情况下,我们能继续研究刺激与反应之间的关系。

行为理论认为,在刺激与反应之间没有发生任何心理上的联系。但与此相反的是,认知理论认为,在刺激与反应之间发生了相当多的心理联系。

让丹尼斯·罗德曼参加比赛

1997年芝加哥公牛篮球队的老板们面对着一个巨大的挑战:他们不得不与有争议的球星丹尼斯·罗德曼签订一份合同。罗德曼真是一个争夺篮板球的天才,并以其难以预料的行为,尤其是不参加比赛的嗜好而出名。例如,在上个赛季中,罗德曼仅仅参加了公牛队82场常规赛中的55场比赛。由于在那个赛季里他的合同被担保了,因此公牛队还要为他没有参加的比赛而支付给他29600万美元。我们也可以理解,这支球队不希望在发生类似的事件。

公牛队与罗德曼签订的合同是美国全国篮球联盟历史中最具有激励的合同。在赛季中,罗德曼有权获得1050万美元,但仅有450万被担保了,余下的钱要看其在比赛中的表现。举例来说明,如果他参加一场加时赛,他将获得100万美元;如果赢得NBA篮板王的称号将获得50万美元;如果他参加第59场比赛之后的比赛,那么每一场比赛他就可获得18.5万美元;如果他保持积极的助攻那么就可获得10万美元。

这种因具体情况而定的合同证明,无论是对公牛队还是对罗德曼来说都是有吸引力的。它不仅降低了公牛队的风险,而且还给了罗德曼超越自己的动力。在共82场比赛的本赛季中,罗德曼参加了其中的80场比赛,赢得了七次篮板王的称号,共获得了他合同中规定的1050万美元中的1010万美元的薪水。罗德曼的成绩也帮助公牛队赢得了联盟冠军的称号,为该队的老板们带来了意外的收获。

资料来源:Max H. Bazerman and James J. Gillespie, ‘Betting on the future:the virtues of contingent contracts’, Harvard Business Review, Vol. 77, No.5, September-October 1999, p.160.

刺激和反射之间的联系是从两方面发展开来的,这就是人们所称的巴甫洛夫条件反射和斯金纳条件反射。

巴甫洛夫条件反射也被称做“古典条件反射或反应条件反射”。俄罗斯的心理学家巴甫洛夫(Ivan Petrovich Pavlov, 1849—1936)提出并发展了这一概念及其相关技术。

巴甫洛夫进行的最著名的研究是有关狗见到食物就流唾液的反射。巴甫洛夫采用了新的、完全不同的刺激物,来演示了这种反射即铃声。狗的主人仍然接受使用古典条件反射方法的培训。如果你在狗面前展示一盘肉,它就会流唾液。肉是刺激物,而流出的唾液就是反应。肉是无条件刺激物,因为狗是自然流出唾液的。与此相同的是,唾液也是一种无条件反应。在心理学家不做出任何行为的情况下,狗也会流唾液。无条件反应也被称为反射。当你撞到了膝盖骨你的小腿就会抽搐;当光投射到你眼睛里,你的瞳孔就会收缩。这些都是典型的人类反射。人类也会自然地流唾液。当看到或闻到食物时,我们就会做出无条件反应。

巴甫洛夫条件反射:(也被称为古典条件反射或反应性条件反射)一种把新刺激物与已有反应或行为联系起来的技术。

斯金纳条件反射:(也被称为工具性条件反射或操作性条件反射)一种把反应或行为与其结果联系起来的技术。

现在,假如在给狗展示肉之前我们摇一下铃声。反复这样做的话,狗就会把食物和铃声联系在一起。最终,当狗一听到铃声就开始流唾液,即使在没有食物出现的情况下它也会流唾液。铃声是一种条件刺激物,而唾液现在也成为一种条件反应。那只狗已经从经验中知道了,一看到食物和一听到铃声就会流唾液。在这种情况下,即使没有铃声,刺激物也会对狗产生一种条件反射。巴甫洛夫偶然发现了这种条件反射形式。他的研究最初是与唾液有关,但是后来他观察到,当狗一看到他的试验助手或听到他们的声音时,就会流唾液。巴甫洛夫对这种现象非常感兴趣,于是便开始集中进行研究。

约翰·布罗德斯·沃森(1878—1958年)

假如现在我们在摇铃之后不再把肉给狗吃,那么就会出现当狗一听到了铃声就会像以前一样流唾液,希望铃声意味着食物的到来。但是,如果我们继续这样做下去,狗流出的唾液量会减少。最终条件刺激物与条件反应之间的关系会消除。

这种条件反应有可能因刺激物而引起,例如,最原始的条件刺激物——不同音调的铃声。这种现象称为刺激物的更新。与此同时,另一种现象是刺激物的歧视。当狗听到一种铃声时会流唾液,而听到另一种铃声时,它就不会流唾液。这就是对刺激物歧视现象的一种演示。

斯金纳条件反射也被称为工具性条件反射或操作性条件反射。这是由美国心理学家伯勒斯·弗雷德里克·斯金纳(Burrhus Frederic Skinner, 1904—1990)提出来的。工具性条件反射演示的是,新行为或新反应是如何与特定刺激物联系起来的。

一个人想要得到某种特定行为的结果,那么这种行为发生的频率就有可能增加。假定在某种特定的环境里,得到奖励或强化的任何行为在该环境里都有重复进行的倾向。斯金纳把一只老鼠放进了一个箱子里(现在这称为“斯金纳箱”)。在这只箱子里有一个杠杆,当撬压杠杆时,动物就能吃到食物。被放到箱子里的那只老鼠并没有被教会如何压杠杆。但是,在箱子里不停转动的小老鼠最终还是轻推了杠杆。它有可能是坐在杠杆上,也有可能用小脑袋来敲杠杆,或者是用爪子来压起杠杆。这种随意的行为受到了食物的强化,因此就有可能再次发生。

img71

巴甫洛夫(1849—1936年)

古典条件反射之所以被称为古典反射,是因为它比我们上面介绍的两种条件方法提出的要早。斯金纳条件反射也被称为工具性条件反射,因为它与为得到一些物质奖励而发生的行为有关。斯金纳的实验老鼠发生这种条件反射是在一些影响因素的驱动下进行的。当老鼠被放到箱子里感到饥饿时,它们的行为就会带来一种想要的回报。

img72

伯勒斯·弗雷德里克·斯金纳(1904—1990年)

术语“反应性条件反射”和“操作性条件反射”是如何提出来得呢?沃森的刺激—反应心理学表明,在没有刺激物的条件下是不会有行为或反应发生的。因此,在有特定的刺激物的情况下,一个人才会做出某种条件反应。换言之,一个人会把一种反应与相应的刺激物联系起来。这些反应被称为反应性反射。膝盖反射、瞳孔收缩以及流唾液很明显都是可以改进的条件反射。

塑造:为了建立想得到的行为模式而对特定行为进行选择性地强化。

斯金纳认为,上述解释与人们熟知的事实并不相符。在没有特定刺激物的条件下,动物和人类确实也在发生着某些行为。事实上,他认为,人类的大部分行为都是这种行为。在没有明确刺激物时发生的行为被称为操作性行为。操作性条件反射解释的是新的行为模式如何形成。反应性条件反射不改变动物的行为,只是改变了行为发生的时间。

斯金纳还引进了塑造这一概念。塑造是指为了建立想得到的行为模式而对特定行为进行选择性地强化。按照这种行为方式,他能够在玩乒乓球时打和平球和进行八字散步——这些都是著名的实验,它们证明了随意的、漫无目的或当即发生的行为是可以通过操作性条件反射被塑造的。

亚马逊工厂的条件反射

亚马逊工厂是实际上有点像一个压榨劳力的工厂,或者也可以说像狄更斯在小说《Bleak House》中描述办公楼——一个充满牢骚抱怨和道歉的分隔间荒地。如果人类的苦难和有效率的厌倦能变得美丽,那么骨瘦如柴的工人、没完没了重复性工作、发热的桌子,以及可快速交换的工作间都会成为一种美丽。在我们的监工死鱼般的眼睛的照射下,我们会不停地敲击键盘——如果没有汽笛声,这将是悲伤的浪漫。

挂在任何一个地方的读者板表明呼叫次数以及平均的回应次数。当数字非常高时,他们会打开红的——一种令人害怕的——笛声,不停地转。人们听到这种声音后,就会发生神经——他们停到时,就会摇头并向上看,就像狗一样。

M向我解释了这一现象。“那是条件反射。”

“什么?”

“那些警报器。它们通常会让你努力工作。”

“哦,哦。”

“不,我是严肃认真的。仔细想想:你马上能想到的最恐怖的声音是什么?报警器的汽笛在你的头顶上不停地响着”。

“我们也是报警器笛声。”

“对了,它们是如此的恐怖以至于当笛声停下来,你才觉得不再紧张了……等待它……”当汽笛声停下来,“猜,你能感觉得到吗?”

“狗屁! ”坐在那里,我通常会觉得我的心脏在跳,我开始紧张。“好像我操纵着它一样。”

“对。我听到他们会达到一个正常的汽笛声,但是他们所雇用的工作流程分析者说,如果存在一定程度的危险,我们就会更努力地工作。”

资料来源:Mike Daisey, 21 Dog Years: Doing Time @ Amazon. Com, Fourth Estate, London, 2002, pp.78-79.

斯金纳在有关操作性条件反射方面研究了多种变量。一个重要的变量是对期望行为的间接性的回报,而不是常规的、持续性的回报。这比实验室试验更能贴近地反映现实社会。例如,为什么赌徒在玩了很久后仍在继续赌下去?为什么钓鱼者在垂钓了数小时后一无所获时仍继续钓鱼呢?在这些例子中,间歇性强化发挥了很大的作用。在没有常规的、持续强化的情况下行为仍然会继续发生。

对期望行为回报的模式和时间被称为强化周期。在不同的强化周期里可能的变量是无限的,斯金纳还调查了大量变量的影响(FS,1957)。但是,间歇性强化分为两种,即间隔周期和比例周期,参看表4.3中间歇性强化与连续性强化的比较。

间歇性强化:对正确的反应只是间断地给予回报,而不是每一次正确的反应都给予回报的过程。

强化周期:当被渴望的期望出现时,视具体情况而定的回报方式和回报发生的频率。

斯金纳声称他能用操作性条件反射的理论解释行为复杂模式的发展。这表明,我们的行为是如何在周围环境下被塑造的,以及在环境下我们的经验,和我们收到的有选择的奖惩。思维、问题解决和语言获得,他认为,要依靠这些简单的条件反射过程。斯金纳拒绝采用“心灵主义”这一概念,以及“内心超自然的力量”来解释人类的行为,因为,它们是观察不到的,是不能研究的,因此,也不是人类心理学的科学。当简单的、可观察到的现象似乎能提供足够的解释,为什么还要采用复杂的、不能观察到的概念呢?

思考与评论

在这组亚力克斯的漫画中,年轻的奥利弗的问题是由于反应性条件反射引起的,还是由操作性条件反射引起的?

img73

表4.3 强化周期

img74

资料来源:Fred Luthans and Robert Kreitner, Organizational Behaviour Modification and Beyond, Scott Foresman, Glenview, IL(second edition), 1985.

斯金纳所进行的具有挑战性的研究项目一直有着深刻的影响。它使人们广泛地采用有计划的学习方式,这种学习方式设计指导性的技巧来强化学习者的正确行为,并使人们按照自己的进度来进行学习。在他提出这些观点的基础上,后来又有了行为调节这些技术。因为条件反射的动物的行为是连续性的,是可以预料的,因此这种方法被用在了检测药品的有效性上。

人们已经普遍接受了强化期望的行为对惩罚不被期望的行为更有效。但是,沃尔斯特和格鲁森特(C.C.W J.E.G,1977)从一种研究评论的观点出发认为,在以下情况下,惩罚会更有效:

■惩罚应该快速而简短地进行;

■在不被期望的行为发生之后,应该立即进行惩罚;

■惩罚的强度应该有限度;

■应结合具体的行为来进行惩罚,而不是根据一般特性;

■惩罚应仅限于不被期望的行为发生的环境里;

■惩罚不应该传达出有关什么是可接受行为“混合信息”;

■惩罚应该是采取回报减少的形式,而不是体罚的形式。

思考和评论

在组织环境里,沃尔斯特和格鲁森特提出的惩罚标准在多大程度上有可能被管理者采用来约束员工的行为?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈