|
학습이론(조작적 조건형성)
Pavlov는 고전적 조건형성을 유일한 조건형성이 아니라고 하였고 고전적 조건형성은 자극에 의해 통제되는 반사적 반응을 가장 잘 설명할 수 있다. 그러나 인간 및 다른 동물의 행동은 고전적 조건형성으로 설명할 수 없는 경우가 많다. 예컨대, 공부하는 행동을 생각해보자. 공부하는 행동은 반사적인 반응이 아니고 시험이나 성적은 학습행동의 결과이지 선행하는 것이 아니다. 즉 공부를 하는 행동은 성적이나 취직과 같은 반응에 수반되는 사상 즉 결과의 영향을 받는다.
Skinner는 이러한 종류의 학습을 조작적 조건형성(operant conditioning)이라고 하였다.
여기서 조작적이란 유기체가 자극에 대해 단순히 반응하는 것이 아니라 환경을 조작하여 변화시킨다는 의미이다. 즉 학습은 반응에 수반하는 결과의 영향을 받는다는 것이다. 따라서 조작적 조건형성은 수의적 반응이 그 결과에 의해 통제된다는 의미를 갖는다. 이러한 조작적 조건형성은 자발적인 인간행동의 설명에 더 큰 비중을 차지하고 있다
.
▶ 효과의 법칙
조작적 조건형성은 도구적 조건형성(instrumental learning)이라고도 하는데 이 용어는 Thorndike(1913)가 처음 사용한 용어이다. 그는 원하는 결과를 얻기 위한 반응의 도구적인 측면을 강조하였다.
초기에 그는 주로 동물학습을 연구하였는데, 동물의 사고능력을 알아보기 위해 고양이를 대상으로 문제해결능력을 연구하였다.
문제상자에 일정 기간동안 먹이를 주지 않은 고양이를 가두어놓고 상자 밖에 먹이를 놓아 두었다. 배고픈 고양이가 먹이를 얻기 위해서는 줄을 당기거나 레버를 누르는 것과 같은 구체적인 반응을 해야 한다. 줄을 당기거나 레버를 눌러서 문제상자에서 빠져 나오면 고양이는 밖에 있는 먹이를 먹을 수 있다. 이러한 시행을 반복한 경우 고양이가 생각할 수 있는 능력이 있다면 상자에서 빠져 나오는 방법을 알게 되어 상자에서 빠져나오는데 걸리는 시간이 급격히 줄어들 것이라고 가정할 수 있다. 그러나 실제로 실험을 시행한 결과 고양이가 문제상자를 빠져나오는데 걸리는 시간은 급격히 줄어드는 것이 아니라 점진적으로 감소하였다.
시간이 감소한다는 것은 고양이가 학습을 했다는 증거이지만 시간이 급격하게 감소하지 않고 점진적으로 감소한다는 것은 이런 종류의 학습이 사고나 이해에 의존하는 것이 아니라는 것을 입증하는 것이다. 그래서 Thorndike는 효과의 법칙(law of effect)을 주장하였다.
효과의 법칙이란 자극에 대한 반응이 만족스러운 효과를 가져다주면 자극과 반응의 연합이 강화된다는 것이다. 이 법칙은 이후 Skinner 이론의 기초가 되었다.
반응결과 : 조작적 조건형성의 기본 원리는 아주 단순하다.
Skinner는 유기체는 바람직한 결과가 수반되는 반응을 반복하려는 경향이 있다는 것을 입증하였는데, 이를 강화(reinforcement)라고 한다. 강화란 반응에 수반되는 사상이 유기체의 특정반응경향을 증가시키는 것을 말한다. 즉 특정 반응경향이 증가하는 것은 그 반응결과가 유쾌하고 보상적이기 때문이다.
Skinner 등은 우리의 일상생활은 대부분이 강화에 의해 조절된다고 하였다.
예컨대, 높은 학점을 따기 위해서 열심히 공부하고 농담을 하면 주위사람들이 웃어주니까 농담을 더 많이 한다. 이러한 강화원리는 쥐와 비둘기와 같은 동물행동을 관찰한 결과이긴 하지만 인간의 복잡한 행동을 설명하는데도 아주 효과적이다.
조작적 조건형성에서 강화의 개념.
Skinner에 따르면 반응에 대해 보상적인 결과가 수반될 때 유기체의 반응경향은 증가한다.
실험절차
그는 자신이 고안한 Skinner 상자에서 쥐와 비둘기 같은 동물을 대상으로 연구하였는데, 이상자는 동물의 반응을 체계적으로 관찰하고 반응결과를 통제할 수 있도록 고안된 상자이다. 이 상자에서 피험동물의 바람직한 행동은 상자벽에 장치되어 있는 레버를 누르는 것이다.
Skinner 상자와 기록장치.
스키너 박스와 누가적 기록. ⒜ 피험동물이 해야할 행동은 레버누르기이다. 레버를 누르면 먹이분배기에서 먹이가 제공되는데 이를 강화물이라고 한다. 벽면에 부착되어 있는 스피커와 전구는 시,청각 자극으로 사용할 수 있으며, 바닥의 격자를 통해 전기충격을 제시할 수도 있다. ⒝ 피험동물의 반응과 제공된 강화물을 기록하는 누가기록장치이고 강화물이 제공된 지점은 \ 로 표시되어있다. ⒞ 먹이분배기가 왼쪽에 장치되어 있다.
레버 누르기와 같은 조작적 반응은 유도된 반응이라기보다는 환경을 능동적으로 조작함으로써 생긴 반응(emitted response)이다.
고전적 조건형성과는 대조적으로 조작적 조건형성의 반응은 중추신경계의 지배를 받는 수의적, 의도적 반응이다. Skinner상자에서 피험동물의 행동은 수반관계를 조작하여 통제한다.
수반강화(reinforcement contingency)란
반응에 따라 강화물을 제시하는 방식에 관한 규칙을 말한다. 일반적으로 실험자가 원하는 반응을 했을 때 정적인 결과를 제공해준다. Skinner상자에서는 쥐가 레버를 누를 때마다 먹이를 제공할 수 있는데, 이 먹이를 강화물이라고 한다.
획득과 조성:
고전적 조건형성과 마찬가지로 조작적 조건형성에서도 획득이란 새로운 반응경향성의 습득을 의미한다. 조작적 조건형성에서는 흔히 조성(shaping)이라는 점진적 과정을 통해서 조작반응을 유도하는데, 조성이란 목표행동에 가까운 행동을 연속적으로 강화하는 점진적 접근법을 말한다. 다시 말해 조성은 바라는 목표행동을 이끌어내기 위해 목표행동에 가까운 반응을 단계적으로 조작하는 과정으로 목표반응과 조금이라도 가까운 반응을 강화하여 새로운 행동을 유도한다.
아무리 배가 고픈 쥐라도 Skinner상자에 들어가자마자 레버를 누르지는 않는다. 그래서 실험자가 원하는 행동을 유도하기 위해서는 목표행동을 단계적으로 조작하는 할 필요가 있다. 서커스에서 곰이 자전거를 타고, 원숭이가 피아노를 치고, 돌고래가 후프를 통과하는 것등은 모두 행동조성의 결과이다.
소거:
조작적 조건형성에서 소거란 피험자가 아무리 반응을 해도 더 이상 강화물이 제공되지 않아 반응경향성이 감소되어 사라지는 것을 말한다. 예컨대, Skinner 상자에서 쥐가 레버를 누르는데도 먹이를 주지 않으면 소거가 일어난다.
예컨대, 한 아이가 잠잘 시간만 되면 잠투정이 심하다고 가정해 보자. 아이가 울 때마다 부모가 관심을 기울이면 이 관심이 강화역할을 해서 우는 행동은 증가한다. 그러나 울 때마다 부모가 무시하고 관심을 주지 않는다면 아이는 더 이상 울지 않을 것이다. 조작적 조건형성에서 한 가지 중요한 현상은 강화물을 중단할 때 소거에 대한 저항과 관련된 문제이다.
소거에 대한 저항(resistence to extinction)이란 : 강화물을 철회한 뒤에도 조작반응을 계속하려는 경향을 말한다. 소거에 대한 저항이 크면 클수록 반응을 계속할 가능성도 크다. 예컨대, 레버를 누르는 조작행동을 더 이상 강화하지 않는데도 반응이 아주 서서히 감소한다면 소거에 대한 저항이 강한 것이다. 그러나 조작반응이 빨리 감소한다면 소거에 대한 저항이 약한 것이다.
예컨대, 대부분의 부모들은 더 이상 강화물을 주지 않더라도 자식이 계속 공부하기를 원한다. 카지노와 같은 도박판에서 엄청난 돈을 잃어버렸을 때도 계속 도박하기를 원한다.
자극통제:
반응결과가 조작반응을 통제하지만 반응에 선행되는 자극도 조작반응에 영향을 줄 수 있다.
이 경우에도 특정 자극이 있을 때만 강화물이 주어지기 때문에 이 자극은 강화물에 선행하는 신호로 작용한다. 이러한 신호를 학습하고 나면 이 신호에 따라 반응하려는 경향이 있다.
예컨대, 새들은 비가 온 후에 벌레잡는 것이 쉽다는 것을 알고, 아이들은 부모가 기분이 좋을 때 사탕을 달라고 하며, 운전자들은 도로가 미끄러울 때는 서행한다. 뿐만 아니라 다양한 인간의 사회적 행동도 변별자극에 의해 조절된다.
변별자극에 대한 반응은 자극일반화와 자극변별의 영향을 받는다. 예컨대, 깡통을 따는 소리를 들을 때마다 부엌으로 들어오는 고양이가 있다면, 이 소리는 먹이를 신호하는 변별자극이다. 만약 고양이가 믹서를 가는 것과 같은 다른 소리에 대해서도 반응한다면 원래 자극과 유사한 다른 새로운 자극에 일반화된 결과이고 깡통 따는 소리에 대해서만 반응한다면 변별학습이 된 것이다.
강화
Skinner는 어떤 결과가 특정 반응을 증가시키는 것을 강화라 하고 강화는 반응율 증가로 측정할 수 있다고 하였다. 어떤 사상에 강화의 기능이 있는지 알기 위해서는 특정 반응에 수반해서 그 사상을 제시한 뒤 반응증가를 관찰해야 한다. 따라서 강화는 행동에 미치는 효과의 측면에서 보면 행동에 수반해서 주어지는 것이다. 먹이는 배가 고픈 쥐에게는 강화적이다. 마찬가지로 부모의 인정은 유력한 강화물이긴 하지만 모든 아동에게 강화적 사상일 수는 없다.
강화지연:
조작적 조건형성에서 반응에 수반해서 즉각적으로 결과가 주어질 때 그 반응이 증가할 확률이 가장 높다. 만약 반응과 결과의 시간간격이 지연되면 그 반응은 강화받지 못할 수도 있다. 더욱이 반응과 강화물 제시 간의 시간 간격이 길어질수록 조건형성의 속도는 느려진다(Church, 1989). 강화물을 지연해서 제시하면 반응과 결과 간의 수반관계가 모호해져서 조건형성이 비효율적일 수 있다.
조건화된 강화: 강화물은 일차강화물과 이차강화물로 구분할 수 있다.
일차강화물이란 아무런 학습과정을 거치지 않고도 생물학적 욕구를 만족시켜 주기 때문에 기본적으로 강화속성을 지닌 사상이다. 예컨대, 인간의 경우 음식, 물, 온화함, 성, 애정 등은 일차강화물의 예이다. 이에 비해 이차강화물이란 일차강화물과 연합된 결과 강화물의 속성을 획득한 사상을 말한다. 이차강화물은 학습과정에 의존하기 때문에 아주 다양하다. 인간의 경우 돈, 높은 성적, 타인의 인정, 칭찬 등이 이차강화물에 속한다.
▶ 강화계획 : 강화계획이란 구체적인 강화물을 제시하는 방식을 말한다.
가장 단순한 방식은 연속강화이다. 연속강화는 피험자가 목표반응을 할 때마다 강화한다.
부분강화 또는 간헐적 강화란 목표반응 가운데 일부만 강화하는 방식을 말한다. 이러한 부분강화는 연속강화보다 소거에 대한 저항이 강하다(Robbinson, 1971).가끔 강화된 행동이 더 오래 지속되는 것은 이 때문이다.
강화계획은 세부적으로는 아주 다양하지만 크게 4가지로 구분할 수 있다.
일생활과 강화계획 :
복잡한 인간행동은 다양한 강화계획에 따라 조절된다. 몇번 이상 비행기를 이용하면 보너스로 비행기표를 제공하는 것은 고정비율 강화계획, 슬롯머신을 조작해서 일확천금을 기대하는 것은 변동비율 강화계획, 직장에서 시계를 쳐다보며 퇴근 시간을 기다리는 것은 고정간격 강화계획, 버스 정류장에서 버스를 기다리는 것은 변동간격 강화계획이다.
비율강화란 : 사전에 정해진 수만큼의 조작반응이 있어야 강화물을 제공하는 것이다.
고정비율(fixed ratio; FR) 강화계획은 반응하는데 걸린 시간에 관계없이 항상 일정한 수만큼의 반응을 해야 강화물을 준다. 예컨대, 쥐가 10번 레버를 누르면 강화하거나 책 판매원이 백과사전 4세트를 팔 때마다 보너스를 지급하는 것은 고정비율 강화계획에 속한다.
변동비율(variableratio; VR) 강화계획은 정해진 수의 조작반응이 있을 때마다 강화하지 않고 평균 몇번 조작반응을 있을 때 강화물을 제공한다. 예컨대, 쥐가 평균 10회 레버를 누를 때 강화물을 제공하는 방식이다.
간격강화란 일정한 시간간격에 따라 강화물을 제시하는 방식이다.
고정간격(fixed interval; FI) 강화계획은 일정한 시간이 지난 후에 반응해야 강화물을 준다. 예컨대 2분이 지나기 전에는 아무리 반응을 해도 강화물을 제공하지 않지만 2분이 지난 후 첫 반응에 대해 강화물을 제공한다. 정기적으로 받는 월급이 전형적인 고정간격 강화의 예이다.
변동간격(variable interval; VI) 강화계획은 시간에 따라 강화하는 것이 아니고 사전에 정해진 평균시간이 지나야 강화물을 제공하는 방식이다. 예컨대 1분이 지난 후 첫 반응에 강화하고 다음에는 3분, 2분, 4분이 지난 뒤에 강화하는 방식이다.
정적 강화와 부적 강화
▶ 정적 강화란 보상이 조작행동을 증가시키는 것을 말한다. 높은 성적, 맛있는 음식, 봉급, 장학금, 승진, 인정 등은 모두 정적 강화물의 예이다. 이와는 달리 혐오적 자극을 제거하거나 철회함으로써 반응확률이 증가하는 것을 부적 강화라고 한다. "부적"이라는 말이 주는 의미 때문에 혼돈하기 쉬우나, 부적 강화도 강화의 일종이므로 반응확률을 증가시킨다.
정적 강화는 반응결과 유쾌한 사상이 수반되고 부적 강화는 반응결과 혐오적인 자극이 철회된다는 점에서 정적 강화와 구별할 수 있지만 반응확률을 증가시킨다는 점은 공통적이다.
부적 강화와 회피행동
도피학습: 회피행동은 도피학습(escape learning)으로 설명할 수 있다.
도피학습이란 혐오적인 자극을 감소시키거나 제거하는 반응을 획득하는 것을 말한다.
전기충격을 제시하면 쥐는 열린 문을 통해 반대편으로 이동할 것이다. 이렇게 되면 전기충격을 피할 수 있다. 잠시 후 다시 그 칸에 전기충격을 제시하면 다시 다른 칸으로 이동함으로써 전기충격을 피할 수 있다. 이러한 도피반응은 혐오적 자극의 철회라는 부적 강화를 통해 획득된다. 어떤 사람을 만나면 기분이 상하기 때문에 모임에 나가지 않는 것도 도피반응이다.
회피학습: 회피학습(avoidance learning)이란 혐오적인 결과를 미리 신호하는 자극을 단서로 특정한 반응을 획득하는 것을 말한다. 회피학습에 대한 연구에서는 전기충격을 제시하기 전에 이를 알리는 신호를 먼저 제시한다. 즉 셔틀상자에서 불빛을 몇초 동안 먼저 제시한 후 전기충격을 제시한다. 동물은 처음에는 전기충격을 받을 때만 다른 칸으로 달려가지만(도피학습) 점차적으로 불빛이 전기충격을 신호한다는 것을 알게 되어 불빛이 제시되면 즉시 안전한 칸으로 도망치는 것을 학습하게 된다(회피학습).
회피학습의 2요인이론: 이 이론에 따르면 회피학습에서 경고자극인 불빛은 전기충격과 반복해서 짝지워짐으로써 점차 공포를 유발시키는 조건자극이 되고(고전적 조건형성) 공포는 유기체에게 혐오적이기 때문에 공포감소는 부적 강화의 기능을 한다는 것이다(조작적 조건형성).
▶ 처벌
체벌이란 반응에 수반해서 혐오적인 자극을 제시함으로써 반응경향을 감소시키는 것을 말한다. 예컨대, Skinner 상자에서 쥐가 레버를 누르거나 비둘기가 레버를 쪼을 때 짧은 전기충격을 주면 반응율은 아주 급속하게 감소한다.
전형적으로 처벌은 혐오적인 자극을 제시하는 것이지만 보상적인 자극의 제거도 포함한다. 예컨대, 아동들에게 TV를 보지 못하게 하는 것도 처벌이다. 처벌은 행동을 통제하는 강력한 수단이 아니다(Skinner, 1938, 1952). 왜냐하면 처벌은 반응강도를 약화시키는 것이 아니라 일시적으로 억제하기 때문이다.
처벌의 부작용: 훈육수단으로서 처벌을 사용할 때 생기는 가장 큰 문제점은 의도치 않은 부작용이 생긴다는 점이다. 한 부작용은 처벌하지 않은 다른 행동까지 억압할 수 있다는 점이다. 처벌은 공포, 불안, 분노와 같은 부적인 정서반응을 유발하기도 한다. 이런 강한 부적인 정서는 일시적이나마 정상적인 기능을 방해하고 처벌자에 대한 적대감을 유발한다. 또한 신체적 처벌을 많이 받은 아동들은 다른 아동들에 비해 훨씬 더 공격적이다.
효과적 처벌: 처벌은 훈육수단으로 잘못 사용되기도 하지만 처벌의 효과는 반드시 나쁜 것만은 아니다.
1. 가능한 한 즉각적으로 처벌하라. 강화를 지연하면 그 효과가 감소하듯이 처벌도 지연시키면 효과가 없다.
2. 효과가 있을 정도로 강해야 한다. 처벌이 강할수록 바람직하지 않은 반응을 약화시키는데 효과적이지만 그만큼 부작용을 일으킬 가능성도 증가한다.
3. 처벌에는 일관성이 있어야 한다. 이런 측면에서 처벌은 강화와 다르다. 바람직하지 않은 행동을 없애려면 그러한 행동을 할 때마다 처벌해야 한다. 간헐적 처벌은 혼란만 초래될 뿐이다.
4. 처벌이유를 설명해야 한다. 특정 행동을 처벌할 때 가능하다면 자세히 그 이유를 설명해 주어야 효과적이다.
5. 대안적인 반응을 제시하고 강화하라. 처벌은 어떤 행동을 못하게 하는 것일 뿐 대안적 반응을 제시하지 않는 단점이 있다. 예컨대, 아동들의 문제행동은 부모의 관심을 끌기 위한 것이 많다. 이럴 경우 부모의 관심을 받을 수 있는 다른 바람직한 행동을 제시해주고 이를 정적으로 강화하면 문제행동은 감소할 것이다.
6. 신체적 처벌을 최소화해야 한다. 아동이 너무 어려서 언어적인 처벌이나 꾸중을 이해하지 못할 경우에만 신체적 처벌이 효과적이다. 체벌은 손이나 손 등을 가볍게 때리는 것만으로도 충분하다. 즉 체벌은 가능한 한 피해야 한다. 왜냐하면 체벌은 공격행동을 유발할 수 있기 때문이다. 뿐만 아니라 체벌은 우리들이 기대하는 만큼 효과적이지 않다. 아동의 경우 아주 심한 체벌을 하더라도 한두 시간 지나면 잊어버리는 경향이 있다. 오히려 소중히 여기는 특권을 철회하면 아동들은 그 특권을 되찾기 위한 방법을 생각할 것이므로 더 효과적일 수 있다.
첫댓글 숙성되어 성숙해 진다.
환경을 조작하여 변화시킨다.
조작적 조건형성은 자발적인 인간행동..
2012.출발하면서....준비해온 나의 목표!! 이제는 능동적으로 실행을 하렵니다...학습적 이론에 실천입니다.
이론에 충실하면서...실천에 정진하는 모습으로 새로이 태어 나렵니다...감사와 힘을 얻어갑니다.