Reforço Negativo e a Maldição de Sisyphus. Analogias e estudos científicos de comportamento canino.

Reforço negativo é um dos quatro quadrantes de condicionamento operante usados no trabalho de comportamento canino. Muitos estudos citam o citam como R- dentro do contexto explicativo de cada teoria e sua aplicabilidade. Para facilitar o esclarecimento sobre o uso desse quadrante dentro do trabalho comportamental com cães, compartilho aqui com vocês mais um texto do Tyler Muto, com uma excelente apresentação usando uma analogia de fácil compreensão. Vejam no final do texto as referências científicas usadas na argumentação do artigo. Boa leitura!

Para ler o texto original, em inglês, clique aqui


Sisyphus era o rei de Ephyra, e ele tinha uma reputação de desafiar os deuses e ser um pouco trapaceiro. Uma de suas maiores façanhas conhecidas veio no final de sua vida, quando Hades, o deus do submundo, veio reivindicá-lo, trazendo consigo um par de algemas. Sisyphus, com toda sua astúcia e travessura, conseguiu persuadir Hades a demonstrar as algemas em si mesmo. Sisyphus aproveitou ainda mais essa reviravolta bloqueando o Hades algemado em seu armário.

Eventualmente, as trapaças de Sisyphus alcançaram-no e ele foi levado ao submundo para receber seu eterno castigo. Por todas as suas transgressões, ele foi condenado a uma eternidade de enrolar uma pedra enorme em uma colina. O que fez isso especialmente torturante não era que a colina fosse infinitamente alta; De fato, ao exercer todas as suas forças, Sisyphus conseguiu chegar ao topo. No entanto, no momento em que ele alcançou o pico e estava pronto para descansar e se alegrar com suas realizações, o pedregulho rolou de volta para o fundo. Sisyphus, cansado e frustrado, teve que recomeçar o processo. E foi para a eternidade ...

Agora, por falta de uma sequência inteligente, vou mudar de marcha abruptamente. Mas não deixe a história do rei Sisyphus escapar de sua mente.

O reforço negativo é um dos aspectos mais amplamente utilizados e versáteis de como os animais aprendem. Tecnicamente falando, o reforço negativo refere-se à eliminação de um estímulo (geralmente desagradável), com o propósito de encorajar ou fortalecer o comportamento. No treinamento de cães, o reforço negativo refere-se a quando o cão aprende a desligar (ou a escapar) uma sensação desagradável, e depois aprende a evitar completamente a sensação desagradável, respondendo a uma orientação específica.

Usado corretamente, o reforço negativo pode fortalecer e solidificar a resposta do seu cão a comandos conhecidos e tornar essa resposta muito mais confiável e resistente à extinção. A chave, no entanto, é aprender a usar corretamente o reforço negativo. Uma compreensão incorreta do reforço negativo pode tornar o treinamento estressante para o cão. Na melhor das hipóteses, usar o reforço negativo incorretamente pode simplesmente retardar o progresso do treinamento e limitar a confiabilidade geral dos resultados.

Embora haja muitos erros que são comumente cometidos quando se trata do uso de reforços negativos (aos quais me referirei como R-), gostaria de usar a história do rei Sisyphus para ilustrar um dos mais comuns: condicionamento, ou fases instrucionais de treinamento, quando o cão está aprendendo como suas ações podem controlar o estímulo (ou pressão), não antes de o cão completar a tarefa que lhe é solicitada, ele é instantaneamente liberado e / ou dado outro comando e o cão tem que escapar da pressão novamente.

Para ilustrar a título de exemplo, vamos pegar o estágio inicial do condicionamento remoto do colar eletrônico, onde o cão aprende a ir para a cama em resposta à estimulação *. O treinador pressiona o botão no transmissor em uma estímulo baixo (apenas uma leve cócega ou aborrecimento para o cão) e, em seguida, guia o cão para a cama. Quando o cachorro vai para a cama, o treinador solta o botão e o cachorro é elogiado e recompensado. Então, depois de um breve momento, o cão é solto e o exercício é reiniciado (o treinador aperta o botão, guia o cão etc.).

O que devemos lembrar é que é a cessação da pressão do colar que está reforçando o cão. Para realmente aproveitar esse reforço, o cão precisa de um momento para apreciar sua realização e a sensação de alívio e relaxamento que o acompanha. Em outras palavras, quando o cão remove com sucesso a estimulação, dê-lhe um minuto para saboreá-lo.

Quando inundamos nossos cães com uma rápida sucessão de comandos durante o treinamento de R-, estamos essencialmente dando aos nossos cães o mesmo destino que Sisyphus. No entanto, o treinamento deve ser uma experiência divertida e agradável para o cão. A “maldição de Sisyphus” corrói o valor do reforço, corroendo assim o desejo do cão de trabalhar conosco, causando-lhes frustração desnecessária e retardando nosso progresso.

Não dê ao cão a maldição de Sisyphus.

Além disso, quanto mais motivador for o estímulo ou a pressão, mais importante será dar ao cão um pouco mais de tempo.

Afinal, se Sisyphus tivesse a chance de se sentar e recuperar o fôlego entre rolos de pedra, talvez um intervalo prolongado no almoço para um Panini e um copo de vinho, e dois sólidos dias de folga no fim de semana, talvez seu destino não tem sido tão torturante (droga, é apenas um sólido dia de trabalho!).

Além de potencialmente causar estresse indevido durante o treinamento, também podemos estar perdendo um dos benefícios potenciais do treinamento de reforço negativo.

Para aqueles com apenas um interesse casual em treinamento, você provavelmente pode parar por aqui. Para aqueles nerds de cães como eu, você pode querer ler, já que eu vou ficar com toda a ciência por um momento.

Como afirmado anteriormente, o treinamento de reforço negativo tem basicamente dois componentes. Primeiro, o cão deve aprender a desligar ou "escapar" da pressão quando a sentir. Em segundo lugar, eles aprendem a evitá-la totalmente, respondendo a uma sugestão preditiva (ou seja, nosso comando). Uma das qualidades únicas e desejáveis este aprendizado posterior de evitar é que, uma vez que o cão aprende a evitar a pressão, ele continua a fazê-lo por muitas repetições sem precisar ficar exposto à pressão novamente. De fato, feito corretamente, esse tipo de aprendizado é um dos mais resistentes à extinção.

Os primeiros pesquisadores postularam que o que estava mantendo a resposta do cão na ausência de pressão real era uma resposta de medo classicamente condicionada quando a sugestão é dada. Isso parece fazer sentido. O cão ouve um comando e responde com medo da consequência de não responder. O problema era que a evidência simplesmente não apoiava essa teoria. Cães usam suas emoções em suas mangas, e eles são mentirosos terríveis. O que os pesquisadores observaram foi que quando os cães foram devidamente condicionados através do reforço negativo e do aprendizado de evitar, eles não apenas responderam de maneira confiável, mas o fizeram com disposições muito felizes e relaxadas.

Mais pesquisas e uma nova teoria foram necessárias para explicar esse fenômeno. Junto veio a hipótese do sinal de segurança. Vários pesquisadores (ver M. R. Denny, R. G. Wiesman / J. S. Litner e D. F. Tortora) reconheceram que, após a remoção da pressão, os cães experimentavam uma sensação de alívio e relaxamento. Além disso, como os cães aprenderam a evitar com sucesso a pressão, quaisquer emoções desagradáveis m potencial se desvaneceram rapidamente, mas a sensação de alívio e relaxamento permaneceu. Assim, são as emoções agradáveis e alívio e relaxamento que atuam como reforço e explicam a disposição do cão e a manutenção contínua do comportamento desejado.

De fato, M.R Denny observou que a experiência de alívio ocorre de 3 a 5 segundos após a cessação da pressão, e dura de 10 a 15 segundos, enquanto o relaxamento requer aproximadamente de 2 a 5 minutos para produzir benefícios totais **. Ele também observou que os efeitos parecem dobrar quando o cão experimenta alívio e relaxamento, em oposição a apenas alívio por si só.

Em outras palavras, se você der pelo menos 2-15 segundos entre as repetições, o cão experimenta algum reforço, mas se você der um total de 2-5 minutos, a experiência de reforço pode efetivamente dobrar.

O que isto significa é que, dando tempo suficiente entre as repetições durante o treinamento de fuga / evasão, não apenas você está evitando dar ao seu cão a maldição da condenação eterna (um pouco de exagero eu sei), mas você está dobrando os aspectos prazerosos do treinamento. 

Podemos aproveitar esse tempo extra. A pesquisa mostrou que podemos condicionar outros sinais a serem associados a essa sensação de relaxamento. Assim, elogiar e interagir com o cão durante esse período pode aumentar o valor do seu elogio e ajudar a estabelecer sua interação como fonte de segurança e conforto. Este último é imensamente valioso para treinadores profissionais que estão trabalhando regularmente com cães com quem eles são relativamente desconhecidos.

Por fim, lembre-se de que esse princípio não se aplica apenas a coleiras eletrônicas e guias. Por exemplo, na reabilitação de cães com ansiedade social, muitas vezes estamos trabalhando para aliviar as pressões sociais de maneira apropriada. Levar um pouco de tempo extra entre as exposições pode ajudar a ampliar seus resultados. O mesmo se aplica à exposição a outras formas de medo, fobia e ansiedade também.

Treinar com qualquer tipo de pressão é uma responsabilidade, não um direito. Se você for fazer, todo esforço deve ser feito para fazê-lo bem. Evitar a maldição de Sisyphus é apenas uma das muitas maneiras de garantir que você aproveite ao máximo seu treinamento.

- Tyler Muto

* Eu recomendo treinar cães inicialmente com o uso de técnicas de reforço positivo, e utilizando o colar eletrônico apenas para solidificar e reforçar o treinamento previamente estabelecido.

** Denny especifica que o alívio envolve um forte fator autonômico, enquanto o relaxamento envolve músculos estriados e vários componentes motores.

Referências:

Denny M.R. (1976). Post aversive relief and relaxation and their implications for behavior therapy. J Behav Ther Exp Psychiatry, 7: 315-321.

Denny M.R. (1983). Safety catch in behavior therapy: Comments on “safety” training: The elimination of avoidance motivated aggression in dogs. J Exp Psychol Gen, 112: 215-217.

Lindsay S.R. (2000). The handbook of applied dog behavior and training. Vol 1,  295-296.

Tortora D.F. (1983).  Safety training: The elimination of avoidance motivated aggression in dogs.  J Exp Psychol Gen, 112: 176-214.

Weisman R.G. and Litner J.S.  (1969). Positive conditioned reinforcement of Sidman avoidance in rats. J Comp Physiol Phychol, 68: 597-603.