A punição negativa é realmente mais positiva? As respostas nos estudos científicos de comportamento canino.

Compartilho com vocês o texto abaixo traduzido para português, escrito por Tyler Muto, um excelente profissional que atua com treinamento e comportamento canino em Buffalo, NY nos EUA. Nesse texto vocês vão conhecer alguns exemplos de estudos que mostram resultados bem interessantes sobre o uso e efeito de tipos de punições no trabalho de comportamento canino. 

Para ler o texto original em inglês, acesse o link a seguir: https://tylermuto.com/2017/11/24/is-negative-punishment-really-more-positive/


É amplamente aceito que, para que uma consequência tenha um efeito sobre a ocorrência futura de um comportamento, a consequência precisa ter uma “representação motivacional”. Em outras palavras, devemos perguntar se a consequência é aversiva (algo que o animal iria querer evitar), ou é atraente (algo que o animal iria procurar)? O ponto crucial da maioria dos argumentos para um treinamento mais “humano” para cães, treinamento que envolve apenas técnicas baseadas em recompensas (Reforço Positivo e Punição Negativa), é que o treinamento de cães não deve envolver consequências aversivas ou estresse. A maioria dos treinadores que operam sob essa filosofia admitirão que eles usam punição, mas farão a distinção de que estão usando punição negativa (remoção de recompensa) versus punição positiva (aplicação de um aversivo), e que o primeiro é inerentemente mais humano do que o último.

É essa crença básica - que a punição negativa é inerentemente e sempre mais humana do que a punição positiva - que eu busco colocar em questão aqui.

De fato, se olharmos para a literatura científica, há evidências crescentes de que essa suposição é falsa. Para começar, considere o trabalho de Schalke, Salgirli, Bhom e Harbarth (2008). Em um par de estudos paralelos, os pesquisadores testaram os níveis de estresse do cortisol, bem como a eficácia geral, de três consequências diferentes: (1) o colar de pinos – Prong Collar; (2) o colar eletrônico; e (3) um sinal de desistência em 42 cães policiais.

O “sinal de desistência” é uma dica verbal que diz ao cão que seu comportamento não será recompensado (punição negativa). Os cães foram treinados com o sinal de desistência antecipadamente, usando alimentos e brinquedos por um período de 4 meses.

Neste estudo, os cães foram convidados ao comando “junto” e, em seguida, um ajudante apareceu no campo tentando provocar o cão. Se o cão cometeu um erro (não se comprometeu com o comando), a correção apropriada foi administrada, ou uma correção de colar de pino (Prong Collar), correção de colar eletrônico, ou eles receberam o sinal de abandono (não-recompensa). Os pesquisadores então testaram o nível de estresse que cada correção produziu no cão.

Os pesquisadores descobriram que o sinal de abandono produziu os níveis mais altos de estresse (medidos pelo cortisol), e o colar eletrônico produziu o mais baixo. Isso é exatamente o oposto do que a popular filosofia baseada em recompensas do treinamento animal poderia prever.

Antes de irmos adiante, vale a pena notar que há vários fatores-chave que contribuíram para esses resultados, o que também dificulta a generalização desses achados para o animal de estimação de família. O mais significativo é o fato de que os cães utilizados eram todos os estudos eram Malinois, uma raça que possui uma motivação apetitiva muito mais forte que o cão comum. Quanto mais um animal quer uma recompensa, mais estressante é quando a recompensa não é entregue, e esses cães realmente querem a recompensa. Na verdade, Schalke observou: "A frustração é um alto estressor para o Malinois", sugerindo que os autores concordariam que a punição negativa pode produzir altos níveis de estresse em um animal e, neste caso, níveis mais altos de estresse do que com punição positiva.

No entanto, também pode-se argumentar que, embora o sinal de abandono produza níveis mais elevados de estresse, o estresse pode ser caracterizado como Eustress (muitas vezes considerado estresse “saudável”) em vez de sofrimento, com a implicação de que o primeiro é mais saudável e mais humano. No entanto, estas são novamente suposições, e devemos ter cuidado ao aceitar uma proposição tão atraente quanto o dogma.

Há, de fato, muita pesquisa que sugere que devemos ter mais cuidado com nossas suposições. Dickenson e Dearing (1979) foram capazes de demonstrar em um experimento de bloqueio que a omissão de alimento (recompensa) tem a mesma representação motivacional para um animal do que uma estimulação elétrica (aversiva). Para resumir as descobertas, os pesquisadores conseguiram demonstrar que um sinal que um rato aprendeu a associar ao receber "não tem comida" pode bloquear novos aprendizados sobre um sinal que significa "um choque está chegando".

No experimento de Dickenson & Dearing (1979), os ratos foram ensinados que um tom significa "sem comida". Em seguida, o tom foi dado ao mesmo tempo como uma campainha, ambos precedendo um choque. O resultado surpreendente foi que o conhecimento do rato sobre a relação campainha / choque foi bloqueado pelo tom / sem relação alimentar. O tom / nenhuma relação de comida já estava representada na mente do rato como "tom significa que algo ruim / desagradável vai acontecer", e desde que um choque também é desagradável, a campainha não deu aos ratos nenhuma informação nova ou útil da qual aprender. O que isso tudo significa é que temos razão para acreditar que “sem comida” (punição negativa) e “choque” (punição positiva) têm a mesma representação motivacional / emocional para o animal.

Para aqueles que gostam do jargão da "ciência", Dickenson afirma em seu livro Contemporary Animal Learning Theory:

“A omissão do alimento esperado e a apresentação do choque provocaram uma representação comum”.

Há algumas conclusões que podemos tirar dos dois estudos que mencionei acima. Primeiro, se tomarmos as conclusões de Dickenson & Dearing, então segue-se que a punição negativa é representada na mente do animal como uma experiência aversiva, da mesma maneira que a punição positiva. Além disso, o trabalho de Schalke sugere que, pelo menos em algumas circunstâncias, a punição negativa pode produzir mais estresse e, portanto, ser uma experiência mais aversiva do que uma punição positiva, como um colar eletrônico.

Agora que abordamos a primeira questão (ou seja, qual é o valor motivacional e emocional da consequência?), Nos voltamos para a segunda questão: quão fácil é para o animal conectar a consequência ao seu comportamento?

Podemos começar novamente olhando para os estudos do Schalke. Os autores procuraram testar o estresse relativo induzido por colares eletrônicos, colares de pinos (prong collar) e sinal de abandono (punição negativa). No entanto, não só os autores relataram o estresse produzido por cada um, mas também relataram a eficácia de cada um na eliminação do comportamento alvo.



Curiosamente, embora o sinal de abandono produzisse mais estresse do que o colar eletrônico, ele realmente teve o menor efeito de aprendizado das três ferramentas. De fato, enquanto tanto o colar eletrônico quanto o colar de pinos tiveram um efeito de aprendizado significativo em 38 dos 42 cães, e 32 dos 42 cães respectivamente. O sinal de abandono teve apenas um efeito de aprendizagem em 3 dos cães, (38 dos cães não abandonaram o comportamento após o sinal). Portanto, nesse caso, a punição negativa foi a menos eficaz, e também a mais estressante, das três técnicas usadas (deve-se notar que o colar eletrônico foi mais eficaz e menos estressante).

Esses dois estudos são apenas alguns exemplos de descobertas semelhantes na literatura, mas é certamente suficiente para adicionar tons de cinza à suposição de que a punição negativa é inerentemente mais humana do que a punição positiva.

Mais recentemente, em 2015, em um artigo intitulado 51 Shades of Grey: Desvio, Incompreensão e Desinformação dos Conceitos de “Dominância” e “Castigo”, Simon Gadbois do Laboratório de Pesquisa de Comportamento Canino da Universidade de Dalhousie observou:

“Tenho visto os border collies enlouquecerem quando lhes dizem apenas o que fazem corretamente e são ignorados ao fazer uma escolha errada (por exemplo, em uma tarefa correspondente à amostra). De fato, ignorar as respostas erradas torna-se muito aversivo, sem realmente dizer ao cão o que evitar.

Enquanto alguns podem argumentar que o uso de um marcador de não-recompensa (ou desistir do sinal ou punidor negativo condicionado), de fato, diz ao cão quando um erro é cometido, como vimos nos estudos do Schalke, em alguns casos é um meio muito ineficaz de fazê-lo. Entre as linhas na declaração de Gadbois acima é que esta ineficiência pode levar a experiências muito aversivas para o animal.

Ao abordar crianças, temos uma vantagem significativa, que garante que o comportamento e a consequência estejam conectados: Idioma. A razão pela qual a punição negativa é muito mais útil ao disciplinar nossos filhos do que ao disciplinar nossos cães é que podemos explicar a conexão com eles. 

Com cães e outros animais, não temos o luxo da linguagem semântica. Com os animais, as consequências são mais bem compreendidas quando começam e terminam com o comportamento em si. Se eu retenho comida de um cachorro como consequência, a sensação de frustração, desejo ou fome pode persistir após o fim do comportamento-alvo. No entanto, com um colar eletrônico, eu tenho a capacidade de iniciar e parar a consequência com precisão cirúrgica,  dentro de um quadragésimo de segundo.

Mais uma vez, devo reiterar, para não ser acusado de argumentar um absurdo, que não estou de forma alguma propondo que a punição negativa seja sempre mais aversiva e/ou menos eficaz do que a punição positiva. O que estou afirmando é que, se vamos usar a ciência e a evidência empírica como nossa bússola para avaliar a ética de vários procedimentos de treinamento, então devemos estar preparados para reconhecer várias coisas:

  • Para que a punição seja eficaz na eliminação de um comportamento alvo, a punição em si precisa ser suficientemente aversiva para competir com a motivação que está provocando o comportamento em si.

  • Punição Negativa (remoção de recompensa) é eficaz porque cria uma experiência aversiva.

  • Pelo menos em alguns casos, Punição Negativa é mais aversiva / estressante do que Punição Positiva (aplicação de um colar aversivo, ou seja, eletrônico).

  • Pelo menos em alguns casos, Punição Negativa é significativamente menos eficaz do que Punição Positiva.

  • Em alguns casos, Punição Negativa pode ser mais aversivo e menos eficaz ao mesmo tempo (como visto nos estudos do Schalke).

Este último reconhecimento é significativo. Como podemos fazer afirmações generalizadas de que punições positivas (ou seja, colares de pinos, colares eletrônicos, etc.) são inerentemente e objetivamente antiéticas, em favor de ignorar o comportamento incorreto ou usar um marcador de não recompensa?

No mundo do treinamento de cães de companhia, muitas vezes nos deparamos com situações em que os cães estão exibindo comportamentos que são perigosos para eles mesmos ou para os outros. Na maioria dos casos, esses comportamentos precisam ser controlados ou eliminados de forma rápida e eficaz, tanto para mitigar o risco para o cão como para outros, ou para impedir que o cão seja entregue ou sacrificado. Nesses casos, há momentos em que uma consequência mais aversiva pode ser justificada se produzir um resultado significativamente mais conveniente, maximizando a segurança para todos os envolvidos. No entanto, se uma consequência particular é mais aversiva e menos eficaz em um determinado contexto, quase nunca pode ser justificada.

Devemos a nós mesmos como profissionais, aos clientes a quem servimos e, acima de tudo, aos cães com os quais trabalhamos, levar em consideração todas as evidências de eficácia e aversão ao avaliar possíveis procedimentos de treinamento. Não há valor em nos enganar com falsas alegações científicas e argumentos cheios de emoção. Além disso, não levar em conta a eficácia dos procedimentos de treinamento, particularmente em relação a comportamento perigoso, ou outros comportamentos que colocam o futuro do cão em risco não é apenas antiético para o cão, mas para qualquer outro cão ou pessoa que possa ser ferido fisicamente, emocionalmente ou de outra forma como resultado da falta de tratamento efetivo.

O ponto de tudo isso é que as generalizações em preto e branco e o dogma de culto não se prestam bem ao estudo honesto do comportamento animal, nem às discussões produtivas sobre o bem-estar animal.

Em última análise, quanto à questão de qual é o castigo mais eficaz, humano ou ético, positivo ou negativo? A única resposta honesta é "depende da situação".

Tyler Muto

Notas

Abaixo está o processo que foi usado para treinar o sinal de desistir nos estudos do Schalke: 

1º passo:

O primeiro objetivo do treinamento de sinais de desistência foi condicionar a sensação de frustração com qualquer vocabulário que antes era insignificante para o cão. Para este fim, o seguinte programa foi realizado:

1) O manipulador (pessoa conduzindo o teste) com muitas guloseimas em uma mão fez punhos com as duas mãos. O condutor segurava as mãos numa determinada posição para que o cão pudesse ver as duas.

2) O manipulador pegou as guloseimas, uma a uma, de sua mão inteira para a outra mão e alimentou o cão até que a associação fosse desenvolvida e o cão esperasse ter a comida com o movimento da mão acima mencionado. Durante esta sessão de alimentação, nenhuma ordem foi dada ao cão.

3) O manipulador pegou a peça de comida aplicando o mesmo movimento da mão, mas desta vez instruiu o sinal, ou seja, o vocal previamente escolhido, com o tom de voz normal imediatamente antes de o movimento da mão ter sido completado e subsequentemente reteve a comida em sua mão. O cão foi surpreendido pela súbita ausência do alimento que se acostumou a ter sem exibir qualquer performance e, portanto, ficou frustrado.

4) Assim que o cão parou de exigir a comida da mão e exibiu qualquer comportamento alternativo, a outra mão foi aberta e o manipulador deu a comida ao cão. Assim, exibir o comportamento alternativo após receber o sinal foi a única solução para o cão acabar com a sensação de frustração.

2º passo:

1) Nesta etapa, o mesmo procedimento de alimentação do primeiro passo foi realizado por uma pessoa estranha.

2) Junto com o sinal instruído pelo proprietário, o estranho reteve a comida em sua mão.

3) Assim que o cão mostrou o comportamento alternativo, o proprietário recompensou o cão servindo a comida.

Diferentes tipos de guloseimas como comida seca, salsicha, queijo ou mistura de dois ou três deles, etc., foram usados para o treinamento. Se a mistura de comida fosse usada, a favorita do cachorro era servida como recompensa.

3º passo:

1) Para este passo obrigatório, o cão estava com uma guia longa (aprox. 3 m) e o dono tinha dois brinquedos.

2) O dono brincava com o cachorro jogando um brinquedo até que o cão tivesse a sensação de ter acesso livre ao brinquedo.

3) O manipulador jogou o brinquedo tão longe que o cão não conseguiu alcançá-lo e instruiu simultaneamente o sinal.

4) Assim que o cão exibiu o comportamento alternativo, o proprietário brincou com o cão usando o outro brinquedo como recompensa.

 “Bloqueio” é um fenômeno na aprendizagem de animais que ocorre quando um sinal aprendido anteriormente interfere na aprendizagem de um novo sinal. Veja um exemplo:

Digamos que eu ensinei a um rato que um som de campainha ocorre logo antes de um choque. Depois de terem aprendido o suficiente que a campainha prediz o choque, também quero ensiná-los que uma luz se acende para prever o choque. Se eu apresentar a campainha e a luz juntos, os ratos não aprenderão nada sobre a luz, porque a campainha já lhes disse tudo o que eles precisam saber.

A luz não forneceu nenhuma informação nova. Isso é chamado de “bloqueio”, porque a associação previamente aprendida da campainha “bloqueou” o aprendizado sobre a luz. Para dar um passo adiante, poderíamos até mesmo mudar o evento aversivo e ainda testemunhar o bloqueio. Em outras palavras, eu poderia ensinar ao rato que a campainha prediz o choque, e então usar a campainha para bloquear a aprendizagem de que uma luz se ligando irá predizer que alguém foi cutucado com uma agulha.

O rato não aprenderá sobre a relação luz / agulha porque o aprendizado prévio sobre a campainha “bloqueia” a mesma. A representação motivacional é “a campainha prediz que algo de ruim vai acontecer”. Não importa realmente se a coisa ruim é um choque ou uma picada de agulha.