RESOLVENDO O PROBLEMA DE BERNSTEIN: A APRENDIZAGEM CEREBELAR PELA REALIMENTAÇÃO DO ERRO COMO UMA SOLUÇÃO PARA A REDUNDÂNCIA DO SISTEMA MOTOR*

Marcus Fraga Vieira**

RESUMO

O grande problema no controle do movimento diz respeito à redução da redundância do sistema motor, convertendo-o a um sistema controlável. A aprendizagem cerebelar pela realimentação do erro propõe, de forma simples e engenhosa, uma solução biologicamente plausível para este problema, com uma importante característica: é um processo que deve ser aprendido. Importantes aspectos relativos a estas questões são discutidos neste artigo.

PALAVRAS-CHAVE: controle motor – aprendizagem motora – aprendizagem cerebelar

INTRODUÇÃO

Quando nos reportamos à discussão do controle e da regulação do movimento, apesar do grande volume de dados acumulados nos últimos anos, uma questão permanece ainda sem uma solução satisfatória. O grande problema a ser resolvido diz respeito à redundância do sistema motor e dos movimentos efetivamente implementados, problema este primeiramente levantado por Bernstein. O sistema motor humano é complexo tanto do ponto de vista neural quanto do ponto de vista mecânico e pode fazer uso de um grande número de graus de liberdade a fim de levar a efeito determinados movimentos. Uma operação adequada de tal sistema requer uma redução da redundância mecânica pela diminuição efetiva do número de graus de liberdade de um segmento. Se o sistema nervoso possui muito de uma arquitetura paralela, na medida em que muitos canais processam sinais simultaneamente, seria razoável supor que processos computacionais seriam adequados a esta arquitetura. Sendo assim, do ponto de vista computacional, o problema da redução do número de graus de liberdade é extremamente difícil de ser resolvido quando se trata de obter as soluções das equações que descrevem o movimento. Igualmente desafiador aos métodos computacionais é o fato de o sistema motor exibir uma notável capacidade de adaptação e flexibilidade frente a alterações nas propriedades biomecânicas do aparelho locomotor durante o desenvolvimento ou diferentes condições ambientais e sociais ou diferentes tarefas.

A aprendizagem cerebelar pela realimentação do erro apresenta uma solução engenhosa para este problema, quando, através dos circuitos cerebelares, propõe uma forma simples, mas engenhosa, de controlar objetos mecanicamente redundantes e possui uma característica importante do ponto de vista biológico: precisa ser aprendida.

O PROBLEMA DE BERNSTEIN

Bernstein, um importante fisiologista e biomecânico russo, foi o primeiro a pôr em destaque a questão da redundância do sistema motor (para uma revisão mais detalhada veja Bernstein, 1967). Para ele a relação entre movimento e o surto de impulsos nervosos que o ocasiona é extremamente complexa e não é unívoca. Uma relação unívoca entre impulso nervoso e movimento não existe e não pode existir, em grande parte pelo fato de que qualquer movimento depende fortemente de complexas interações entre sinais motores elaborados pelo sistema nervoso central e por forças externas agindo perifericamente naquela parte do corpo que se movimenta. Bernstein destaca que a construção mecânica do aparelho locomotor cria problemas no controle dos movimentos, em função de muitas fontes de indeterminações entre comandos centrais e movimentos periféricos. Os membros de animais vertebrados, em particular do homem, são compostos por vários segmentos, várias articulações e inúmeros músculos, que, somados, apresentam um grande número de graus de liberdade, número este em geral muito maior que as dimensões do espaço de trabalho destes membros. Isto acarreta aquilo que Bernstein denominou redundância: mais de um comando motor pode levar um dado segmento a uma mesma posição ou a uma mesma trajetória no espaço. Além disso, sinais motores idênticos podem levar a movimentos diferentes sob condições iniciais diferentes ou na presença de variações nas forças externas (fig. 1). Nestes termos, "coordenação de um movimento é o processo de dominar redundantes graus de liberdades do sistema motor, em outras palavras sua conversão a um sistema controlável" (Bernstein 1967, p.127). Determinar como este processo de conversão ocorre é aquilo que é denominado de problema de Bernstein.

Figura 1 – Movimentos topologicamente idênticos (trajetórias circulares A e B) são executados por conjuntos diferentes de comandos motores e com a participação de grupos musculares diferentes, alcançando os mesmos alvos no espaço (ponto C) através de diferentes estratégias (modificado de Bernstein, 1967).

MODELAGEM PROGRESSIVA E MODELAGEM INVERSA: A APRENDIZAGEM PELA REALIMENTAÇÃO DO ERRO

Quando discutimos os movimentos de natureza biológica, os objetos sob controle podem ser descritos como sistemas dinâmicos não lineares multivariáveis, cujas entradas em função do tempo são tensões musculares, torques articulares ou taxas de disparos das fibras nervosas que inervam os músculos. Em contrapartida, suas saídas em função do tempo são comprimentos musculares, ângulos articulares ou posição dos membros no espaço em coordenadas cartesianas.

A informação flui para os objetos controlados sob a forma de comandos motores relativos à trajetória do movimento. Assim, esta direção do fluxo de informação é dita progressiva (forward) e a direção oposta, inversa. Desta forma, os modelos internos do sistema motor podem ser divididos em dois tipos: modelos progressivos e modelos inversos (Kawato e Gomi, 1992a).

Como modelo progressivo, entendemos a representação neural da transformação de comandos motores no respectivo movimento do objeto controlado, ou seja, o modelo progressivo é apenas um simples modelo do objeto sob controle podendo ser usado como seu substituto.

Se o comando real fornecido ao aparelho locomotor é também enviado ao modelo progressivo, a saída deste último irá prever a trajetória realizada pelo objeto controlado. O tempo de processamento neural para esta previsão (30 ms) é muito menor do que o tempo para o retorno da realimentação visual ou proprioceptiva (100 a 200 ms). Assim, se o modelo progressivo for utilizado no laço de realimentação interno (fig. 2), o desempenho do controle por realimentação (feedback) será bastante melhorado uma vez que grandes atrasos relativos à realimentação externa podem ser evitados (Ita, 1970).

Figura 2 – Modelo neural progressivo (forward) do objeto controlado. Objeto controlado aqui significa um objeto físico concreto que seria controlado pelo sistema nervoso central, por exemplo, membros superiores, inferiores e o tronco (modificado de Kawato e Gomi, 1992a).

Por outro lado, uma forma de controle por pré-alimentação (feed-forward) mais sofisticada pode ser obtida por meio de um modelo inverso do objeto controlado (Atkeson, 1989). Por modelo inverso entendemos uma representação neural da transformação do movimento desejado do objeto sob controle, nos comandos motores necessários para realizar este movimento. O fato de o modelo inverso possuir características de transferência entrada-saída que são o inverso daquelas do objeto controlado, a conexão em série dos dois sistemas (progressivo e inverso) fornece aproximadamente uma função identidade (fig. 3). Se uma determinada trajetória desejada for fornecida ao modelo inverso, ao final do sistema a trajetória realizada é computada fielmente em relação à trajetória desejada, de forma que modelos inversos precisos podem ser utilizados como controladores por pré-alimentação (feedforward) ideais. Uma questão importante no desempenho do controle por pré-alimentação, portanto, é o treinamento do modelo inverso.

Resta saber como um modelo inverso pode ser adquirido e treinado. Se um sinal mestre pode fornecer os comandos motores corretos, então o aprendizado motor poderá ocorrer, baseado em processos de plasticidade heterossináptica. Em aprendizagem motora, entretanto, não é realístico supor a existência de um sinal mestre com acesso ao comando motor correto, antes que a própria aprendizagem do movimento tenha ocorrido. Portanto, é mais realístico supor que o sinal mestre tenha acesso somente à trajetória desejada do movimento para o objeto controlado. "Por exemplo, os pais ensinam seus filhos a pronúncia correta das palavras fornecendo fonemas no espaço acústico, mas não podem comunicar diretamente o padrão de disparo neuronal que ativa os músculos da fala" (Kawato k Gomi, 1992a).

Um sinal mestre que seja biologicamente possível não teria acesso direto ao padrão correto de comandos articulatórios, mas somente à trajetória desejada e às discrepâncias resultantes, ou erros, entre as trajetórias desejada e realizada.

A fim de treinar o modelo inverso, tais erros devem primeiramente ser convertidos em comandos motores. Três esquemas de aprendizagem foram propostos a fim de realizar esta conversão.

Na modelagem inversa direta (direct inverse modeling) (fig. 4), o modelo inverso recebe a trajetória realizada como uma entrada e fornece um comando motor estimado em sua saída. A diferença entre o comando motor estimado e o comando motor realizado é usada como um sinal erro para treinar o modelo inverso (Kuperstein, 1988 apud Kawato e Gomi, 1992a).

Figura 3 – Modelo neural inverso do objeto controlado (modificado de Kawato e Gomi, 1992a)

Embora este esquema de aprendizagem seja bastante simples, ele apresenta uma série de inconvenientes. Por exemplo, o modelo inverso não pode ser usado para controle durante o processo de treinamento porque, neste caso, a trajetória desejada ao invés da trajetória realizada é que deveria ser usada como entrada ao modelo inverso (Kawato e Gomi, 1992a). Outro grande problema com este esquema é que ele não pode controlar apropriadamente um objeto com redundância mecânica, como o são nossos membros. Como o modelo inverso é alimentado com a trajetória realizada, num objeto redundante a uma mesma trajetória realizada podem corresponder diferentes comandos motores, isto é, não existe uma relação inversível única entre o alvo desejado e o comando motor necessário para alcançá-lo.

Na modelagem inversa progressiva (forward inverse modeling) (fig. 5), um modelo progressivo (forward) do objeto controlado é primeiramente aprendido monitorando-se tanto a entrada quanto a saída do mesmo. A trajetória desejada é então fornecida ao modelo inverso a fim de se calcular o comando motor pré-alimentado. O erro resultante na trajetória no espaço é realimentado (backpropagated) através do modelo progressivo para calcular o erro no comando motor (Rumelhart et al., 1986), que é usado como um sinal erro no treinamento do modelo inverso.

Modelagem inversa direta

Figura 4 – A modelagem inversa direta (direct inverse modeling). A direção do fluxo da informação é indicada pelas linhas sólidas. As linhas pontilhadas mostram a informação usada para o treinamento. A seta cheia junto ao modelo inverso mostra a direção do processamento de informação (modificado de Kawato & Gomi, 1992a).

Este esquema supera vários inconvenientes da modelagem inversa direta. A aprendizagem e o controle motor podem ser feitos simultaneamente e o esquema pode ser aplicado a objetos controlados com redundância mecânica, já que não apenas a trajetória realizada é fornecida ao modelo progressivo mas também o comando motor que a causou (Kawato k Gomi, 1992a). Entretanto a realimentação (backpropagation) é difícil de ser realizada neuronalmente, uma vez que não conhecemos os mecanismos fisiológicos de realimentação rápida que levem informações ao longo dos axônios.

Na aprendizagem pela realimentação do erro (feedback error learning) (fig. 6), uma soma do comando motor realimentado (feedback) e do comando pré-alimentado (feedforward) gerado pelo modelo inverso é fornecida ao objeto controlado, e o controlador por realimentação transforma o erro na trajetória em erro no comando motor (Kawato et al., 1987). O modelo inverso é treinado durante o controle motor usando o comando motor realimentado como um sinal erro.

Modelagem inversa progressiva

Figura 5 – A modelagem inversa progressiva (forward inverse modeling). A direção do fluxo de informação é indicada pelas linhas sólidas. As linhas pontilhadas mostram a informação utilizada para o treinamento. As setas cheias junto aos modelos progressivo (forward) e inverso mostram a direção do processamento de informação. A seta em branco mostra a direção do fluxo de informação na backpropagation (modificado de Kawato e Gomi, 1992a)

Neste esquema, o controlador por realimentação (feedback) desempenha o papel de uma aproximação linear do modelo inverso do objeto controlado, e converte o erro na trajetória em um erro no comando motor. O controlador por pré-alimentação (feedforward) não substitui o controlador por realimentação, mas adquire um modelo inverso não linear tentando reduzir o comando motor realimentado. (Kawato e Gomi, 1992a).

Aprendizagem por realimentação do erro

Figura 6 – A aprendizagem pela realimentação do erro (feedback error learning). A direção do fluxo de informação é indicada pelas linhas sólidas. A linha pontilhada mostra a informação utilizada para o treinamento. A seta cheia junto ao modelo inverso indica a direção do processamento de informação (modificado de Kawato & Gomi, 1992a).

O CEREBELO E A APRENDIZAGEM PELA REALIMENTAÇÃO DO ERRO

Kawato & Gomi (1992a, 1992b) propõem um modelo de aprendi-zagem motora para o cerebelo (fig. 7) baseado na aprendizagem pela realimentação do erro (feedback errar learning). As estruturas pré-motoneuronais, o córtex cerebelar, as fibras trepadeiras e a combinação de unidades motoras, o ambiente e os receptores sensoriais, na figura 7, correspondem ao controlador por realimentação (feedback), modelo inverso, sinal erro e objeto controlado da figura 6, respectivamente. As fibras musgosas transmitem informações às fibras paralelas que levam ao córtex cerebelar a informação relativa ao padrão motor desejado, bem como informações a respeito do estado atual do aparelho locomotor. Supõe-se que as respostas das fibras trepadeiras representem comandos motores gerados por algumas das estruturas pré-motoneuronais, por exemplo, controladores por realimentação ao nível da medula, do tronco encefálico e do córtex cerebral, inclusive o córtex motor.

As estruturas pré-motoneuronais são redes de controle motor que estão localizadas em um nível acima dos motoneurônios e vão desde simples reflexos espinhais (na parte de baixo do retângulo maior) até os circuitos motores corticais controlando movimentos voluntários (na parte de cima do retângulo maior). Desta forma, a parte de cima do retângulo maior, na figura 7, contêm o córtex motor. Algumas das estruturas pré-motoneuronais estão sob a ação inibitória do córtex cerebelar. As fibras paralelas enviam às células de Purkinje uma grande quantidade de informações advindas dos receptores sensoriais bem como do cérebro, que são necessárias para o controle coordenativo e preditivo. Algumas fibras paralelas carreiam informações acerca do padrão motor desejado e outras informações acerca do estado atual do aparelho locomotor, a despeito de se originarem no córtex associativo (linhas sólidas na figura 7) ou em receptores sensoriais (linhas pontilhadas na figura 7). As fibras trepadeiras enviam sinais erro motores, por isso mesmo representados em coordenadas motoras. Isto é realizado pelo laço fechado e pela relação anatômica de um para um entre cada estrutura pré-motoneuronal, uma pequena porção da oliva inferior e uma microzona no córtex cerebelar (áreas sombreadas na figura 7).

Não é preciso supor que necessariamente cada estrutura pré-motoneuronal literalmente faça a comparação entre a trajetória desejada e a trajetória real. Entretanto, é necessário que a rede pré- motoneuronal calcule o sinal erro em comandos motores, que desaparece quando o movimento resultante é aquele desejado. Baseado no mecanismo da depressão a longo prazo nas células de Purkinje (para uma revisão veja Du Lac et al., 1995), cada microzona longitudinal do córtex cerebelar, com 200 pm de largura e mais de 50 mm de comprimento, juntamente com uma pequena parte dos núcleos cerebelares profundos conectados com as respectivas microzonas (Ita, 1984), aprendem a executar um controle coordenativo e preditivo dos diferentes tipos de movimento. Isto é executado por um laço fechado e uma correspondência anatômica de um para um entre cada estrutura pré-motoneuronal, uma pequena porção da oliva inferior e uma microzona do córtex cerebelar (Ito, 1984).

Se uma estrutura pré-motoneuronal é regulada por uma microzona do córtex cerebelar, então esta última deve receber sinais via fibras trepadeiras de partes específicas da oliva inferior, que por sua vez rece-bem sinais de partes mais superiores da mesma estrutura pré-motoneuro-nal. Com esta organização anatômica, uma microzona cerebelar é treinada pelo erro realimentado que representa uma cópia do sinal erro motor gerado pela estrutura pré-motoneuronal correspondente. Assim, cada microzona adquire um modelo inverso de um objeto controlado específico e complementa o controle relativamente impreciso executado pela realimentação fornecida pelas estruturas pré-motoneuronais.

Desta forma, a atividade das partes mais inferiores das estruturas pré-motoneuronais correspondentes diminui enquanto o aprendizado cerebelar evolui. Entretanto, as partes mais superiores dos circuitos pré-motoneuronais permanecem completamente ativas. Além disso, as outras estruturas pré-motoneuronais que não são conectadas ao cerebelo (fig. 7) podem continuar em atividade mesmo após o aprendizado.

Contudo, os comandos motores advindos de centros pré-motoneuronais são a única fonte de informação motora para o treinamento do cerebelo, a despeito da natureza um tanto imprecisa dos sinais de realimentação oriundos dessas estruturas. Existem duas razões para que os comandos motores advindos de centros pré-motoneuronais possam servir como informação de treinamento para os comandos cerebelares. Em primeiro lugar, os comandos motores advindos de centros pré-motoneuronais não são um sinal mestre mas sim um sinal erro. Em segundo lugar, embora estes comandos sejam imprecisos, eles indicam aproximadamente as direções e magnitudes para as modificações dos comandos cerebelares (Kawato & Gomi, 1992a).

Em último aspecto é realmente controverso, visto que a faixa de freqüência de disparo das fibras trepadeiras é normalmente baixa e, desta forma, parece difícil compreender como a atividade das fibras trepadeiras poderia enviar informação relativa à direção ou à amplitude dos movimentos. Sua aparente característica de disparo do tipo tudo-ou-nada pode ser útil para a detecção de eventos somáticos (Gellman et al., 1985), fornecendo informações às células de Purkinje acerca da ocorrência de movimentos indesejáveis (Barto et al., 1981). Entretanto, uma vez que a depressão a longo prazo possui uma constante de tempo de cerca de uma hora, mesmo uma freqüência de disparo baixa poderia ser integrada a fim de fornecer uma informação analógica. Se a freqüência de disparo for mais baixa que “a freqüência espontânea”, ela pode fornecer informação a respeito de uma direção, digamos, negativa (Kawato & Gomi, 1992a).

Figura 7 – Diagrama esquemático mostrando como a aprendizagem motora cerebelar pode ser incorporada ao controle sensório-motor (modificado de Kawato & Gomi, 1992a).

CONCLUSÃO

A procura de pressupostos teóricos que possa explicar o intrincado problema da coordenação do movimento levanta inúmeras questões que não podem passar desapercebidas. O problema mais crucial talvez seja justamente o problema de Bersntein, mas não podemos perder de vista importantes características do movimento que precisam estar incorporadas a qualquer teoria.

Na proposta de desenvolvimento de movimentos coordenados por seleção (Sporns & Edelman, 1993), na qual movimentos coordenados surgem em três etapas: a) a geração espontânea de movimentos durante o desenvolvimento formando um repertório básico; b) o desenvolvimento da habilidade em avaliar os efeitos dos movimentos; e c) a seleção efetiva dos movimentos, com alguns detalhes que merecem uma discussão. Esta teoria consegue superar de forma satisfatória o problema de Bernstein, mas apresenta uma série de inconvenientes. Em primeiro lugar, pressupõe que todo movimento é gerado a partir de um repertório básico de movimentos; em segundo lugar, que movimentos coordenados são aqueles que atingem os efeitos desejados, sendo assim selecionados, concepção esta que limita em muito os processos de aprendizagem. Imaginemos a quantidade de movimentos que teríamos que ter previamente codificados e a quantidade de movimentos que estaríamos ignorando, pois determinados movimentos sempre seriam selecionados por alguns indivíduos, mas nunca por outros, como datilografar, tocar um violino, uma peça de piano, um ato de balé ou um salto acrobático, que alguns indivíduos especificamente realizam e outros não.

A aprendizagem cerebelar pela realimentação do erro propõe um esquema capaz de superar a questão do problema de Bernstein, incorporando outras importantes características. A aprendizagem e o controle motor podem ser feitos simultaneamente e o esquema pode ser aplicado a objetos controlados com redundância mecânica, já que não apenas a trajetória realizada é fornecida ao modelo inverso mas também ao comando motor que a causou, além de eliminar os inconvenientes relativos à backpropagation (Kawato & Gomi, 1992a).

Mas além disso, observa-se que não é uma dada trajetória que é aprendida, mas sim um modelo inverso do sistema motor. Este modelo adquire as características estruturais, mecânicas e dinâmicas do sistema motor, sendo capaz de obter uma transformação do movimento desejado do objeto sob controle nos comandos motores necessários para realizar este movimento. Ao concluir que não é uma dada trajetória que é aprendida mas sim um modelo inverso do sistema motor, podemos dizer que o indivíduo não aprende o movimento, mas a se movimentar. Além disso, após a aquisição do modelo inverso, não será mais necessária a utilização do córtex, que fica livre para outras tarefas. Isto explicaria por que após o aprendizado não é mais necessário manter a atenção fixa em um movimento para que se obtenha o efeito desejado.

O mais importante é que este esquema de aprendizagem apresenta uma flexibilidade e dinâmica incomparável. O modelo inverso pode ser continuamente, digamos, atualizado de forma a incorporar as transformações do sistema motor devidas ao desenvolvimento, às diversas situações do movimento e às modificações mecânicas do aparelho locomotor, superando em muito os inconvenientes de outras teorias.

 

ABSTRACT

The great problem about controlling the movement is the reduction of the motor system redundance, converting it into a controlable system. The cerebellar feedback errar learning praposes, by simple and ingenius way, one biologic plausible solution to this problem, with an important feature: it is a process that has to be learnt. Some important aspects about these questions are being discussed in this paper.

KEY WORDS: Motor contrai – Motor learning – Cerebellar learning.

REFERÊNCIAS BIBLIOGRÁFICAS

ATKESON, C.G. Learning arm kinematics and dynamics. Annual Review of Neuroscience, v.12, p. 157-83, 1989.

BARTO, A.G.; SUTTON, R.S.; BROWER, P.S. Associative search network: a reinforcement learning associative memory. Biological Cybernetics, v.40, p. 201-11, 1981.

BERSNTEIN, N. The co-ordination and regulation of movements. London: Pergamon Press, 1967.

DU LAC, S.; RAYMOND, J.L.; SEJNOWSKI, T.J.; LISBERGER, S.G. Learning and memory in the vestibulo-ocular reflex. Annual Review of Neuroscience, v.18, p. 409-41, 1995.

GELLMAN, R.; GIBSON, A.R.; HOUK, J.C. Inferior olivary neurons in the awake cats: detection of contact and passive body displacement. Journal of Neurophysiology, v.54, p. 40-60, 1985.

ITO, M. The cerebellum and neural control. New York: Raven Press, 1984.

KAWATO, M.; GOMI, H; The cerebellum and VOR/OKR learning models. Trends in Neurosciences, v.15 n. 11, p. 445-53, 1992a.

KAWATO, M.; GOMI, H. A computational model of four regions of the cerebellum based on feedback-error learning. Biological Cybernetics, v.68, p. 95-10, 1992b.

KAWATO, M.; FURUKAWA, K.; SUZUKI, R. A hierarchical neural network modelar contral and learning of voluntary movement. Biological Cybernetics, v.57, p. 169-85, 1987.

RUMELHART, D E HINTON, G.E.; WILLIAMS, R.J. Learning representations by back-propagations errors. Nature, v.323, p. 533-6, 1986.

SPORNS, O.; EDELMAN, G.M. Solving Bernstein’s problem: a proposal for the development of coordinated movement by selection. Child Development, 44, p. 960-81, 1993.

TOPO