Coluna, Direito 4.0: Fronteiras Digitais

Deep Voice: Afinal, existe direito à própria voz?

Clayton Douglas Pereira Guimarães, Glayder Daywerth Pereira Guimarães

abril 30, 2023
11:00 am

Com a emergência de novas tecnologias fundadas em Inteligência Artificial (IA) inúmeras problemáticas tem sido suscitadas, desde a possibilidade de trabalhadores serem substituídos por esses inovadores algoritmos, até mesmo a debates relativos à existência, ou não, de uma personalidade das IA’s. A mais recente problemática se refere ao Deep Voice, sistemas de conversão, de texto em fala ou de fala em fala, baseados em redes neurais profundas.

A questão do Deep Voice ainda é recente e somente agora, com o aprimoramento da tecnologia algumas das principais questões foram levantadas sobre o tema, dentre elas, a existência de um direito à própria voz.

DEEP VOICE E DEEP LEARNING

Para uma compreensão do Deep Voice e seus impactos jurídicos faz-se necessário analisar primariamente como esse modelo de inteligência artificial funciona.

O modelo de Deep Voice como o próprio nome sugere se baseia em Deep Learning, a qual, segundo o International Business Machines Corporation (IBM):

Deep learning é um subconjunto de aprendizado de máquina, que é essencialmente uma rede neural com três ou mais camadas. Essas redes neurais tentam simular o comportamento do cérebro humano, embora longe de corresponder a sua capacidade, permitindo que ele “aprenda” com grandes quantidades de dados. Embora uma rede neural com uma única camada ainda possa fazer previsões aproximadas, camadas ocultas adicionais podem ajudar a otimizar e refinar a precisão.

O deep learning impulsiona muitos aplicativos e serviços de inteligência artificial (IA) que melhoram a automação, realizando tarefas analíticas e físicas sem intervenção humana. A tecnologia de deep learning está por trás de produtos e serviços cotidianos (como assistentes digitais, controles remotos de TV ativados por voz e detecção de fraude de cartão de crédito), bem como tecnologias emergentes (como carros autônomos).¹

Nesse sentido, o Deep Voice é um modelo de aprendizado de máquina que pretende simular a fala humana seja pela via de transformação do texto em fala (similar a mecanismos utilizados por tradutores como Google Translate) ou pelo sistema de fala para fala, no qual uma pessoa grava sua voz e nela são imprimidas novas características de timbre, entonação, velocidade, dentre outras características para transforma-la em uma nova voz.

A tecnologia do Deep Voice é altamente disruptiva, podendo ser utilizada para simular vozes já existentes, ou mesmo para criar novas vozes.

Em uma simples busca na internet já é possível encontrar múltiplas Inteligências Artificiais que se propõem a consolidar a tecnologia do Deep Voice, como: Voice.AI, MetaVoice, VoiceMod, ResembleAI, dentre outros.

DEEP VOICE E DEEP FAKE

A tecnologia de Deep Voice permite, portanto, a criação de uma voz por meio da utilização de algoritmos que se prestam a emular uma voz humana. Há de se ressaltar que esse modelo de IA não se limita a criar novas vozes, possibilitando, também, que vozes já existentes sejam reproduzidas, de modo similar a que comediantes fazem ao imitar pessoas de grande notoriedade como artistas, políticos e famosos. A referida utilização do Deep Voice consubstancia modalidade de Deep Fake.

Deep Fake pode ser descrito como “a manipulação digital de sons, imagens ou vídeos com o desígnio de fingir ser uma pessoa ou fazer parecer que a pessoa fez alguma coisa – feita de maneira progressivamente mais realista, de modo que o observador desinformado não consiga detectar o falseamento” (Tradução nossa)²

Há de se ressaltar que Deep Voice e Deep Fake não são sinônimos, sendo este um grave reducionismo que implica na imprecisão e significativa alteração de sentido do que é o Deep Voice.

Como já explicitado, o Deep Voice se refere à criação, por intermédio da utilização de inteligência artificial baseadas em machine learning, de vozes digitais, podendo elas objetivarem reproduzir uma voz já existente e enganar o ouvinte, reproduzir uma voz existente sem enganar o ouvinte e, até mesmo criar uma nova voz. Por sua vez o Deep Fake, especificamente no que toca a sons, se limita a abranger a criação digital das vozes com o intento de enganar o ouvinte acerca de quem é o emissor da mensagem, fazendo-o pensar que a voz gerada é de outra pessoa.

Estabelecido o parâmetro de diferenciação entre Deep Voice e Deep Fake surge o quesito que dá nome a esse artigo, afinal, existe direito à própria voz? Poderia uma pessoa, por meio de uma tecnologia de Deep Voice copiar sua voz e utiliza-la como bem entender?

O DIREITO À PRÓPRIA VOZ

No âmbito do Direito pátrio a voz não possui extensa proteção no texto da lei, sendo que no texto da Constituição da República de 1988 o termo somente aparece na alínea a do inciso XXVIII do artigo , com a seguinte redação:

XXVIII – são assegurados, nos termos da lei:

a) a proteção às participações individuais em obras coletivas e à reprodução da imagem e voz humanas, inclusive nas atividades desportivas;³

Sendo tal previsão complementada somente com o advento do Código Civil de 2002 o qual estabeleceu que:

Art. 20. Salvo se autorizadas, ou se necessárias à administração da justiça ou à manutenção da ordem pública, a divulgação de escritos, a transmissão da palavra, ou a publicação, a exposição ou a utilização da imagem de uma pessoa poderão ser proibidas, a seu requerimento e sem prejuízo da indenização que couber, se lhe atingirem a honra, a boa fama ou a respeitabilidade, ou se se destinarem a fins comerciais.⁴

A doutrina, objetivando resolver essa questão desenvolveu ao longo do tempo duas teses a respeito da proteção jurídica da voz, sendo seus maiores expoentes, respectivamente, Pontes de Miranda⁵ o qual preconiza estar a voz contida no Direito à Imagem e Carlos Alberto Bittar⁶ o qual afirma ser a voz um direito da personalidade autônomo.

Mas seria realmente a voz um componente individualizador da pessoa?

De fato a voz pode auxiliar na identificação de uma pessoa, mas quantas pessoas existem com vozes parecidas, ou quase idênticas, como solucionar a eventualidade de duas pessoas com vozes iguais?

Estes ainda são questionamentos sem resposta, todavia, segundo Hugh McLachlan⁷ vozes humanas não podem ser consideradas únicas, notadamente pois é impossível aferir a similaridade de todas as vozes existentes no presente, passado e futuro. Em um passo além, há de se considerar, como bem indicam Carolyn McGettigan e Nadine Lavan⁸ que a voz é flexível, passando por alterações pelos mais variados motivos e nas mais diversas circunstâncias, de modo que a voz não é fixa e imutável, mas, de fato, se apresenta como uma larga faixa com numerosas possibilidades de variação. Complementarmente, Brian Regan Clifford argumenta que alterações etárias, fisiológicas, musculares, o estado emocional e o estado psicológico, variações de temperatura, doenças, alterações da capacidade pulmonar, dentre outros aspectos podem alterar a voz de uma pessoa, tornando sua identificação em relação a outras vozes difícil.⁹

Sobre o tema, pode-se ainda considerar a capacidade do ouvinte, posto que, segundo demonstram estudos, os seres humanos possuem dificuldade em identificar e diferenciar vozes, notadamente na hipótese em que não possuem convívio com a pessoa que está falando.¹⁰

Em razão dos aspectos acima suscitados compreende-se ser mais razoável que a voz seja compreendida como um direito adstrito à imagem e não um direito autônomo.

Destaca-se que o legislador pátrio considerou a eventualidade de uma pessoa utilizar a voz de outra, com fins econômicos, seja por meio de gravações ou de imitações, impondo a proteção jurídica da voz por intermédio do direito à imagem. Nas palavras do ilustre jurista e ex-ministro do Superior Tribunal de Justiça, Domingos Franciulli Netto: “O direito à imagem compreende, portanto, todas essas formas de exteriorização, incluídos o molde, os gestos e a voz”.¹¹

Não obstante, Henrique Vergueiro Loureiro ensina que a imagem pode ser compreendida sob dois vieses, a imagem-retrato e imagem-atributo.¹² De um lado a imagem-retrato faz alusão às “expressões formais e sensíveis da personalidade (reprodução visual do indivíduo; de sua voz; de partes do corpo, desde que identificáveis; a sua composição genética etc.), dela sendo titular somente os seres humanos”. De outro, a imagem-atributo “consubstancia os atributos positivos ou negativos de pessoas físicas ou jurídicas apresentados à sociedade”.

Conclui-se, portanto, que a voz goza de proteção jurídica, mas esta não é uma proteção irrestrita visto que não é um direito autônomo ou absoluto, especialmente pelo fato de que diferentes pessoas podem possuir a mesma voz dentro de suas respectivas faixas de voz, não sendo ela, portanto, um elemento individualizador da pessoa, mas somente um critério subsidiário de sua identificação.

Outrossim, constata-se que a principal problemática refere-se à associação de determinada voz com um nome ou um rosto. Pois tal associação seria capaz de individualizar a pessoa, algo que somente a voz, em regra, não é capaz de fazer.

A título de ilustração acerca dessa questão pode-se pensar na situação na qual o dublador de determinado personagem é substituído por outro dublador, que preserve características vocais similares. Em situações do gênero a identificação de cada um dos dubladores torna-se difícil, ou mesmo impossível, diante das sutis diferenças das vozes.

É, ainda, possível se pensar em um único dublador, o qual é capaz de criar e imitar múltiplas vozes com extrema facilidade, sendo muitas vezes difícil, mesmo para ouvidos atentos, identificar um mesmo dublador em atuações de papeis distintos, posto que a identificação facial atrapalha o julgamento relativamente à voz.

Vale dizer, não é possível afirmar que a voz é única a cada indivíduo, não se igualando, portanto, a uma impressão digital e, por esse motivo, tão somente pode ser utilizada como critério secundário na identificação de um indivíduo, apresentando indícios de ser determinada pessoa, mas nunca uma certeza absoluta.

Nesse ínterim, deve-se considerar que hodiernamente a proteção à voz no Brasil será ofertada, alternativamente, nas hipóteses em que: a) utilizar-se de uma gravação da voz da pessoa sem sua autorização (direito autoral); b) a voz for imitada por outro indivíduo, com o intuito de enganar os ouvintes acerca do interlocutor (violação da imagem); c) a voz de uma pessoa for recriada digitalmente, com o intuito de enganar os ouvintes acerca do interlocutor (violação da imagem).

Há de se destacar que a imitação satírica, cômica e caricata, própria paródia da voz de uma pessoa não implica na violação de qualquer direito per si, de modo que poderá, ou não, implicar em violação de direitos a depender de sua configuração como paródia-arma ou paródia-alvo.¹³

Nos Estados Unidos, a proteção da voz se dá por duas vias, pelo direito da personalidade (right of publicity), com aplicabilidade nas hipóteses de uso comercial da voz de uma pessoa,¹⁴ ou pela violação de direito autoral de arquivos de voz.¹⁵

Verifica-se, portanto, que a proteção, tal qual no Brasil, volta-se, majoritariamente para proteção dos interesses financeiros de pessoas que são reconhecidas por sua voz, como dubladores, interpretes de audiobooks, cantores, dentre outros.

DEEP VOICE E O DIREITO À PRÓPRIA VOZ

A tecnologia do Deep Voice demonstra-se profundamente disruptiva e com impactos significativos na sociedade. Como descrito anteriormente, a implementação do referido modelo de inteligência artificial permite que uma voz seja criada do zero, ou mesmo que uma voz já existente seja.

Acerca das múltiplas aplicabilidades da referida tecnologia, pode-se citar casos como: a cessão de direitos relativos à utilização por Deep Voice da voz de James Earl Jones, dublador do icônico personagem Darth Vader, da franquia de filmes Star Wars para futuras sequencias da franquia, uma vez que o dublador se aposentou;¹⁶ a criação de bancos de voz para pessoas com ELA, câncer de garganta, paralisia cerebral e doença de Parkinson, de modo garantir a posterior utilização da própria voz da pessoa em softwares de fala pessoais;¹⁷ A criação da música “Heart On My Sleeve”, por intermédio de um uma inteligência artificial treinada com as vozes dos cantores Drake e The Weeknd, a qual replicou, de modo quase perfeito o timbre, entonação, velocidade e dicção de ambos os cantores.¹⁸

Os casos acima mencionados representam, tão somente, os primeiros passos de uma mudança paradigmática do mundo como o conhecemos, notadamente diante do potencial ilimitado das inteligências artificiais futuras.

O emprego desse inovador modelo de tecnologia pode se dar com objetivos diversos, de modo que podem repercutir de modo benéfico ou maléfico à um indivíduo ou, até mesmo à sociedade como um todo. A despeito das numerosas possibilidades vantajosas do uso do Deep Voice, devem ser considerados, também, possibilidades como o do roubo de identidades, a prática de ilícitos como extorsões mediante fraude ou o cometimento de crimes com a voz de outros indivíduos (ex: crimes contra a honra), a manipulação política e social contra ou a favor determinado indivíduo, dentre outras condutas deletérias.

A tecnologia do Deep Voice, tal como descrita anteriormente, permite não somente a reprodução fidedigna de uma voz específica, mas, também, a criação de novas vozes. Nesse sentido, seria impossível responsabilizar uma pessoa por criar uma voz existente, todavia, desconhecida, ou mesmo uma voz de uma pessoa que ainda venha a nascer.

Diante do complexo cenário de significativas alterações tecnológicas e sociais propõe-se o (re)pensar da proteção jurídica da voz, de modo a permitir o desenvolvimento desse modelo tecnológico, notadamente diante da constatação de que uma voz não pertence a uma pessoa, sendo mero aspecto que auxilia em sua identificação, mas não se estabelece como elemento individualizador da pessoa.

Nesse diapasão, conclui-se que a proteção da voz somente deverá se dar de modo subsidiário, se estabelecendo nas hipóteses em que a voz de um indivíduo for imitada ou recriada digitalmente, com o desígnio de enganar os ouvintes acerca do interlocutor (violação da imagem) ou quando determinado indivíduo utilizar-se de uma gravação da voz de outrem sem sua autorização (direito autoral).

Destaca-se, portanto, que a maior problemática reside no uso não autorizado de uma gravação, em razão da violação do direito autoral do interprete, mas que nada obstaria que determinado indivíduo recriasse essa voz digitalmente, desde que não se utilizasse de uma gravação sem a autorização do interprete, em razão da violação do direito autoral da gravação.

Complementarmente, na hipótese em que uma voz reconhecida seja recriada por meio do Deep Voice, seu criador deverá atestar que a voz pertence a uma Inteligência Artificial, de modo a não enganar os ouvintes e, assim, evitar qualquer tipo de prejuízo à pessoa que possui a voz similar. Evitando-se a utilização do nome da pessoa, ainda que em sentido de negação (ex: não é a voz do Drake) e, assim, atrelar a voz, de modo indireto a uma pessoa determinada.

Referências

____________________

1. O QUE é o Deep Learning? IBM. 2023. Disponível em: https://ibm.co/3mPjZG2. Acesso em: 20 abr. 2023.
2. No original: “digital manipulation of sound, images, or video to impersonate someone or make it appear that a person did something – and to do so in a manner that is increasingly realistic, to the point that the unaided observer cannot detect the fake.” (CHESNEY, Bobby; CITRON, Danielle. Deepfakes: A Looming Crisis for National Security, Democracy and Privacy? Lawfare. 2018. Disponível em: https://bit.ly/3mRhraA. Acesso em: 20 abr. 2023).

3. BRASIL. Constituição da República Federativa do Brasil de 1988. Disponível em: https://bit.ly/41RMMc5. Acesso em: 20 abr. 2023.

4. BRASIL. Código Civil. Lei nº 10.406, de 10 de janeiro de 2002. Disponível em: https://bit.ly/3USjBU1. Acesso em: 20 abr. 2023.

5. PONTES DE MIRANDA, Francisco Cavalcanti. Tratado de Direito Privado. Tomo VII. Rio de Janeiro: Borsoi, 1955, p.53.

6. BITTAR, Carlos Alberto. Os Direitos da Personalidade. 7. ed. rev. ampl. e atual. por Eduardo Carlos Bianca Bittar. Rio de Janeiro: Forense, 2008, p. 103.

7. MCLACHLAN, Hugh. Is every human voice and fingerprint really unique? The Conversation. 2016. Disponível em: https://bit.ly/3H8itpz. Acesso em: 20 abr. 2023.

8. MCGETTIGAN, Carolyn; LAVAN, Nadine . Human voices are unique – but our study shows we’re not that good at recognising them. The Conversation. 2017. Disponível em: https://bit.ly/3oFWVdD. Acesso em: 20 abr. 2023.

9. Voice identification by human listeners: On earwitness reliability. Law and Human Behavior. v. 4, n.4, p. 373–394, 1980. Disponível em: https://bit.ly/41xpY1B. Acesso em: 20 abr. 2023.

10. MCGETTIGAN, Carolyn; LAVAN, Nadine . Human voices are unique – but our study shows we’re not that good at recognising them. The Conversation. 2017. Disponível em: https://bit.ly/3oFWVdD. Acesso em: 20 abr. 2023.

11. FRANCIULLI NETTO, Domingos. A Proteção ao Direito à Imagem e a Constituição Federal. Informativo Jurídico da Biblioteca Ministro Oscar Saraiva, v. 16, n. 1, p. 1-74, Jan./Jul. 2004, p.21. Disponível em: https://bit.ly/3L1Nuga. Acesso em: 20 abr. 2023.

12. LOUREIRO, Henrique Vergueiro. Direito à imagem. Dissertação (Mestrado) – Pontifícia Universidade Católica de São Paulo – PUC/SP, São Paulo, 2005, p. 64. Disponível em: https://bit.ly/3KYrbrk. Acesso em: 20 abr. 2023.

13. Sobre o tema recomenda-se a leitura de: DOS ANJOS, Marco Antônio. O Humor: estudo à luz do direito de autor e da personalidade. Dissertação (Mestrado) – Universidade de São Paulo. Disponível em: https://bit.ly/41Pqc3C. Acesso em: 20 abr. 2023.
14. SCRIMENTI, Belinda J. Using AI to Replicate the Voice of a Celebrity – Watch Out for Legal Issues Including Violating the Right of Publicity. Lexology. 2023. Disponível em: https://bit.ly/40pjn80. Acesso em: 20 abr. 2023.

15. HAMBURG, Jeanne. Protection for Voice Actors is Artificial in Today’s Artificial Intelligence World. The National Law Review. v. XII, n. 154, 2022. Disponível em: https://bit.ly/3opGeml. Acesso em: 20 abr. 2023.

16. MOORE, Schuyler. Who Owns Voice And Image Artificial Intelligence Rights? Forbes. 2022. Disponível em: https://bit.ly/41HUk0T. Acesso em: 20 abr. 2023.

17. MORRIS, Amanda; ARD, Alexa Juliana; CHEN, Szu Yu. How AI is restoring voices damaged by ALS using voice banking. The Washington Post. 2023. Disponível em: https://wapo.st/43OpNk1. Acesso em: 20 abr. 2023.

18. SAVAGE, Mark. AI-generated Drake and The Weeknd song goes viral. BBC News. 2023. Disponível em: https://bbc.in/3Apmimg. Acesso em: 20 abr. 2023.