BigData, revolução digital e o Direito

Desde 2011, um assunto tem dominado as manchetes tecnológicas: BigData. No entanto, a primeira aparição do assunto no mainstream foi através de um relatório do Gartner, de 2001 (1). Esse famoso relatório é até hoje uma das referências do tema, tendo influenciado vários autores e matérias jornalísticas. Não que ele seja uma unanimidade, longe disso. No entanto, lançou as bases da revolução digital dos grandes volumes de dados das primeira e segunda décadas do século XXI. Pesquisas sobre grandes volumes não são exatamente uma novidade; há quem defenda que as pesquisas dos anos 1970 sobre armazenamento, recuperação e processamento chegaram nos anos 1990 a modelos de softwares para processar volumes grandes de dados. Mas são os anos 2000 que trazem o avanço tecnológico que ampliaram as técnicas de processamento, armazenagem e processamento de dados, além de serem o palco da verdadeira revolução na geração de dados por usuários, o que nos conduziu a volumes sem precedentes na história da Humanidade (2). Embora o conceito esteja mais consolidado, sua origem ainda é incerta. (Gandomi e Haider, 2015), jocosamente, afirmam que o termo surgiu em meados da década de 1990, provavelmente em conversas uma mesa de bar entre o pessoal da Silicon Graphics Inc (SGI). Apesar das referências aos anos 90, o termo se tornou proeminente à partir de 2011, principalmente pelas ações promocionais da IBM e outras empresas líderes do setor de tecnologia que investiram na criação desse nicho de mercado (3).

No final dos anos 2020, é possível afirmar que vivemos a era do BigData, da análise avançada de dados e da ciência de dados. A tendência de crescimento de dados não só desencadeou um tremendo hype e buzz, mas também trouxe enormes desafios. Esses desafios, por sua vez, estão trazendo inovações incríveis e novas oportunidades econômicas. O BigData segue atraído atenção. As primeiras entidades a se movimentar foras as grandes corporações orientadas a dados privados. Atualmente, importantes organizações governamentais e instituições acadêmicas seguem pelo mesmo caminho. Podemos citar grandes projetos centrados em dados no Google, no Facebook e na IBM, além de ações estratégicas nas Nações Unidas, na UE  e na China (4). O assunto é objeto de atenção de vários setores, desde CEOs até funcionários públicos e pesquisadores acadêmicos. Mais do que isso, BigData também é, muitas vezes, objeto de medo. O aumento repentino do assunto pegou muitos players desprevenidos: no passado, novos desenvolvimentos tecnológicos apareciam pela primeira vez em publicações técnicas e acadêmicas. Depois, o conhecimento e a síntese científica transbordavam para outras vias de mobilização do conhecimento, incluindo livros. Entretanto, a rápida evolução das tecnologias de BigData e sua disseminação em velocidades que só uma aldeia global digitalizada como a sociedade do século XXI alcançariam disseminou os conceitos e práticas, deixando pouco tempo para o discurso se desenvolver e amadurecer no meio acadêmico (3).

Mesmo assim, as oportunidades que nascem da análise do BigData para a corporações são consideradas fundamentais para a sobrevivência no mercado. BigData tem sido descrito como o principal símbolo de mudança disruptiva em um ambiente de negócios em rede. Ao adotar estas tecnologias, as empresas esperam obter benefícios em muitos domínios, tais como E-commerce, Governo Eletrônico, Ciência, Saúde e Segurança (5). O potencial do BigData desencadeou um debate sobre a descoberta científica com uso intensivo de dados como um novo paradigma, o chamado “quarto paradigma da ciência”. Ele unificaria o experimento, a teoria e a computação. Os dados são considerados como o novo “Intel Inside”, ou o novo projeto estratégico de petróleo, e impulsionariam, ou até determinariam, o futuro da ciência, tecnologia, economia e possivelmente tudo em nosso mundo hoje e no futuro (4). Não há dúvidas de que o potencial da Data Science & Analytics para uma nova teoria econômica orientada a dados, bem como ao desenvolvimento profissional tem sido muito reconhecido. Esse desenvolvimento envolve não só disciplinas como a Computação e a Estatística, mas também as áreas de Negócios, Ciências Sociais e Ciências da Saúde (4).

O BigData pode ser conceituado de várias maneiras. O Dicionário de IT da Gartner define assim:

“BigData é grande volume de informações, alta velocidade e/ou ativos de informações de alta variedade, que exigem formas inovadoras e econômicas de processamento de informações que permitem uma melhor percepção, tomada de decisões e automação de processos.” (6)

A TechAmerica Foundation define assim:

“BigData é um termo que descreve grandes volumes de dados de alta velocidade, complexos e variáveis que requerem técnicas e tecnologias avançadas para permitir a captura, o armazenamento, a distribuição, o gerenciamento e a análise das informações.” (7)

Outra definição que achamos útil é a apresentada por Günther et al. (2017):

“Big Data pode ser definido com base em grandes volumes de dados amplamente variados que são gerados, capturados e processados em alta velocidade. Como tal, esses dados são difíceis de processar usando as tecnologias existentes. Ao adotar tecnologias analíticas avançadas, as organizações podem usar big data para desenvolver insights, produtos e serviços inovadores.” (5)

Mas é preciso ir além das definições, avançando para características mais detalhadas, para entendermos adequadamente o fenômeno. É possível resumir as características do BigData em quatro propriedades (8):

  1. Dados na ordem de dezenas ou centenas de Terabytes;
  2. Poder de crescimento elástico horizontal;
  3. Fácil distribuição dos dados e/ou processamento;
  4. Tipos de dados variados, complexos e/ou semiestruturados.

Manipular dados na ordem dos Terabytes, ou mais, envolve alto poder de processamento, manipulação e armazenamento dos dados. Já o poder de crescimento elástico está relacionado ao fato de que os dados podem variar em volume de alguns Megabytes a centenas de Terabytes em espaço de tempo curto. Isso é determinante para que a estrutura de hardware e software sob demanda desse processamento tenha que se adaptar sob demanda. Distribuição significa que dados devem ser distribuídos transparentemente, em vários nós de processamento. Isso torna obrigatório o armazenamento e o processamento distribuídos. Por fim, é preciso adotar modelos apropriados, flexíveis e eficientes para o armazenamento destes tipos de dados complexos, variados e semiestruturados (8).

Outro conceito importante de entendermos é o dos três “V’s”.

Volume refere-se à magnitude dos dados, relatados em terabytes e petabytes. A IBM conduziu uma pesquisa em 2012 que revelou há época que pouco mais da metade dos entrevistados considerava conjuntos de dados com mais de um terabyte como BigData. Um terabyte armazena dados equivalentes a 1,5 mil CDs ou a 220 DVDs. Isso é suficiente para armazenar cerca de 16 milhões de fotografias no Facebook. Em 2010, o Facebook processava até um milhão de fotografias por segundo. Um petabyte é igual a 1024 terabytes. Estimativas anteriores sugerem que o Facebook armazenou 260 bilhões de fotos usando espaço de armazenamento de mais de 20 petabytes. A definição do que é um grande volume de dado é relativa e pode variar de acordo com vários fatores, tais como o tempo e o tipo de dados (3).

Variedade refere-se à heterogeneidade de um conjunto de dados. Os avanços atuais permitem que empresas utilizem diferentes tipos de dados, desde estruturados, semiestruturados até os não estruturados. Dados estruturados constituem apenas 5% de todos os dados existentes (9) e referem-se a dados tabulares encontrados em planilhas ou bancos de dados relacionais. Dados não estruturados são, via de regra, textos, imagens, áudios e vídeos. Esse material às vezes não possui organização estrutural nenhuma, ou insuficiente para a exigência mínima dos algoritmos de análise. Por fim, os dados semi-estruturados não estão em conformidade com padrões de XML (Documentos XML contêm tags de dados definidos pelo usuário que os tornam legíveis por um algoritmo). Um alto nível de variedade não é necessariamente algo novo. Os mais variados tipos de organizações – públicas e privadas – têm acumulado dados não estruturados de fontes internas e externas. É inovador, entretanto, que o surgimento de novas tecnologias e de análises de gerenciamento de dados agora permitem que as entidades aproveitem os dados em seus processos de negócios (3).

Velocidade refere-se à taxa na qual os dados são gerados, analisados e utilizados. A expansão massiva de dispositivos digitais na população levou a uma taxa sem precedentes de criação de dados que está impulsionando uma necessidade crescente de análise em tempo real. Mesmo um dos setores mais “não-digitalizados” da economia, os varejistas convencionais, estão gerando dados de alta frequência. O Wal-Mart, por exemplo, processa mais de um milhão de transações por hora (9). Os dados gerados por dispositivos móveis e sendo consumidos por aplicativos produzem torrentes de informações que podem ser usadas para gerar ofertas personalizadas em tempo real. Esses dados fornecem informações sólidas, tais como localização geoespacial, dados demográficos e padrões de compra anteriores. A popularidade dos smartphones faz com cada usuário seja potencialmente um jornal ou revista, uma estação de rádio ou TV, a depender do desejo, habilidade e disposição de seu dono. Em breve, o mercado terá de lidar com centenas de milhares de fontes de dados de streaming, as quais exigirão análises em tempo real. Os sistemas tradicionais de gerenciamento de dados não são mais capazes de lidar com enormes feeds de dados (3).

É consenso na área que os dados do BigData vem de múltiplas fontes diferentes. Isso inclui internas, como dados de ERP e transacionais, e externas, como dados de terceiros, gerados por usuários, dados abertos e de sensores. Consequentemente, os dados muitas vezes não foram produzidos e coletados para os mesmos propósitos para os quais estão sendo usados em determinado momento. Para alguns autores, o BigData foi responsável por uma atitude de coleta de dados sem um propósito pré-definido, incentivando uma abordagem indutiva de baixo para cima na coleta, exploração e análise de grandes volumes. É uma abordagem de começar com os dados e depois buscar explicações teóricas[1] (5).

Além dos três Vs, autores ainda utilizam-se de outras dimensões do BigData.

Veracidade: a IBM cunhou o termo veracidade como o quarto V, que representa a falta de confiabilidade inerente a algumas fontes de dados. Por exemplo, sentimentos de clientes em mídias sociais são incertos pela sua própria natureza, já que implicam julgamento humano[2]. No entanto, esses insights contêm informação valiosa. A necessidade de lidar com dados imprecisos e incertos é outro aspecto importante para lidar com BigData. Isso se dá com o uso de ferramentas e análises desenvolvidas para gerenciamento e mineração de dados incertos (3).

Variabilidade e complexidade. A SAS [3] introduziu variabilidade e complexidade como duas dimensões adicionais. A variabilidade refere-se à variação nas taxas de fluxo de dados. Muitas vezes, a velocidade de dados não é consistente e apresenta altos e baixos. A complexidade refere-se ao fato de que dados são gerados por uma infinidade de fontes. Isso impõe um desafio crítico: a necessidade de conectar, combinar, limpar e transformar dados recebidos de diferentes fontes (3).

Valor. A Oracle introduziu uma camada que chamou de Valor, como um atributo definidor do BigData. Para a Oracle, os BigData geralmente são caracterizados por uma densidade de baixo valor relativamente baixa. Ou seja, os dados recebidos na forma original costumam ter um valor baixo em relação ao seu volume. Isso não impede que um valor alto possa ser atribuído a esses dados, em função do que pode ser obtido com a análise do grande volume de informações (3).

Mas coletar e armazenar dados é apenas uma parte do processo. É preciso extrair valor dessas informações. Comumente, isso se dá através dos processos de Data Mining e Profiling. Estas duas tecnologias não são novas, mas são objeto de constantes desenvolvimentos tecnológicos disruptivos. A mineração de dados e a criação de perfis são frequentemente mencionadas como uma coisa só, mas podem ser consideradas tecnologias separadas. A criação de perfis pode ser realizada sem o uso de mineração de dados e vice-versa. Em alguns casos, a criação de perfis nem mesmo envolve (muita) tecnologia: por exemplo, ao analisar-se psicologicamente um serial killer. Um ponto importante a se alertar é que mineração de dados vai muito além de uma análise estatística, pois embora do data mining resultem padrões estatísticos, usam-se métodos estatísticos diferentes dos tradicionais. A mineração de dados lida com grandes bancos de dados que podem conter milhões de registros. Os estatísticos, no entanto, estão acostumados com a falta de dados e não com a abundância. As grandes quantidades de dados e a maneira como eles são armazenados tornam os métodos estatísticos simples inaplicáveis. A maioria dos métodos estatísticos também requer dados limpos. Em grandes bancos de dados, é comum que alguns dados sejam inválidos. Para certos tipos de dados, algumas operações estatísticas não são permitidas e em outros casos os dados sequer podem ser numéricos, como dados de imagem, áudio, texto e geográficos. Além disso, a análise estatística tradicional geralmente começa com uma hipótese testada em relação aos dados disponíveis, enquanto as ferramentas de mineração geralmente geram hipóteses e testam essas hipóteses em relação aos dados disponíveis (10).

Profiling é o processo de criação de perfis. Um perfil pode ser considerado como uma propriedade ou uma coleção de propriedades de um indivíduo ou de grupo de pessoas. Um perfil pessoal é uma propriedade ou uma coleção de propriedades de um indivíduo em particular. Uma característica é o mesmo que um atributo, um termo usado com frequência em Ciências da Computação. Um exemplo de um perfil pessoal poderia ser o perfil de John Doe, 44 anos, casado, dois filhos, ganha €$ 25.000 por ano, dois cartões de crédito, nenhum registro criminal. John foi hospitalizado apenas duas vezes: uma vez por apendicite e no ano passado por causa de um câncer de pulmão. Um perfil de grupo é uma propriedade ou uma coleção de propriedades de um grupo específico de pessoas. Perfis de grupo podem conter informações que já são conhecidas: pessoas que fumam vivem alguns anos menos do que pessoas que não fumam. Mas perfis de grupo também podem mostrar fatos novos. Por exemplo, as pessoas que vivem na área do CEP 8391 podem ter uma chance significativamente maior de ter asma. Perfis de grupo não precisam descrever uma relação causal; por exemplo, pessoas dirigindo carros vermelhos podem ter significativamente mais chances de contrair câncer de cólon do que pessoas dirigindo carros azuis. Observe que os perfis de grupo diferem dos indivíduos em relação ao fato de que as propriedades no perfil podem ser válidas para o grupo e para indivíduos como membros desse grupo, embora não para esses indivíduos como tal. Se este for o caso, isso é chamado de não-distributividade ou propriedades não-distributivas. Por outro lado, quando as propriedades são válidas para cada membro individual de um grupo como um indivíduo, isso é referido como distributividade ou propriedades distributivas (10).

Apesar de todas as oportunidades que o BigData traz, também há preocupações sobre o seu uso. Seus efeitos podem ser positivos – ou, pelo menos, positivos para algumas pessoas. Entretanto, esses efeitos também podem ser negativos. Existem dois importantes efeitos negativos do BigData que queremos abordar neste artigo: a discriminação e a invasão de privacidade. Esses não são os únicos efeitos negativos possíveis: há ainda a desindividualização, a perda de autonomia, o fornecimento unilateral de informações, a estigmatização e o confronto com informações indesejadas (10).

Discriminação: classificar e dividir são o núcleo da atividade de criação de perfis. Desse modo, a discriminação [4] é parte integrante dessa atividade. Há situações em que a discriminação é considerada antiética e em alguns casos, ilegal. Isso ocorre, por exemplo, quando um perfilamento foca de maneira indevida (sem finalidade compatível com o objetivo inicial do processamento de dados) em características como etnia, gênero, religião ou orientação sexual. Mesmo que não haja dolo em julgar as pessoas com base em características particulares, existe o risco de discriminação contra grupos ou indivíduos específicos (11).

Desindividualização: a criação de perfis é, em boa medida, relacionada à classificação. Existe um risco bastante real de que as pessoas classificadas no perfilamento sejam julgadas com base nas características do grupo e não em suas próprias características e méritos individuais. Os perfis de grupo, via de regra, se originam de estatísticas; desse modo, as características do grupo podem ser válidas para o grupo e para indivíduos membros desse grupo, embora não para os indivíduos em si. Por exemplo, as pessoas que moram em um determinado bairro possuem chance 20% maior de deixar de pagar um empréstimo do que uma “pessoa média”. Essa característica é atributo do grupo: pessoas que vivem naquele bairro em particular; essa qualidade é atribuída, então, aos indivíduos membros desse grupo: pessoas escolhidas aleatoriamente que moram no bairro, mas não necessariamente para os indivíduos em si; ou seja, para John, Mary e William, todos que moram no mesmo bairro. Ocorre que quando os indivíduos são julgados pelos critérios das características do grupo, as quais não possuem como indivíduos, isso pode afetá-los negativamente. O perfil do grupo pode gerar efeitos negativos diretos nos indivíduos pertencentes àquele grupo e pode ainda levar à sua estigmatização. Outro fator importante é que as divisões em grupos podem prejudicar a coesão social. Se acontecer de perfis de grupo, estejam eles corretos ou não, se tornarem públicos, as pessoas podem começar a tratar os indivíduos de acordo com as características do grupo, desconsiderando-os como indivíduos (11).

Estereotipização: fortemente relacionado ao risco da desindividualização e da estigmatização, está o risco de se criar estereótipos. Um perfil molda seus membros com base em categorias predeterminadas (“cliente valioso”, “profissional urbano jovem”, “risco de segurança”, “devedor duvidoso”). Para que o exercício de criação de perfis permaneça eficiente, há um número finito de categorias gerais que podem ser utilizadas. Desse modo, esses perfis são inerentemente incapazes de refletir com precisão todas as nuances das nossas personalidades. Como tal, o perfil no qual somos “encaixados” se torna um estereótipo com base no qual seremos julgados (11).

Assimetrias de informação: outro risco associado ao perfilamento é que ele pode levar a assimetrias de informação. Criando perfis, a posição do controlador de dados melhora em relação aos dados que possui à sua disposição; Mas a posição de quem cede os dados continua a mesma. Este é um problema que ocorre, quando o titular dos dados não tem conhecimento do perfilamento ou não possui informações completas ou adequadas sobre o exercício de criação de perfil nos quais seus dados estão sendo utilizados. As assimetrias de informação podem levar a um desequilíbrio de poder entre governo e cidadãos e entre empresas e consumidores, perturbando o atual equilíbrio entre as partes. No contexto da relação com a Administração Pública, as assimetrias de informação podem afetar a autonomia individual dos cidadãos. Se o data mining produzir informações que o Estado possa usar, então ele terá mais poder. Mais do que isso, o medo de ser monitorado, de ter seus dados capturados indevidamente e de ser perfilado gera um efeito colateral indesejado em sociedades democráticas: o medo de participar de atividades políticas. Para que esse medo se torne real, o perfil não precisa nem mesmo ser eficaz para produzir efeitos negativos. No contexto da relação entre mercado e consumidores, as assimetrias de informação podem levar a práticas econômicas desleais e a preços discriminatórios, por exemplo. Certos bens ou serviços podem ser oferecidos ou não a indivíduos, unicamente com base em eles se encaixarem ou não em um perfil determinado. Também é possível ajustar preços de bens e serviços com base no perfil do indivíduo. Cobrar preços diferentes com base em características específicas (por exemplo, raça, sexo ou preferência sexual) é uma violação da legislação anti-discriminação (11).

Imprecisão: o quinto risco associado à criação de perfis é que eles podem ser bastante imprecisos. Há o problema dos “falsos positivos” e dos “falsos negativos”. Isso quer dizer que pessoas que não deveriam estar ali são encaixadas dentro de perfis determinados (um falso positivo), ou pessoas que deveriam estar ali são deixadas de fora (um falso negativo). Isso ocorre por diversos motivos, tais como dados insuficientes ou imprecisos. Os “falsos” geram um grande problema, especialmente quando tratamos de decisões automatizadas. Não havendo intervenção humana, não há processo contraditório e, por isso, não temos o Devido Processo Legal respeitado, já que ambos os lados não serão ouvidos. O principal problema é a colocação do ônus da prova nas mão da parte mais frágil da relação jurídica: o titular dos dados. Caberá a ele provar que não deveria estar naquele grupo, perfilado pelo Estado ou por uma corporação (11). Por exemplo, quando nascemos, somos classificados pelo gênero: masculino ou feminino. No entanto, existem condições médicas que farão com que o gênero se manifeste tardiamente, como nos casos de hermafroditismo, quando as características sexuais secundárias masculinas ou femininas apresentam-se apenas na adolescência. Isso pode fazer com que o gênero designado ao nascer esteja incorreto: um indivíduo classificado como masculino, hermafrodita, pode manifestar características femininas na adolescência. Como o ônus de provar que seu perfil está errado é dele, essa pessoa do sexo feminino terá de mover ação judicial, solicitado que seja reclassificada para mulher.

Abuso: finalmente, outro risco associado à criação de perfis é que controladores de dados ou terceiros (como por exemplo, hackers) podem abusar dos perfis e das informações neles contidas. As possibilidades de abuso aumentam, quando um perfil pode ser vinculado a um indivíduo identificado. Um perfil tornado público pode levar a danos à reputação do titular dos dados ou os dados contidos no perfil podem ser utilizados para fins fraudulentos.

Para alguns autores, o uso de algoritmos para perfilar indivíduos é, em certo sentido, inerentemente discriminatório. A criação de perfil ocorre quando os sujeitos de dados são agrupados em categorias de acordo com várias variáveis, e as decisões são tomadas com base em grupos definidos. Desse modo, não surpreende que as preocupações com a discriminação tenham começado a se enraizar nas discussões sobre a ética do BigData (12). Barocas e Selbst (2016) resumem o problema de forma sucinta: “O big data afirma ser neutro. Não é” (13). O aprendizado de máquina depende de dados que foram coletados da sociedade. Na medida em que a sociedade contenha desigualdade, exclusão ou outros traços de discriminação, os dados também conterão (12). Isso gera  uma consequência extremamente negativa, qual seja, a alienação de grupos vulneráveis da plena participação na sociedade. Nesse sentido, “a confiança irrefletida na mineração de dados nega aos membros de grupos vulneráveis a plena participação na sociedade” (13). O aprendizado de máquina pode reforçar e ampliar padrões sociais pré-existentes de discriminação: se eles forem encontrados no conjunto de treinamento, então um classificador preciso irá reproduzi-los e até ampliá-los. Desta forma, decisões tendenciosas são apresentadas como o resultado de um algoritmo objetivo (12–14).

Alega-se que a tomada de decisão humana apresenta limitações significativas, além de permitir tendências extremas nas políticas públicas, resultando em processos e resultados ineficientes e injustos. O uso de algoritmos baseados em dados é vista, então, como uma resposta a essa demanda por maior objetividade: uma tomada de decisão baseada em evidências. Mas, ao mesmo tempo, acadêmicos e ativistas apontam um conjunto de questões sociais, éticas e legais que devem ser levadas em conta, quando o assunto é tomada de decisão automatizada. Surgem questões como o preconceito e a discriminação, a falta de transparência e de responsabilização pelos resultados (15). Barocas e Selbst (2016) demostram que o uso de processos de tomada de decisão automatizada pode resultar em resultados desproporcionais para grupos desfavorecidos (13). As decisões tomadas por algoritmos podem reproduzir e ampliar padrões de discriminação, devido aos preconceitos dos tomadores de decisão originais, ou ainda refletir vieses presentes na sociedade: a discriminação institucional (15). Um estudo da ProPublica sobre o Algoritmo de Recidivismo COMPAS (um algoritmo que informa decisões de sentenças criminais, prevendo a taxa de reincidência dos condenados) descobriu que o algoritmo apresentava uma probabilidade significativamente maior de rotular réus negros do que réus brancos como prováveis reincidentes, apesar de as taxas gerais serem semelhantes entre os dois grupos (16).

O termo discriminação designa a materialização de atitudes arbitrárias, por ação ou omissão, originadas do preconceito, as quais sejam capazes de produzir uma violação de direitos contra indivíduos e grupos estigmatizados. Nesta perspectiva, o conceito de discriminação aponta para uma reprovação jurídica das violações ao princípio da igualdade, com especial atenção aos prejuízos experimentados pelos destinatários de tratamentos desiguais (17). O conceito de discriminação desenvolvido no Direito Internacional dos Direitos Humanos, cujos termos podem ser encontrados na Convenção Internacional sobre a Eliminação de todas as Formas de Discriminação Racial (18) e na Convenção sobre a Eliminação de todas as formas de Discriminação contra a Mulher (19), é assim definido: “discriminação é qualquer distinção, exclusão, restrição ou preferência que tenha o propósito ou o efeito de anular ou prejudicar o reconhecimento, gozo ou exercício em pé́ de igualdade de direitos humanos e liberdades fundamentais nos campos econômico, social, cultural ou em qualquer campo da vida pública”. A discriminação institucional, por outro lado, se refere às políticas das instituições dominantes e ao comportamento dos indivíduos que controlam essas instituições, com implemento de políticas que visam ter um impacto diferencial e/ou prejudicial sobre grupos minoritários na sociedade (20).

Embora vivamos em uma era pós-direitos civis, a discriminação persiste nas sociedades mais evoluídas do mundo e está presente nas oportunidades de emprego, em questões de moradia, de crédito e de consumo. A discriminação certamente é fruto, em parte, dos preconceitos dos tomadores de decisão; mas uma quantidade ainda maior pode ser atribuída a discriminação institucional. Essa discriminação inconsciente e implícita nas instituições sociais é responsável por grande parte dos efeitos díspares observados na prática (13). Aplicada sem os devidos cuidados, a mineração de dados pode reproduzir os padrões existentes de discriminação, herdar o preconceito dos tomadores de decisão anteriores ou simplesmente refletir os preconceitos generalizados da sociedade. O BigData, pelo seu aparente caráter isento – e não é – pode até mesmo gerar um resultado perverso: sugerir que grupos historicamente desfavorecidos realmente merecem tratamento menos favorável. Os algoritmos de perfilamento e predição podem exibir essas tendências, mesmo que não tenham sido programados para tanto (13). Em março de 2016, a Microsoft lançou Tay, um bot de Inteligência Artificial criado para interagir no Twitter com pessoas entre 18 e 24 anos. Em apenas 12 horas, Tay passou de um conversador otimista a um negacionista do Holocausto, racista e desbocado, que afirmou que as feministas "todas deveriam morrer e queimar no inferno" e que o ator "Ricky Gervais aprendeu totalitarismo com Adolf Hitler, o inventor do ateísmo". Não era isso que a Microsoft tinha em mente, com certeza. A transformação de Tay em um fanático extremista não foi pré-programada, mas dada a imprevisibilidade dos algoritmos, quando confrontados com pessoas e comportamento reais, essa transformação não surpreende. Tay, que a Microsoft desligou às pressas depois de apenas 24 horas, foi programado para aprender com os comportamentos de outros usuários. Nesse sentido, a experiência foi um sucesso. A adoção dos piores atributos da humanidade pela Inteligência Artificial é um exemplo do viés de discriminação algorítmico, que pode ocorrer quando uma programação aparentemente inócua assume preconceitos de seus criadores ou dos dados com os quais está sendo alimentada. No caso do experimento da Microsoft, ninguém se feriu, mas os efeitos colaterais de algoritmos não intencionalmente discriminatórios podem ser dramáticos e perigosos (14).

Na prática, um viés de incerteza pode significar que algoritmos preventivos (como aprovação de crédito) favorecem grupos que são melhor representados nos dados de treinamento. Isso se dá, porque há menos incerteza associada a essas previsões. Em um teste realizado por Goodman e Flaxman (2017), foi criada uma população formada por dois grupos: brancos e não brancos. Um algoritmo foi utilizado para decidir a quem se concede um empréstimo, com base na probabilidade prevista de que o indivíduo o pagará. Foram gerados repetidamente conjuntos de dados sintéticos de tamanho 500, variando a proporção real de não-brancos na população. Em todos os casos, foi definida a verdadeira probabilidade de pagamento como independente da participação no grupo: todos os indivíduos possuíam uma probabilidade de reembolso de 95%, independentemente da raça. O experimento usou um classificador de regressão logística, considerando um caso no qual as decisões de empréstimo são feitas com aversão a riscos. Para tanto, foi utilizada a regra de decisão: verificar se a extremidade inferior do intervalo de confiança de 95% para um indivíduo está acima de um limite de aprovação fixo de 90%. Em todos os casos, todos os indivíduos brancos receberão crédito, pois a probabilidade real é de 95%, e o tamanho da amostra é grande o suficiente para que o intervalo de confiança seja pequeno. No entanto, quando a população não branca é inferior a 30% da população total, não será concedido crédito a ela, devido à incerteza inerente à pequena amostra (12). Existem muitos outros exemplos como esse na literatura.

A existência de vieses nas decisões automatizadas não é algo novo. Nas décadas de 1970 e 1980, o St. George’s Hospital Medical School, no Reino Unido, utilizou um programa desenvolvido para realizar uma triagem inicial dos solicitantes. O programa, que imitava as escolhas que a equipe havia feito no passado, negou entrevistas a 60 candidatos, porque eram mulheres ou porque tinham nomes que não eram de origem europeia. O programa de computador não foi criado para ter esse viés misógino ou xenófobo. Essas características estavam presentes no processo de admissão. Ocorre que o software aprofundou o problema. Em 1988, a Comissão de Igualdade Racial do Reino Unido considerou o St. George’s Medical School culpado de práticas discriminatórias de cunho racial e sexual em seu processo de admissão (14).

Esse conjunto de problemas que atinge o BigData e a Inteligência Artificial no processamento automatizado de dados fez com que o Direito buscasse soluções, criando legislações e assentando princípios jurídicos que dessem conta das novas tecnologias. A iniciativa mais eficaz – até o momento – e de maior repercussão foi certamente a General Data Protection Regulation (GDPR), a Regulation (EU) 2016/679 da União Europeia (21). Essa legislação traz uma série de instrumentos que visam frear abusos no uso de dados pessoais, corrigir distorções como a discriminação, a desindividualização etc., além de estabelecer novos princípios jurídicos, como o Direito à Explicação.

A GDPR substituiu a Diretiva de Proteção de Dados da UE de 1995 (DPD). É importante salientar a diferença normativa no âmbito do Direito Europeu entre uma diretiva e um regulamento. Uma diretiva – a forma legal adotada anteriormente para a regulação de dados – exige que cada país-membro da UE estabeleça as regras ditadas pela diretiva, transferindo-as para o Direito interno, país a país. Obviamente, isso gera uma certa despadronização legislativa. Em alguns casos, em respeito aos limites jurídicos estabelecidos pelos Tratado da União Europeia (TEU) e o Tratado do Funcionamento da União Europeia (TFEU), a diretiva é o caminho a ser adotado. Já um regulamento – o caso da GDPR – é aplicável imediatamente em todos os países-membros da UE, sem necessidade de adequação ou internalização de normas. Em outras palavras, a diretriz de 1995 estava sujeita à interpretação nacional e foi indiretamente implementada; já a GDPR instalou-se imediatamente, como regra geral para todos os membros (12). A DPD e a GDPR são totalmente diferentes no que diz respeito às multas que podem ser aplicadas. Na DPD, não havia multas máximas explícitas, sendo determinadas de país a país. Ao contrário, a GDPR estabelece multas máximas em toda a UE de €$ 20 milhões ou 4% da receita global, o que for maior (Artigo 83, Parágrafo 5). Para empresas como o Google e o Facebook, isso significa multas de bilhões de euros (12). Além disso, a General Data irá estabelecer uma série de direitos dos titulares, que vão de ações contra os controladores de dados até o direito a compensação e responsabilidade (Artigo 82, GDPR), que cria uma obrigação tanto para os responsáveis pelo tratamento de dados como para os processadores, de compensar qualquer um que tenha sofrido danos materiais ou não-materiais como resultado da violação da legislação. No Brasil, a Lei Geral de Proteção de Dados – Lei 13.709/2018 – seguiu a GDPR, assumindo princípios e comandos semelhantes.

Mas nem só de legislação vive a proteção de dados. É preciso que o desenvolvimento tecnológico dos algoritmos se adapte, para eliminar as distorções do processamento de dados. Além da descoberta de presença de discriminação nos algoritmos, trabalhar a prevenção da discriminação é uma questão bem mais desafiadora. Este desafio irá aumentar, na medida que se queira evitar não só a discriminação direta, mas também a discriminação indireta ou ambas simultaneamente. No trabalho de Hajian e Domingo-Ferrer, (2013), é apresentada uma Taxonomia dos Métodos de Prevenção da Discriminação. Essa taxonomia é assim apresentada (22):

  1. Primeira dimensão
    1. Que tipo de discriminação?
      1. Discriminação Direta
      2. Discriminação Indireta
      3. Discriminação Direta e Indireta
  1. Segunda dimensão
    1. como é realizada a prevenção?
      1. Pré-processamento
      2. In-processamento
      3. Pós-processamento

Os métodos de prevenção à discriminação são processados nos três grupos da segunda dimensão (2.1.1, 2.1.2 e 2.1.3).

Pré-processamento: os métodos aplicados transformam os dados de origem de tal forma que vieses discriminatórios contidos nos dados originais são removidos. Assim, o resultado pretendido é que nenhuma regra de decisão injusta possa ser extraída destes dados transformados (22).

In-processamento: os métodos aplicados nesse grupo alteram os algoritmos de data mining. O objetivo é que os modelos resultantes não contenham regras de decisão injustas. Uma abordagem alternativa para a limpeza da discriminação do conjunto de dados é que uma restrição não discriminatória seja incorporada a um decision tree learner, alterando seu critério de divisão e rotulagem. No entanto, os métodos de prevenção de discriminação de processamento devem basear-se em novos algoritmos; os algoritmos de mineração de dados padrão não podem ser usados, porque devem ser adaptados para satisfazer o requisito de não discriminação(22).

Pós-processamento: os métodos aplicados nesse grupo modificam os dados resultantes, em vez de atuar no conjunto de dados original ou de alterar os algoritmos de mineração de dados em si. Por exemplo, uma abordagem de alteração de confiança pode ser proposta para as regras de classificação inferidas por um classificador baseado em regras CPAR (classificação baseada em regras de associação preditivas) (22).

Esse exemplo de estratégia atua no nível da codificação. Mas existem ainda outras dimensões de atuação, além da legislação e da codificação. Por exemplo, a governança de dados e os processos com foco na Privacidade.

Um princípio geral de proteção de dados define que o responsável pelo processamento dos dados deve implementar medidas técnicas e organizacionais adequadas, com o objetivo de proteger dados pessoais contra: i) destruição acidental ou ilegal; ii) perda acidental; iii) alteração, divulgação ou acesso não autorizado, em especial quando o tratamento de dados envolver sua transmissão através de rede digital; iv) contra todas outras formas ilegais de processamento (23).

Outro princípio de proteção determina que os dados devem ser atualizados para que alterações em fatos ou contextos sejam incorporados ao banco de dados. No entanto, é bastante comum que o perfilamento para predição de comportamento de titulares aconteça com base em dados antigos e desatualizados. Também se pode indicar que o armazenamento de dados pode apresentar algumas fraquezas (23):

  1. Os dados podem estar incompletos, faltando campos ou registros
  2. Os dados podem estar incorretos, envolvendo códigos não padronizados, cálculos incorretos, duplicação, ligação ao indivíduo errado ou outra entrada incorreta;
  3. As informações iniciais fornecidas podem estar incorretas.
  4. Os dados podem ser incompreensíveis, envolvendo formatação incorreta ou a inclusão de vários campos em um campo;
  5. Os dados podem ser inconsistentes, envolvendo códigos sobrepostos ou significados de código que mudaram com o tempo
  6. Bancos de dados diferentes podem usar padrões de formatação diferentes, dificultando o compartilhamento de dados ou a “interoperabilidade”.

Reter o valor e o significado dos dados significa dizer que o contexto dos dados deve ser preservado no processo de análise. Mas ao coletar informações em diferentes bancos de dados – internos ou externos – ou ao realizar a mescla de vários bancos de dados, cria-se um problema. Quando as informações são utilizadas em um novo contexto de análise, os dados podem não ser interpretados no contexto de sua captura. Isso se deve ao fato de que a parte que usa os dados pode não ter conhecimento de como os dados foram originalmente classificados. Por exemplo, os dados de usuários que circulam na web foram “emitidos” com um determinado objetivo em um contexto específico. As possibilidades de usar mecanismos de pesquisa com palavras-chave geram o risco de classificação de dados fora de contexto original. Essa é a questão da integridade contextual: o titular fornece seus dados em um determinado contexto e é razoável que espere que a informação seja processada neste mesmo contexto (23).

Conclusão

Os desafios do BigData, Inteligência Artificial e o tratamento de dados pessoais são muitos. O surgimento de legislações avançadas como a GDPR e a LGPD é uma resposta a esses desafios, mas não devem ser respostas únicas. O Direito não é um ramo que atua isolado; pelo contrário: é do diálogo com outras fontes, como a Filosofia, a Sociologia, a Ciência Política e agora a Ciência de Dados e a Estatística, que as legislações avançam e dão resposta aos anseios da sociedade.

A solução legislativa não é a única e sequer será muito efetiva, se outras iniciativas também não forem implementadas. O avanço do Direito no campo da Tecnologia da Informação tem demonstrado isso de forma clara. É preciso que o mercado, principalmente, realize um esforço de prevenção no tratamento de dados, buscando a eliminação das distorções de vieses e o surgimento de conflitos de grande monta. O avanço da comunicação social e do marketing digital mostraram que dados pessoais podem ser armas poderosíssimas na disputa política, no controle da narrativa dos fatos e na questão da confiabilidade da informação. Os debates sobre Fake News e técnicas de desinformação são amplos e sérios, causando impactos na economia, nas legislações e nas relações diplomáticas (24–26).

É inegável, no entanto, que a adequada exploração dos dados pessoais trará benefícios para a sociedade como um todo. Mas é preciso primeiro que se avance na resolução dos inúmeros problemas apresentados. Somente assim o BigData poderá continuar avançando e concretizando sua promessa de revolução inovadora e disruptiva.

 

REFERÊNCIAS

  1. Laney D. 3d data management: Controlling data volume, velocity and variety. Gartner; 2001 Feb. Report No.: 949.
  2. Luvizan S, Meirelles F, Diniz EH. Big Data: publication evolution and research opportunities. In TECSI; 2014.
  3. Gandomi A, Haider M. Beyond the hype: Big data concepts, methods, and analytics. Int J Inf Manag. 2015 Apr;35(2):137–44.
  4. Cao L. Data Science: A Comprehensive Overview. ACM Comput Surv. 2017 Jun 29;50(3):1–42.
  5. Günther WA, Rezazade Mehrizi MH, Huysman M, Feldberg F. Debating big data: A literature review on realizing value from big data. J Strateg Inf Syst. 2017 Sep;26(3):191–209.
  6. BigData. In: Gartner IT Glossary [Internet]. Gartner; [cited 2019 Mar 24]. Available from: https://www.gartner.com/it-glossary/big-data/
  7. Demystifying BigData: A practical guide to transforming the business of Government. TechAmerica Foundation’s Federal Big Data Commission; 2012.
  8. Vieira MR, FIGUEIREDO JM de, Liberatti G, Viebrantz AFM. Bancos de Dados NoSQL: conceitos, ferramentas, linguagens e estudos de casos no contexto de Big Data. Simpósio Bras Bancos Dados. 2012;
  9. Cukier K. Data, data everywhere. The Economist. 2010 Feb 27;13.
  10. Custers B. Data Dilemmas in the Information Society: Introduction and Overview. In: Discrimination and Privacy in the Information Society. 1a. New York: Springer; 2013. p. 3–26. (Studies in Applied Philosophy, Epistemology and Rational Ethics).
  11. Schermer B. Risks of Profiling and the Limits of Data Protection Law. In: Discrimination and privacy in the information society: data mining and profiling in large databases. 1a. New York: Springer; 2013. p. 137–52. (Studies in applied philosophy, epistemology and rational ethics).
  12. Goodman B, Flaxman S. European Union Regulations on Algorithmic Decision-Making and a “Right to Explanation.” AI Mag. 2017 Oct 2;38(3):50.
  13. Barocas S, Selbst AD. Big Data’s Disparate Impact. Calif Law Rev. 2016;104:671–732.
  14. Garcia M. Racist in the Machine: The Disturbing Implications of Algorithmic Bias. World Policy J. 2016;33(4):111–7.
  15. Lepri B, Oliver N, Letouzé E, Pentland A, Vinck P. Fair, Transparent, and Accountable Algorithmic Decision-making Processes: The Premise, the Proposed Solutions, and the Open Challenges. Philos Technol. 2018 Dec;31(4):611–27.
  16. Angwin J, Larson J. Machine Bias [Internet]. ProPublica. 2016 [cited 2019 Mar 26]. Available from: https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing
  17. Rios RR. O conceito de homofobia na perspectiva dos direitos humanos e no contexto dos estudos sobre preconceito e discriminação. In: Rompendo o Silêncio: homofobia e heterossexismo na sociedade. 1a. Porto Alegre: Nuances; 2007. p. 27–48.
  18. Convenção Internacional sobre a Eliminação de todas as Formas de Discriminação Racial. [Internet]. Decreto No 65.810 Dec 8, 1969. Available from: http://www.planalto.gov.br/ccivil_03/decreto/1950-1969/D65810.html
  19. Convenção sobre a Eliminação de Todas as Formas de Discriminação contra a Mulher [Internet]. Decreto No 4.377 Sep 13, 2002. Available from: http://www.planalto.gov.br/ccivil_03/decreto/2002/D4377.htm
  20. Pincus FL. Discrimination Comes in Many Forms. Am Behav Sci. 1996;40(2):186–94.
  21. General Data Protection Regulation [Internet]. Regulation (EU) 2016/679 Apr 27, 2016. Available from: https://eur-lex.europa.eu/legal-content/EN/TXT/HTML/?uri=CELEX:32016R0679&from=EN
  22. Hajian S, Domingo-Ferrer J. Direct and Indirect Discrimination Prevention Methods. In: Discrimination and privacy in the information society: data mining and profiling in large databases. 1a. New York: Springer; 2013. p. 241–54. (Studies in applied philosophy, epistemology and rational ethics).
  23. van der Sloot B. From Data Minimization to Data Minimummization. In: Discrimination and privacy in the information society: data mining and profiling in large databases. 1a. New York: Springer; 2013. p. 273–87. (Studies in applied philosophy, epistemology and rational ethics).
  24. Bendiek A, Schulze M, Stiftung Wissenschaft Und Politik. Disinformation and elections to the European Parliament. SWP Comment [Internet]. 2019 [cited 2019 Apr 30]; Available from: https://www.swp-berlin.org/10.18449/2019C16/
  25. Guilbeault D. Digital Marketing in the disinformation age. J Int Aff. 2018;71(1.5):33–42.
  26. Nisbet EC, Kamenchuk O. The Psychology of State-Sponsored Disinformation Campaigns and Implications for Public Diplomacy. Hague J Dipl [Internet]. 2019;14(1–2). Available from: https://brill.com/view/journals/hjd/14/1-2/article-p65_6.xml

 

[1] Do ponto de vista de metodologia científica, uma inversão perigosa, pois o pesquisador parte da sua resposta e passa a procurar dados que corroborem a sua teoria, podendo desprezar os dados que a contrariem.

[2] Por mais que se possa chegar a um “frame” de decisões possíveis, dadas as variáveis que conduziram e moldaram o caminho percorrido, a escolha de uma das decisões do frame entre as tantas possíveis não pode ser racionalmente explicada.

[3] Statistical Analysis System (SAS) é o nome de uma empresa estadunidense pioneira em Business intelligence e de uma família de softwares gerenciadores de bancos de dados comercializados por ela.

[4] 1. Acto ou efeito de discriminar (ex.: o exercício envolve discriminação visual). = DISTINÇÃO. 2. Acto de colocar algo ou alguém de parte. 3. Tratamento desigual ou injusto dado a uma pessoa ou grupo,  com base em preconceitos de alguma ordem, nomeadamente sexual, religiosa, étnica etc.

“discriminação”, in Dicionário Priberam da Língua Portuguesa [online], 2008-2013, https://dicionario.priberam.org/discrimina%C3%A7%C3%A3o [consultado em 28-03-2019].

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *