Inteligência Artificial vai revolucionar a vigilância

O que acontece quando olhos digitais possuem a capacidade para reconhecer?

Usualmente pensamos nas câmeras de vigilância como olhos digitais, nos assistindo ou assistindo por nós, dependendo do seu ponto de vista. Mas, na verdade, elas são mais como vigias: úteis apenas quando alguém está olhando através delas. Às vezes, isso significa um humano assistindo ao vivo uma filmagem, normalmente de diversos monitores. No entanto, a maioria das câmeras de vigilância são passivas. Elas estão lá para providenciar evidências se algo der errado. Seu carro foi roubado? Olhe o seu CFTV (Circuito Fechado de Televisão).

Mas isso está mudando – e de maneira rápida. Inteligência Artificial está fornecendo cérebros digitais às câmeras de vigilância para que seja possível reconhecer com seus “olhos”, a possibilidade de analisar vídeos ao vivo, sem a necessidade de intervenção humana. Isso pode ser uma boa notícia para a segurança pública, ajudando policiais a detectar crimes e acidentes – além de possuir uma série de aplicações científicas e industriais. Mas isso também levanta questionamentos sobre o futuro da privacidade e representa novos riscos à justiça social.

O que acontecerá quando governos puderem rastrear uma grande quantidade de pessoas usando CFTV? Quando a polícia puder rastrear digitalmente você ou outra pessoa pela cidade apenas fazendo o upload de uma foto 3×4 em uma base de dados? Ou quando um algoritmo tendencioso estiver rodando em câmeras de um shopping local, alertando policiais porque eles não gostam de um grupo específico de adolescentes?

 

Esses cenários estão longe de acontecer, mas estamos vendo os primeiros frutos da combinação da Inteligência Artificial com a vigilância. Um exemplo é o IC Realtime, seu produto principal, revelado em dezembro de 2017, foi anunciado com a Google para CFTV. É um aplicativo e plataforma web, chamada Ella, que usa Inteligência Artificial para analisar o que está acontecendo em feeds de vídeos e fazer com que eles sejam instantaneamente pesquisáveis. Ella pode realizar centenas de milhares de consultas, reconhecendo a linguagem natural, permitindo que usuários pesquisem em filmagens para encontrar clips mostrando animais específicos, pessoas vestindo roupas de certa cor, ou, até mesmo, carros de determinados modelos ou marcas.

“Vamos supor que existe um ladrão e você não sabe o que aconteceu”, diz Matt Sailor (CEO da IC Realtime). “Mas um jeep Wrangler apareceu acelerando a oeste depois do ocorrido”. Então, vamos atrás disso, pesquisamos por “Jeep Wrangler” e está feito. “Na tela, clips começam a aparecer no feed, mostrando diferentes Jeep’s Wranglers. Essa vai ser a primeira grande vantagem de combinar IA e CFTV, explica Sailor, facilitando o que estávamos procurando. “Sem essa tecnologia, você não saberá mais que sua câmera e precisará de ter que passar horas e mais horas assistindo a vídeos”.

Inteligência Artificial na vigilância começa com a pesquisa de vídeos

Ella fica hospedada na nuvem da Google e pode pesquisar filmagens de basicamente qualquer sistema CFTV. “Isso funciona bem em um sistema de câmeras, assim como uma babá eletrônica, que faz todo caminho até a empresa com uma matriz de centenas de câmeras”, diz Sailor. Usuários pagarão mensalmente por acesso livre, começando em aproximadamente 7 USD e aumentando o valor de acordo com o número de câmeras.

IC Realtime tem como objetivo realizar negócios de todos os tamanhos, mas pensa que essa tecnologia também atrairá consumidores finais. Esses consumidores já estão bem servidos por um mercado em expansão para câmeras de segurança residencial “smart”, feitas por companhias como a Amazon, a Logitech, o Netgear e o Nest da Google. Sailor explica que essa tecnologia é muito mais rudimentar que um sistema IC Realtime. Essas câmeras são conectadas no WiFi residencial e oferecem live stream por meio de aplicativos e gravam de maneira automática as filmagens quando veem alguma coisa se mover. Mas elas não podem diferenciar uma invasão de um pássaro, permitindo muitos alarmes falsos. “Ela é uma tecnologia muito básica há anos”, diz Sailor. “Sem IA, sem Deep Learning”.

Screenshot mostrando Ella sendo usada para pesquisar pessoas vestidas de vermelho. Imagem: IC Realtime.

Isso não acontecerá por muito tempo, enquanto a IC Realtime oferecer análises baseadas na nuvem, que podem atualizar câmeras sem inteligência, outras companhias estão construindo Inteligência Artificial direto no hardware. Por exemplo, a startup Boulder AI, vendendo “visão como serviço”, usando suas próprias câmeras com IA. A grande vantagem de integrar IA nas câmeras é que elas não requerem conexão com a Internet para trabalhar. Boulder vende para diversas áreas da indústria, adaptando a vigilância de acordo com a necessidade dos clientes.

“Nós estamos identificando 100% das trutas em Idaho”

“As aplicações estão sobre a mesa”, conta o fundador Darren Odom para o site The Verge. “Nós até temos uma aplicação que procura por pizzas, determinando se elas estão no tamanho e formato correto.” Odom dá um exemplo de um consumidor em Idaho que construiu uma barragem. Para cumprir regulamento ambientais, eles estão monitorando o números de peixes se movendo na estrutura. “Eles usavam uma pessoa sentada na janela próxima a esses peixes, contando quantas trutas passaram”. explica Odom, “Então elas se movem no vídeo enquanto alguém assiste remotamente”. Finalmente, eles contrataram Boulder, que construiu um sistema personalizada de IA CFTV para identificar o tipo dos peixes. “Nós realmente identificamos as espécies de peixes usando visão computacional”, Odom diz com orgulho. “Estamos identificando 100% das trutas em Idaho”.

Se a IC Realmente representa o fim do mercado genérico, Boulder mostra o que um consumidor final pode fazer. Em ambos os casos, o que essas empresas estão atualmente oferecendo é apenas a ponta do iceberg. Do mesmo jeito que uma máquina pode aprender como adquirir ganhos suaves na habilidade para identificar objetos, a habilidade de analisar cenários, atividades e movimento deve melhorar rapidamente. Tudo está no seu lugar, incluindo o básico da pesquisa, o poder computacional e o treinamento de base de dados, componente chave na criação de IA’s competentes. Duas das maiores base de dados para análise de vídeos são feitas pelo YouTube e Facebook, companhias que já falaram que querem IA para ajudar a gerenciar o conteúdo em suas plataformas (embora ambas admitem que a tecnologia ainda não está pronta). A base de dados do YouTube, por exemplo, contém mais de 450.000 horas de vídeos rotulados, o que esperamos estimular “Inovação e desenvolvimento de entendimento de vídeo”. O tamanho das organizações envolvendo a construção das bases de dados nos dá uma ideia da importância do campo. Google, MIT, IBM  e DeepMind estão envolvidas em seus próprios projetos que se assemelham.

IC Realtime já esta trabalhando no desenvolvimento de ferramentas como reconhecimento facial. Afinal de contas, isso irá permitir analisar o que esta acontecendo na tela. Sailor diz que já contou para potenciais clientes na educação que querem o serviço de vigilância que possa reconhecer estudantes com problemas nas escolas. “Eles estão interessados em notificações prévias de uma briga, por exemplo”. Todos os sistemas vão precisar procurar por aglomerados de alunos e então alertar um responsável, que poderá checar o vídeo para ver o que está acontecendo ou enviar alguém para intervir.

Boulder também está explorando esse tipo de análise. Um protótipo do sistema está funcionando e supostamente deve analisar o comportamento de pessoas no banco. “Nós estamos procurando especificamente pelos caras ruins e detectando a diferença entre um ator normal e uma pessoa atuando fora dos limites”, diz Odom. Para fazer isso, eles estão usando filmagens de segurança antigas para treinar o seu sistema e detectar comportamentos tendenciosos. Mas muitos dos vídeos estão com baixa qualidade, então eles precisam direcionar seu próprio treinamento para filmagens com atores. Odom não está autorizado para entrar em detalhes, mas ele diz que o sistema esta procurando por expressões faciais e ações específicas. “Nossos atores estão fazendo coisas como se agachar , se mover demais, olhar os ombros, etc…”, explica.

Para os especialistas em vigilância e IA, a introdução desse tipo de capacidade é cheia de potenciais dificuldades, ambas técnicas e éticas. Como é frequente nos casos com IA, essas duas categorias estão interconectadas. Isso é um problema técnico em que máquinas não podem entender o mundo tão bem como humanos, mas o problema se torna ético quando nós deixamos que elas tomem as decisões por nós.

Alex Hauptmann, professor na Carnegie Mellon que se especializou nesse tipo de análise computacional, diz que a IA tem impulsionado o campo, mas ainda existem desafios fundamentais em fazer computadores entenderem o vídeo. E o maior desafio para câmeras, apesar de não pensarmos frequentemente, é a resolução da imagem.

O maior obstáculo é um pouco comum: Vídeos de baixa resolução

Peguemos, por exemplo, uma rede neural que foi treinada para analisar ações humanas em um vídeo. Esse tipo de trabalho divide o corpo humano em segmentos: braços, pernas, ombros, cabeças, etc… Então observa como esses segmentos mudam frame a frame. Através disso, a IA pode dizer quando alguém está correndo, por exemplo, ou escovando o cabelo. “Mas isso depende da resolução do vídeo”, Hauptmann conta para o The Verge. “Se eu estou olhando para uma câmera do estacionamento, eu tenho sorte se eu posso dizer se uma pessoa abriu a porta do carro. Por outro lado, se você está em frente da câmera tocando guitarra, pode-se diferenciar os dedos”.

Esse tipo de problema é enorme para os sistemas CFTV, em que as câmeras possuem imagens muitas vezes granuladas e em ângulos estranhos. Hauptmann dá o exemplo de uma câmera em uma loja apontada diretamente para o caixa e parcialmente para a janela da rua. Se um assalto acontece na parte de fora, então a IA ficará desorientada. “Mas nós, como pessoas, podemos imaginar o que está acontecendo juntado as pontas. Computadores não podem fazer isso”, conta Hauptmann.

Amostra de filmagem mostrando IA em sistemas de vigilância construído pela empresa chinesa SenseTime, SenseTime/YouTube.

Similarmente, enquanto IA é ótima em identificar o que está acontecendo em um vídeo de nível alto (isto é, alguém escovando os dentes, olhando para o telefone ou jogando futebol), ela ainda não pode extrair o conteúdo vital. Considere a rede neural que pode analisar ações humanas, por exemplo. Ela pode ser capaz de olhar a filmagem e dizer “Essa pessoa está correndo”, mas não pode dizer se está correndo porque está atrasada para o ônibus ou porque roubou o telefone de alguém.

Esses problemas de precisão devem fazer com que pensemos duas vezes sobre o tipo de reivindicação das startups de IA. Nós estamos agora perto do ponto em que o computador pode entender o que vê no vídeo com o mesmo discernimento de um humano. (Pesquisadores irão dizer que isso é tão difícil como “resolver” a inteligência em geral). Mas as coisas estão progredindo rápido.

Hauptmann diz que usar o rastreamento de placas em veículos é “um problema resolvido para propósitos práticos” e o reconhecimento facial segue a mesma lógica. (Reconhecimento facial usando filmagens de baixa qualidade é outra coisa). Identificar coisas como carros e itens é uma tarefa sólida, porém rastrear uma pessoa através de múltiplas câmeras pode ser feito apenas nas condições corretas. “Você é muito bom em reconhecer um indivíduo em uma cena sem aglomeração mas em um ambiente aglomerado, esqueça” diz Hauptmann. Ele diz especialmente se o indivíduo não estiver vestindo uma roupa chamativa.

Algumas tarefas da inteligência artificial em sistemas de vigilância já estão resolvidas, outras precisam ser trabalhadas

Entretanto, até mesmo as ferramentas básicas podem ser efetivas em escala. A China forneceu um exemplo do que isso pode parecer. Na região ocidental de Xinjiang, onde a dissidência do grupo étnico Uighur esta sendo suprimida, tem sido descrita como “um laboratório de alta tecnologia para controle social”, em um artigo recente do Wall Street Journal. Em Xinjiang, métodos tradicionais de vigilância e controle são combinados com reconhecimento facial, scanners de identidade, scanners de íris e a onipresente CFTV para criar um “estado de total vigilância” em que indivíduos são rastreados constantemente em locais públicos. Em Moscou, uma infraestrutura similar está sendo montada, com software de reconhecimento facial ligado em um sistema centralizado com mais de 100.000 câmeras de alta resolução. Essas câmeras cobrem mais de 90% das entradas de apartamentos da cidade.

Nesses casos, é provável que haja um ciclo virtuoso em jogo, com sistemas coletando mais dados e melhoramento do software, o que ajuda o mesmo a se desenvolver. “Eu acho que vai melhorar um pouco”, diz Hauptmann. “Ele vem vindo”.

Se esses sistemas estiverem em andamento, então nós já podemos ter problemas com o viés algorítmico. Isso não é um desafio hipotético. Estudos mostraram que máquinas em treinamento aprenderam os preconceitos raciais e sexistas da sociedade que os programou, do software de reconhecimento de imagem que sempre coloca uma mulher na cozinha para os sistemas de justiça criminal que dizem que pessoas negras são mais propensas a reincidir. Se nós estamos treinando sistemas de vigilância com IA usando filmagens antigas, vindas de CFTV ou câmeras policiais, então as tendências da sociedade serão perpetuadas.

Esse processo já está acontecendo na lei, diz Meredith Whittaker, vice da ethics-focused AI Now Intitute, na cidade de Nova York, e vai se espalhar para o setor privado. Whittaker dá o exemplo de Axon (anteriormente Taser), que comprou diversas companhias de IA para ajudar a construir análises de vídeos em produtos. “A informação que eles deram das câmeras policiais conta para nós um pouco sobre o perfil policial individual, mas não nos da uma noção completa”, diz Whittaker. “Existe um perigo real em generalizar tendências baseadas em fotos de crimes”.

Até mesmo se nós gerenciarmos corrigir as tendência nesses sistemas automatizados, isso não os torna benéficos, diz o policial senior Jay Stanley. Eles diz que a mudança do CFTV de observadores passivos para ativos pode ter um grande impacto na sociedade civil.

Nós não queremos pessoas para serem apenas livres, mas para se sentirem livres

“Nós não queremos apenas pessoas livres, mas que se sintam livres. E isso significa que elas não precisam se preocupar com o desconhecido, o público desinformado pode estar interpretando mal suas ações”, diz Stanley. “A preocupação é que as pessoas irão monitorar a si mesmas constantemente, preocupando-se com tudo, isso pode ser mal interpretado e trazer consequências negativas para suas vidas”.

Stanley também fala que alarmes falsos de sistemas de vigilância com IA imprecisa também podem levar a confrontos mais perigosos entre a aplicação da lei e os membros do público. Pense no tiroteio de Daniel Shaver, por exemplo, no qual o oficial de polícia foi chamado para um quarto de hotel no Texas após Shaver ser visto com uma arma. O Sargento Charles atirou-se para baixo enquanto Shaver estava rastejando em sua direção. A arma de Shaver foi revelada como uma arma para controle de pragas.

Se um humano pode cometer tal erro, qual é chance de um computador fazer o mesmo? E se o sistema de vigilância se tonar parcialmente automatizado, tais erros ocorrerão com mais ou menos frequência? “Se a tecnologia está lá, existem forças policiais em sua busca”, diz Stanley.

Quando a vigilância com IA se tornar comum, quem irá regularizar os algoritmos?

Whittaker afirma que nós estamos vendo nesse campo é apenas uma parte da grande aplicação de IA em que nós usamos ferramentas relativamente cruas para tentar classificar pessoas baseando-se em sua imagem. Ela aponta para pontos controversos na pesquisa publicada no último ano e que reivindica ser capaz de identificar sexualidade usando reconhecimento facial. A precisão da IA é questionável, mas críticos apontam que não importa se funcionou ou não, era importante saber se as pessoas acreditaram que funcionou e fizeram julgamentos usando essa informação de mesmo modo.

“É preocupante para mim que muitos desses sistemas sejam bombeados para a nossa infraestrutura central sem o processo democrático que nos permita fazer perguntas sobre sua eficácia ou informar as populações em que serão implantadas”, diz Whittaker. “Este é mais um exemplo de sistemas algorítmicos que estão oferecendo para classificar e determinar a tipologia de indivíduos com base no reconhecimento de padrões obtidos a partir de dados que incorporam vieses culturais e históricos”.

Quando perguntamos ao IC Realtime sobre os problemas de como a vigilância da IA ​​poderia ser abusada, eles deram uma resposta que é comum na indústria de tecnologia: essas tecnologias são neutras em termos de valor, e é apenas como elas são implementadas e por quem que as torna boas ou ruins. “Com qualquer tecnologia nova, existe o perigo de cair nas mãos erradas”, diz Sailor. “Isso é verdade para qualquer tecnologia… e eu acho que os profissionais neste aspecto superam demais os contras”.

Traduzido do portal The Verge: