Dentre os dados disponíveis aos investigadores no início das diligências investigativas, residem aqueles que podem ser acessados de forma livre — abertos, mas nem sempre gratuitos — e diretamente pelo investigador (imediatos). Essas características (abertos e imediatos) indicam que os dados podem ser acessados por meio de sistema informático, através de conexão à rede mundial de computadores ou em bancos de dados à disposição do investigador público ou privado.
Em se tratando de dados em formato digital, caso eles interessem à investigação (evidência) e o investigador necessite de sua conversão em provas, há cuidados a serem adotados para a sua captura e manutenção como forma de preservar a integridade e autenticidade, ou seja, a cadeia de custódia da prova digital.
Ao contrário dos conceitos estanques de dado aberto e dado negado da doutrina de inteligência, o conceito aqui empregado de dado aberto para a investigação é referencial. Atribuir a determinado dado as características de aberto e acessível diretamente depende de quem é o investigador. Alguns dados são acessíveis à polícia, mas não ao investigador particular. Por outro lado, há os dados abertos que podem ser acessados por qualquer pessoa na rede mundial de computadores.
Os dados constantes em redes sociais de investigado e por ele disponibilizados como públicos aos outros usuários são dados constantes de fontes abertas de acesso imediato porque demandam apenas que o investigador realize cadastro na rede social respectiva (com um perfil investigativo, como veremos adiante). Do mesmo modo, dados associados ao Cadastro de Pessoa Física, tais como nome completo e endereço do contribuinte, constam de base de dado que a Receita Federal do Brasil compartilha com as polícias e os ministérios públicos. Para esses investigadores, os dados do investigado constam de fontes abertas de acesso imediato. Em uma o repositório é a internet aberta, em outro é um banco de dados do investigador.
O conceito aqui esboçado diz respeito à coleta passiva de dados agrupados em duas categorias de acordo com sua localização: a) aqueles localizados em repositórios públicos ou privados na internet aberta ou profunda; e b) aqueles constantes de bases de dados à disposição de determinada categoria de investigador, público ou privado.

Repositórios de Dados na Internet
Repositório de dados na internet (data repository) é um ambiente digital estruturado, acessível via web, destinado ao armazenamento, organização, preservação e compartilhamento de conjuntos de dados. Ele pode ser público ou restrito e serve a finalidades acadêmicas, governamentais, corporativas ou investigativas.
Segundo o Glossário de Governança de Dados da ABNT NBR ISO/IEC 38505-1:2019 (Governança de Dados para Tecnologia da Informação), repositório de dados é “um local centralizado para armazenamento e gerenciamento de dados, podendo ser acessado por sistemas autorizados para fins de análise, recuperação ou distribuição”. Exemplos desse repositório é o Portal Brasileiro de Dados Abertos e Catálogo Nacional de Dados do Governo Federal e outros abordados nos tópicos abaixo.
Esses repositórios podem estar situados no que se chama surface web ou na deep web, mas a característica principal é que eles são de acesso concedido a todas as pessoas, sem demandar nenhum poder legal específico, código secreto ou invasão de sistema de computador. Qualquer investigador com a capacidade técnica necessária poderá acessar tais dados abertos de forma imediata. Eventualmente, alguns desses repositórios exigem a criação de conta na plataforma ou o pagamento para acesso aos dados, o que não retira sua condição.
Não há controvérsia na (escassa) literatura de que esse tipo de dado representa fonte aberta e imediata. Os dados obtidos em repositórios na internet são tratados por muitos como open source intelligence — OSINT (Baker, p. 3). O termo é consagrado no meio, mas necessita de ressalva nesse estudo. O termo intelligence significa que os dados assim obtidos não são provas, que é a mesma acepção do termo “dado” empregado no Cap. 1. Neste livro a tradução de OSINT seria dado em fonte aberta, o que justamente é o termo aqui empregado como gênero. Assim, os dados contidos em fontes abertas de acesso imediato constante em repositórios na internet são o que tradicionalmente se entende por open source intelligence — OSINT.
As ferramentas empregadas por investigadores para operacionalizar essa técnica variam entre países (que possuem diferentes níveis de abertura de dados) e ao longo do tempo. Os melhores livros nessa área passam por atualização tão frequentemente que alguns autores decidiram não mais lançar edições, mas apenas atualizações das ferramentas. Esses autores passaram a se concentrar em realização de cursos e treinamentos, abandonando a ideia de conseguir compilar as informações altamente voláteis em um livro tradicional. Este livro se concentra em descrever a técnica de investigação e discutir as questões jurídicas levantadas pelo seu uso, sem pretender expor as mutáveis ferramentas utilizadas, no dia a dia, pelos investigadores digitais.
Essa mutabilidade implica na frequente organização e reorganização de repositórios na internet em diretório estruturado de ferramentas e recursos de OSINT (ferramentas integradoras). Uma das mais famosas é a OSINT Framework que categoriza ampla variedade de ferramentas públicas para a coleta de dados em fontes abertas. Ela funciona como mapa interativo que direciona os usuários para ferramentas específicas com base no tipo de informação que desejam coletar.
Bancos de Dados
Questão mais controversa é enquadrar na categoria da dados abertos e imediatos aqueles retirados de bancos ou bases de dados à disposição do investigador privado ou público.
Banco de dados ou base de dados (database) é toda coleção estruturada de dados organizados para acesso, gerenciamento e atualização eficiente, geralmente mantida por um sistema de gerenciamento de banco de dados (ex: MySQL, PostgreSQL, Oracle etc). A diferença em relação a repositório na internet reside no fato de que estes representam, como visto, conjunto de dados disponível online, geralmente em formato bruto ou semiestruturado, hospedado em plataformas abertas ou institucionais para consulta pública, científica ou profissional.
A Lei Geral de Proteção de Dados (art. 5º, inciso IV) oferece um conceito de bancos de dados como o “conjunto estruturado de dados pessoais, estabelecido em um ou em vários locais, em suporte eletrônico ou físico”. O conceito precisa de ressalvas nesse estudo na medida em que nem sempre o banco de dados contém dados pessoais, tal como definidos na LGPD, e neste capítulo se aborda apenas os bancos de dados em suporte eletrônicos, justamente aqueles acessíveis direta e imediatamente pelo investigador.
A consulta de investigadores a bancos de dados a ele disponíveis é uma das formas mais intuitivas de se iniciar a investigação, a partir da técnica de coleta dos dados abertos e imediatamente disponíveis. São deles que se extraem as primeiras evidências e subsidiam as primeiras hipóteses.
Rotineiramente, órgãos públicos organizam bases de dados que dispõem, fazem convênio com outros órgãos para compartilhamento de bases que não possuem e desenvolvam seus próprios sistemas agregadores e de consulta. O conjunto desses banco de dados mantidos por órgãos públicos são chamados de sistemas internos (internal agency records systems, Bazzel, p. 509) e existem em todos os países, que os customizam para as necessidades do próprio órgão.
Diversos órgão públicos no Brasil desenvolveram sistemas informáticos com repositórios de dados públicos, tais como ministério público estaduais (ex: Sistema Pandora, Sistema Perdigueiro etc.), Polícia Federal (Sistemas INFOSEG e Córtex), Controladoria-Geral da União (Macros), Tribunal de Contas da União (Labcor), Receita Federal etc. O Poder Judiciário também possui um sistema interno nesse formato, desenvolvido pelo Conselho Nacional de Justiça (Sistema Sniper).

Coleta Passiva
A última característica do conceito desta técnica de investigação é que ela se refere apenas à coleta puramente passiva de dados, sem qualquer forma de interação direta com o alvo da investigação.
Em se tratando de técnica que não necessita de ordem judicial e normalmente adotada logo no início da investigação, o investigador apenas coleta dados constantes de repositórios na internet, mas não interage com o investigado, não simula identidade falsa, não adota linguagem codificada para enganar interlocutores, não participa de grupos fechados sob disfarce e, tampouco, emprega código secreto ou realiza atividades de invasão de sistema de computador.
Ademais, em se tratando de banco de dados, a coleta será sempre passiva pela própria natureza da localização do dado.
Essa característica nem sempre é destacada na literatura sobre o tema. Há autores que, talvez encantados com as possibilidades tecnológicas, sugerem a adoção de medidas que, à luz de uma investigação pública ou privada voltada para a produção de provas, não se sustenta juridicamente. Por exemplo, Nihad A. Hassan e Rami Hijazi afirmam que existe coleta passiva, semipassiva e ativa, com o que não podemos concordar.
Para realizar essas atividades de interação ou de invasão de sistemas informático, o investigador precisará se valer de outras técnicas de investigação, tais como a infiltração virtual, que demandam autorização judicial. Por estar relacionada com o método de Investigação Cibernética e apenas de forma reflexa com a Investigação Financeira, essa interação ativa do investigador não será abordada neste livro.
Essa distinção metodológica é fundamental para evitar a confusão conceitual entre os perfis investigativos usados para coleta apassiva e os perfis utilizados em operações de infiltração, cujo uso será analisado em postagem vindoura. A diferenciação clara entre esses tipos de perfis é indispensável tanto para a legalidade do ato investigativo, quanto para a validade probatória das informações obtidas.