Esse é o código fonte para a matéria que conta quantas vezes o presidente Jair Bolsonaro mencionou a ditadura militar brasileira no período em que foi deputado federal.
A reportagem usou um programa de computador para acessar todos os discursos de Jair Bolsonaro em plenário que estão disponíveis no setor de Notas Taquigráficas do site da Câmara dos Deputados.
Discursos anteriores à 2001 não estão transcritos no site – há apenas um link para o documento do Congresso, em PDF, que contém todos os pronunciamentos feitos por qualquer deputado na data. Assim, como não houve tempo hábil para processá-los até a publicação, eles foram descartados.
Já com todos os pronunciamentos de Bolsonaro no período em mãos, definimos uma série de palavras-chave relacionadas à ditadura militar brasileira. São termos como “31 de março”, “regime militar”, “Comissão da Verdade”, “Castelo Branco”, “VAR-Palmares” ou “Marighella”, por exemplo.
Em seguida, selecionamos todos os discursos que continham ao menos uma destas palavras. Estes pronunciamentos foram lidos na íntegra para verificar se os termos usados se referem de fato ao regime militar.
Os discursos que passaram por essa última checagem são os 252 que foram destacados nessa reportagem. Os trechos selecionados para exibição também foram escolhidos manualmente.
Contém os arquivos .ipynb
que foram usados para raspar os dados do site da Câmara e montar a análise.
Devem ser executados na seguinte ordem:
-
pega-links.ipynb
: executa uma busca textual para encontrar os discursos e salva os URLs onde eles estão armazenados -
pega-pronunciamentos-html.ipynb
: Usa o csv gerados empega-links
para extrair, via BeautifulSoup, os pronunciamentos para os quais existem conteúdo em HTML. Também há a opção de salvar PDFs para pronunciamentos que não foram transcritos, ainda. -
formata-texto.ipynb
: Acessa os arquivos .txt gerados empega-pronunciamentos-html
e usa expressões regulares para extrair apenas os trechos em que determinado deputado – no caso, Bolsonaro – falou. -
buscador-da-ditadura.ipynb
: Usa o arquivo csv gerado emformata-texto
. Define uma série de palavras-chave relacionadas à ditadura militar e verifica quais entradas da planilha contém qualquer um desses termos. O output gerado foi checado manualmente para garantir que não pegamos falsos positivos! -
parseia-json.ipynb
: Usa o arquivo com os discursos já checado manualmente. Transforma esses dados em um arquivo .json para gerar as visualizações de dados.
tables
: Ao executar pega-links
, nesse diretório serão salvos os arquivos .csv com os links que precisam ser raspados.
txts
: Ao executar pega-pronunciamentos-html
, esse diretório será preenchido com os discursos raspados do site da Câmara.
pdfs
: Ao executar pega-pronunciamentos-html
, esse diretório será preenchido com os discursos baixados do site da Câmara. Eles não foram usados nesta análise.
csvs
: Diversos csvs gerados ao longo do fluxo de trabalho são salvos aqui, a saber:
- Os discursos formatados em
formata-texto
- Os discrusos classificados por
buscador-da-ditadura
Além disso, o diretório contém o arquivo DISCURSOS-CHECADOS-MANUALMENTE
, que é a base de dados que alimentou a matéria, e sneakpeek
, que é uma tabela com trechos que foram destacados no corpo da reportagem. Estes foram criados e checados a mão.
jsons
: Os arquivos necessários para gerar a visualização de dados do site.