Skip to content
/ kit Public

Minicurso "Kit de sobrevivência digital para cientistas"

License

CC-BY-4.0, MIT licenses found

Licenses found

CC-BY-4.0
LICENSE-CC-BY.txt
MIT
LICENSE-MIT.txt
Notifications You must be signed in to change notification settings

compgeolab/kit

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

55 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Kit de sobrevivência digital para cientistas

Minicurso de 20h que ensina o uso de algumas ferramentas indispensáveis para o kit de qualquer cientista que lida com dados.

Info
Instrutor Leonardo Uieda
Autores Leonardo Uieda, Arthur Siqueira de Macêdo, Yago Moreira Castro

Este curso foi desenvolvido como parte das atividades de Leonardo Uieda como Embaixador da Rede Brasileira de Reprodutibilidade, uma iniciativa multidisciplinar para promoção de práticas de pesquisa transparentes e confiáveis na comunidade científica brasileira.

Objetivos

Nosso principal objetivo é difundir o uso de ferramentas que nos auxiliam a garantir a reprodutibilidade de nossos experimentos e análises computacionais. Para tanto, ensinaremos noções básicas de diversas ferramentas digitais (shell/bash, git, GitHub, make, LaTeX) que podem poupar esforços e frustrações de pesquisadores, alunos e profissionais que lidam com dados (amplamente definido). Além disso, o uso das ferramentas e práticas ensinadas pode potencializar sua produtividade e a robustez de seus fluxos de trabalho. A fluência no uso destas ferramentas também permitirá a colaboração em projetos de software livre desenvolvidos pela comunidade.

Justificativa

A ciência no século XXI depende cada vez de recursos computacionais, desde estudos inteiros feitos somente utilizando um computador (simulações geodinâmicas ou de galáxias) até a análise de dados experimentais e produção de gráficos. Porém, a maioria dos cientistas não possuem treinamento formal em como manejar fluxos computacionais de processamento de dados complexos, muito menos como desenvolvê-los de forma colaborativa e que garanta a reprodutibilidade dos resultados. Este curso visa providenciar tal treinamento. Nosso foco será ensinar ferramentas que possibilitam a automatização e documentação do processo científico digital, desde a análise inicial dos dados até a produção de um artigo científico. Também discutiremos as definições de ciência aberta e reprodutível e como praticá-la.

Pré-requisitos

Este curso tem como público alvo graduandos, pós-graduandos, pós-doutorandos e profissionais atuantes das áreas de Geofísica, Geologia, Meteorologia, Astronomia ou outras áreas correlatas das Ciências Exatas. Assim, os pré-requisitos são:

  • Conhecimento básico de programação (de preferência na linguagem Python): variáveis, funções, loops, criar gráficos. Os exemplos dados em aula utilizarão scripts e notebooks em Python mas não serão o foco das aulas.
  • Conhecimento básico de análise de dados: regressão linear, médias, desvio padrão. Os exemplos dados em aula utilizarão alguns desses conceitos mas eles não serão o foco das aulas.

Ementa

O programa do curso é:

  1. Uso do terminal e de shell scripts: Em qualquer sistema operacional, aprender a utilizar o terminal pode parecer arcaico mas pode ser extremamente eficaz para executar tarefas repetitivas e automatizar conjuntos de operações que são feitas com frequência. Aprender a navegar em um terminal e utilizar a linguagem Bash abrem portas para várias outras ferramentas úteis.
  2. Controle de versão e colaboração online com git e GitHub: Sistemas de controle de versão, como o git, servem para rastrear mudanças feitas a conjuntos de arquivos. Se utilizadas de maneira correta, podem fornecer fontes de backup e a segurança para alterar o conteúdo de arquivos sem o medo de perder a versão original. Pareados com plataformas online, como o GitHub e GitLab, o uso desses sistemas permite a colaboração em projetos de software, websites e até mesmo artigos, livros e teses.
  3. Automatização de workflows com Make: O programa Make é amplamente utilizado desde a década de 70 para automatizar fluxos de trabalho. O uso mais comum é para a compilação de códigos complexos, mas seu uso vai muito além disso. Com o Make, é possível automatizar tarefas comuns, como rodar scripts para produzir figuras, criar PDFs a partir de código LaTeX, etc.
  4. Criação de artigos, livros e teses com LaTeX: O LaTeX é um "typesetting system", que transforma código em PDFs. Embora seja mais trabalhoso de aprender do que softwares como Word, o fato do texto ser escrito em forma de código possui diversas vantagens: o mesmo texto pode ser usado para gerar documentos com temas diferentes, facilidade na utilização de referências cruzadas, geração automática de bibliografia e citações, numeração automática de equações, figuras e capítulos, etc.
  5. Ciência aberta e reprodutível: O que é ciência aberta e como as ferramentas ensinadas ajudam a garantir a reprodutibilidade dos seus resultados.

O formato do curso conterá:

  • Aulas expositivas: Para ensinar uma ferramenta nova, o ministrante realizará uma demonstração ao vivo com os participantes seguindo em seus próprios computadores.
  • Exercícios: Intercalado com as aulas expositivas, os participantes receberão pequenos desafios e exercícios para serem realizados individualmente e em grupos.
  • Aplicações: Ao longo do curso, desenvolveremos um artigo científico utilizado as ferramentas ensinadas. Ao final, seremos capazes de baixar os dados, gerar os resultados e figuras, e produzir um PDF do nosso artigo com um único comando.

O material

Cada dia do curso teremos alguns produtos que iremos construir passo-a-passo. Os códigos deste repositório são as versões finais do que iremos construir. Estão presentes aqui para termos uma referência que possa ser utilizada por quem precisar.

Ao final do curso, todos terão gerado um repositório para um artigo que contém o código para análise dos dados, o código de um artigo LaTeX e um Makefile que coordenada todo o workflow. Um exemplo de tal repositório é: https://github.com/leouieda/kit-exemplo-2025-02

Como exemplo, utilizamos dados de médias de temperatura média mensal para diversos países. Os dados estão disponíveis https://github.com/compgeolab/temperature-data sob uma licença CC-BY-NC. Estes dados foram derivados dos dados produzidos pelo Berkeley Earth que também estão disponíveis sob a licença CC-BY-NC.

Instalando os softwares no seu computador

Caso queira utilizar seu próprio computador durante o curso, siga as instruções em INSTALL.md para instalar os softwares que utilizaremos durante o curso no seu computador pessoal.

Cronograma

Este cronograma é o que seria ideal cobrir em cada dia do curso. Porém, muitas vezes não é viável cobrir o conteúdo todo. Nesse caso, cortaremos algumas coisas para ter mais tempo de cobrir o essencial da forma necessária.

Dia 1 - O terminal e scripts em Bash

  • Introdução ao curso
  • O terminal e a linguagem Bash
  • Navegando pelo terminal: Diretórios, caminhos, e arquivos (comandos cd, ls, pwd)
  • Manipulando arquivos e diretórios (comandos cp, mkdir, mv, rm e uso de wildcards)
  • Redirecionamento de saída e entrada (comandos cat, wc, head, sort)
  • Exemplo: Calculando o número de arquivos de dados que temos.
  • Loops com for
  • Exemplo: Calculando o número de dados em cada arquivo.
  • Exemplo: Rodando a análise da variação de temperatura para cada arquivo.

Dia 2 - Controle de versão com git e GitHub

  • Para que servem sistemas de controle de versão
  • Configurando o git (comando git config)
  • Criando um repositório (comando git init)
  • Populando o repositório e rastreando mudanças (comandos git add, git status, git commit)
  • Explorando o histórico de mudanças (comandos git diff, git log, git checkout)
  • Cópias remotas do repositório no GitHub (comandos git remote, git push, git pull e chaves SSH de acesso)
  • Adicionando arquivos README.md para documentar seu repositório
  • Exemplo: Criando um repositório para nosso artigo de variações de temperatura

Dia 3 - Automatização de tarefas com GNU Make

  • O problema de dependências em fluxos de trabalho
  • A estrutura geram de um Makefile: alvo, requisitos e comandos
  • O que acontece quando requisitos são atualizados
  • Criando alvos "phony"/fictícios: all, clean
  • Exemplo: Criando alvos para nossa análise de temperaturas

Dia 4 - Escrita científica com LaTeX

  • LaTeX vs Word, qual é a diferença?
  • Estrutura básica de um documento LaTeX: cabeçalho e corpo
  • Usando o comando \documentclass
  • Compilando um documento com o tectonic
  • Configurando o idioma com o pacote babel
  • Adicionando título e autores com \title, \author e \maketitle
  • Criando seções com \section
  • Adicionando citações com Bibtex e o pacote natbib
  • Obtendo referências em formato Bibtex com https://www.doi2bib.org
  • Incluindo figuras com o pacote graphicx
  • Criando variáveis com \newcommand e inserindo resultados no seu documento
  • Exemplo: Escrevendo um artigo sobre as mudanças de temperatura.

Dia 5 - Ciência aberta e reprodutível

  • Explorando os conceitos de ciência aberta e reprodutibilidade de resultados científicos
  • Como as ferramentas ensinadas no curso possibilitam ciência aberta e reprodutível
  • Licenças abertas e como utilizá-las: Creative Commons e Open Source Initiative (OSI)
  • Repositórios de dados: Zenodo, figshare
  • A importância da organização de dados e códigos para facilitar seu uso com ferramentas computacionais
  • Colaborando com outras pessoas utilizando o Git (comandos git branch, git switch, git merge + forks e pull requests)
  • Ambientes virtuais do conda para reproduzir seu o ambiente computacional em outros computadores
  • Exemplo: Adicionando licenças no repositório do artigo
  • Exemplo: Colaborando na escrita do artigo

Bibliografia

O material abaixo complementa e expande o que veremos em aula:

Recomendamos que todos leiam o material antes das aulas e que os estudem a fundo depois das aulas para fixar o conteúdo.

Além disso, aqui estão mais alguns links para videos e exemplos que vão te ajudar no dia-a-dia de um cientista digital:

Para os interessados e mais material tangencial ao curso:

  • Python Challenge. Teste suas habilidades e aprenda como fazer várias coisas com Python que são muito úteis quando lidamos com dados.
  • Learn Vim Progressively. Guia de como aprender a usar o editor de texto Vim. Recomendo instalar o NeoVim que é uma versão mais moderna e compatível com o Vim clássico.
  • Choose a License. Guia de como escolher e usar licenças abertas quando você compartilha código e material online.

Licença

O conteúdo deste curso pode ser livremente utilizado e adaptado dentro das restrições estabelecidas pelas licenças MIT e CC-BY. Por favor, dê atribuição aos autores e inclua um link para esse repositório quando utilizar esse material.

  • O código fonte LaTeX, Python, Bash e Makefile são distribuídos segundo a licença de software livre MIT.
  • O texto da fonte LaTeX e dos arquivos Markdown (*.md) são distribuídos segundo a licença Creative Commons Attribution (CC-BY).