Estudar dados consolidados do Ministério da Saúde #140

turicas · 2020-05-20T12:09:53Z

O Ministério da Saúde está disponibilizando dados por município (clicar no link "Arquivo CSV"). Antes de alterarmos nossa rotina de captura de dados (para decidir se adotamos ou não esses), precisamos fazer algumas verificações para entender as diferenças com relação aos dados que já estamos coletando das SES, como:

Checar o histórico
Checar consistência de atualização (todo dia? mudam formato?)
Checar consistência de atualização

Algumas pessoas já me relataram que os dados estão levemente atrasados e que há mudança no formato (com perda de dados), como é possível ver nesse tweet (print aqui).

Para automatizar a captura desse arquivo (que, na verdade, é um XLS), temos que pegá-la no resultado da requisição para https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalGeral (se essa URL for dinâmica, temos que acessar o painel principal para pegá-la) na chave response["results"][0]["arquivo"]["url"] (response é o JSON de resposta decodificado). Segue um exemplo do arquivo para hoje: HIST_PAINEL_COVIDBR_19mai2020.xlsx.zip

Essa issue poderia também ser resolvida de maneira automatizada, consolidando os microdados (quando tivermos eles) e, por isso, está relacionada às seguintes issues:

IMPORTANTE: quando possível, publique trechos de código que foram desenvolvidos para fazer as análises/comparações.

The text was updated successfully, but these errors were encountered:

endersonmaia · 2020-05-20T14:36:56Z

eu automatizei o download dos arquivos PDF e CSV (microdados) de Alagoas com um script rodando periodicamente no GitHub Actions e já faz commit no próprio repositório

acho válido para garantirmos que estamos baixando os arquivos e para avaliar modificações feitas,

https://github.com/endersonmaia/covid19-alagoas/tree/master/sintomas

https://github.com/endersonmaia/covid19-alagoas/blob/master/.github/workflows/download-microdados.yaml

poderíamos fazer algo parecido no Brasil.IO (tem que ver os limites do GitHub)

turicas · 2020-05-20T14:48:09Z

eu automatizei o download dos arquivos PDF e CSV (microdados) de Alagoas com um script rodando periodicamente no GitHub Actions e já faz commit no próprio repositório

@endersonmaia muito bom! Eu acho que podemos manter os arquivos em outro lugar (no storage do Brasil.IO, que é compatível com S3) e uma listagem com os links/datas. Mas para isso precisaríamos de um script que baixa esses dados (daí rodar o script automaticamente e subir no S3 podemos automatizar via GitHub ou de outra forma).

horta · 2020-05-21T17:23:44Z

O seguinte python script pega a url do dia para fazer o download.

# Install: pip install helium
# Run: python fetch_consolidados_ms.py
import json
import sys
from time import sleep

from helium import S, click, kill_browser, start_chrome, wait_until
from selenium import webdriver
from selenium.common.exceptions import TimeoutException

opts = webdriver.ChromeOptions()
opts.set_capability("loggingPrefs", {"performance": "ALL"})
driver = start_chrome("https://covid.saude.gov.br/", options=opts)
wait_until(S("ion-button").exists)
sleep(3)
click("Arquivo CSV")


def process_browser_log_entry(entry):
    response = json.loads(entry["message"])["message"]
    return response


URL = None


def fetch_download_url():
    global URL

    browser_log = driver.get_log("performance")
    events = [process_browser_log_entry(entry) for entry in browser_log]
    responses = [event for event in events if "Network.response" in event["method"]]

    for r in responses:
        if "params" not in r:
            continue
        params = r["params"]
        if "response" not in params:
            continue
        if "url" not in params["response"]:
            continue
        url = params["response"]["url"]
        if "HIST_PAINEL_COVIDBR" in url:
            URL = url
            return True

    return False


try:
    wait_until(fetch_download_url, timeout_secs=15)
except TimeoutException as e:
    print("Failed!")
    print(e)
else:
    print("Success: {}".format(URL))
finally:
    kill_browser()

if URL is None:
    sys.exit(1)

Por examplo, executando aqui no terminal:

$ python fetch_consolidados_ms.py                                                                                                                             
Success: https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/a3d153fe0e95aa7e0d3a585c317a1dc6_HIST_PAINEL_COVIDBR_20mai2020.xlsx

Eh util?

geamaro · 2020-05-22T00:38:38Z

Há um erro terrível nesses dados, que observei para o Estado de Roraima (precisa confirmar se aconteceu a mesma coisa para outros estados): a data que consta como registro é um dia após o efetivo registro na Secretraria de Saúde do Estado. Isso porque baseia-se na data do Boletim Epidemiológico, que sai no dia seguinte pela manhã, sendo que os dados foram informados no dia anterior.

fernandascovino · 2020-05-22T03:04:33Z

O código dos municípios na tabela do MS consolidada não bate com o código IBGE. Por exemplo, Brasília está com o código 530010.0 - falta a última casa (na tabela do Brasil.IO, corretamente, está 5300108.0). Quando fui comparar os códigos em ambas, achei mais de 3500 municípios com esse problema!

endersonmaia · 2020-05-22T12:51:15Z

O código dos municípios na tabela do MS consolidada não bate com o código IBGE. Por exemplo, Brasília está com o código 530010.0 - falta a última casa (na tabela do Brasil.IO, corretamente, está 5300108.0). Quando fui comparar os códigos em ambas, achei mais de 3500 municípios com esse problema!

O IBGE tem 6 dígitos, o 7o dígito é o dígito verificador.

Esse .0 aí no exemplo que vc enviou, provavelmente é algum erro de importação, q considerou o valor como número com precisão , ao invés de texto ou número inteiro.

rfsaldanha · 2020-05-22T13:09:12Z

Um outro detalhe. No arquivo Excel do MS, alguns códigos de município só tem zeros após o código da UF (ex. 110000, 310000, 290000) e o município não tem nome.

Isso é uma codificação interna do próprio DataSUS. Significa "Município ignorado da UF".

fernandascovino · 2020-05-22T13:48:46Z

@endersonmaia obrigada pelo aviso! Estou acostumada a a ver sempre com o verificador, tinha até dado uma procurada com os códigos de 6 dígitos no Google mas não tinha nenhuma referência ao município ou IBGE. Vou examinar novamente trincando o número! :) (sim, o .0 é só porque o valor foi lido como float)

horta · 2020-05-23T21:43:33Z

notebook no github: https://github.com/horta/covid19/blob/master/Consolidados%20MS.ipynb
Interativo: https://mybinder.org/v2/gh/horta/covid19/master?filepath=Consolidados%20MS.ipynb

Alguem em o arquivo do dia 21? *_HIST_PAINEL_COVIDBR_21mai2020.xlsx?

fmplim · 2020-05-24T22:39:12Z

@fernandascovino , @endersonmaia viram que no arquivo atual do MS foi acrescentado o dígito verificador no código do ibge só de 19/5 para trás, e que nessas datas os nomes dos municípios ficaram vazios? Ou seja, para cada cidade, dependendo do período tem ou não o dígito verificador e tem ou não o nome do município.

horta · 2020-05-25T01:41:21Z

Oi @fmplim, tem como disponibilizar os arquivos? Gostaria de compara-los tambem.

horta · 2020-05-25T12:02:51Z

Gostaria de hospedar todos os arquivos aqui: https://covid19br.s3-sa-east-1.amazonaws.com/index.html

misaelbr · 2020-05-25T12:33:21Z

Gostaria de hospedar todos os arquivos aqui: https://covid19br.s3-sa-east-1.amazonaws.com/index.html

Baixei, do histórico de versões do Drive, os arquivos desde o dia 14 até o do dia 21. Do dia 13 não tenho.

Só precisa ajustar a nomenclatura aí dos que estou compartilhando contigo.

https://drive.google.com/drive/folders/1Ztw1WwDXkkINFCpAt_EJFn09cYnMP6AQ?usp=sharing

horta · 2020-05-25T12:57:49Z

Obrigado, @misaelbr ! Eu mantive o nome original dos arquivos porque aquele hash que esta no nome deve ser alguma forma deles garantirem que o arquivo do dia nao foi alterado.

@turicas , nao seria melhor que armazenassemos todos os arquivos, de cada dia, de forma central?

Acho que seria interessante que juntassemos o maior numero desses arquivos. De preferencias todos os arquivos que foram disponibilizados ate hoje.

Atualizado: https://covid19br.s3-sa-east-1.amazonaws.com/index.html

misaelbr · 2020-05-25T13:12:16Z

@horta, ah sim.. =)
no meu caso, eu uso o arquivo pra leitura dos dados diários. Aí quando sai a versão nova, regravo em cima do anterior, numa pasta sincronizada com o Drive(que mantém um histórico de versões num mesmo arquivo).
Me evita alteração de script.

horta · 2020-05-25T13:21:28Z

Legal =)

Estou usando o seguinte script para fazer download do dia:

#/usr/bin bash

# Requires: [jq](https://stedolan.github.io/jq/)

url=$(curl 'https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalGeral' \
    -H 'Accept: application/json, text/plain, */*' \
    -H 'Accept-Language: en-GB,en;q=0.5' \
    --compressed -H 'X-Parse-Application-Id: unAFkcaNDeXajurGB7LChj8SgQYS2ptm' \
    -H 'Origin: https://covid.saude.gov.br' -H 'Connection: keep-alive' \
    -H 'Referer: https://covid.saude.gov.br/' -H 'Pragma: no-cache' -H 'Cache-Control: no-cache' \
    -H 'TE: Trailers' -s | jq ".results[0].arquivo.url" | xargs)

(set -x; curl -O "$url")

endersonmaia · 2020-05-25T14:16:47Z

eu automatizei o download dos arquivos PDF e CSV (microdados) de Alagoas com um script rodando periodicamente no GitHub Actions e já faz commit no próprio repositório

@endersonmaia muito bom! Eu acho que podemos manter os arquivos em outro lugar (no storage do Brasil.IO, que é compatível com S3) e uma listagem com os links/datas. Mas para isso precisaríamos de um script que baixa esses dados (daí rodar o script automaticamente e subir no S3 podemos automatizar via GitHub ou de outra forma).

@turicas tem algum bucket específico para enviar isso ?

quais os dados que precisamos ter para fazer esse upload ?

misaelbr · 2020-05-25T16:56:47Z

Há um erro terrível nesses dados, que observei para o Estado de Roraima (precisa confirmar se aconteceu a mesma coisa para outros estados): a data que consta como registro é um dia após o efetivo registro na Secretraria de Saúde do Estado. Isso porque baseia-se na data do Boletim Epidemiológico, que sai no dia seguinte pela manhã, sendo que os dados foram informados no dia anterior.

Então, esse problema também ocorre no RS. O que tenho percebido é que nem sempre os estados enviam os dados para o MS em tempo hábil. MS publica as infos, com os casos referentes ao dia anterior. Por isso a discrepância.

fmplim · 2020-05-27T22:28:55Z

Oi @fmplim, tem como disponibilizar os arquivos? Gostaria de compara-los tambem.

@horta, quais arquivos, exatamente? Usei os datasets do MS e do Brasil.IO para a comparação.

horta · 2020-05-27T23:33:22Z

Os arquivos *_HIST_PAINEL_COVIDBR_26mai2020.xlsx. A ideia desse issue eh ter uma ideia se esses arquivos diarios sao confiaveis (nao mudam de formato, por ex.). Nao eh?

https://covid19br.s3-sa-east-1.amazonaws.com/index.html

Sou inexperiente nesse assunto, entao eh provavel que eu nao tenha entendido algo.

fmplim · 2020-05-28T23:06:24Z

Os arquivos *_HIST_PAINEL_COVIDBR_26mai2020.xlsx. A ideia desse issue eh ter uma ideia se esses arquivos diarios sao confiaveis (nao mudam de formato, por ex.). Nao eh?

https://covid19br.s3-sa-east-1.amazonaws.com/index.html

Sou inexperiente nesse assunto, entao eh provavel que eu nao tenha entendido algo.

A, sim, mas eu só tenho dos dias 15 e 23 de maio. Vi que esses vc já tem, certo, @horta ?

horta · 2020-05-28T23:24:28Z

Certo =)

horta · 2020-06-02T22:54:47Z

Adicionei interatividade para comparar os arquivos de dias diferentes. Os campos de fato mudam.

https://hub.gke.mybinder.org/user/horta-covid19-lnnwe0kp/notebooks/covid.saude.gov.br.ipynb

Cell -> Run all

horta · 2020-06-03T09:10:14Z

Tem um erro na coluna populacaoTCU2019 para a cidade de Manaquiri, AM. Deve ter alguma relacao com o campo que mostro na imagem acima que encontrei no site do IBGE.

Vou (tentar) entrar em contato com o ministerio da saude para informa-los.

horta · 2020-06-03T09:10:55Z

Esse erro encontrei apenas para o arquivo de 02 de Junho ate o momento.

turicas · 2020-06-03T20:45:13Z

https://twitter.com/wlcota/status/1266863591032074242

fmplim · 2020-06-04T23:14:41Z

Adicionei interatividade para comparar os arquivos de dias diferentes. Os campos de fato mudam.

https://hub.gke.mybinder.org/user/horta-covid19-lnnwe0kp/notebooks/covid.saude.gov.br.ipynb

Cell -> Run all

@horta tá dando 404 essa url.

horta · 2020-06-05T00:05:04Z

https://mybinder.org/v2/gh/horta/covid19.git/master?filepath=covid.saude.gov.br.ipynb

Esse eh o link correto. Obrigado @fmplim !

endersonmaia · 2020-06-06T22:28:30Z

o MS tirou do ar para colocar uma versão 2.0, com menos informações agora

no link a seguir, o @flpms consegue capturar os dados que não estão visíveis no portal, mas ainda são acessíveis

https://github.com/flpms/covid-numeros-br

baixei a planilha completa, e os dados estavam lá com histórico por município

misaelbr · 2020-06-08T23:19:18Z

Já era. Reescreveram o JSON da resposta. Não vem mais o endereço da planilha gerada.

'results': [{'arquivo_srag': {'__type': 'File',
'name': '0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv',
'url': 'https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv'},
'createdAt': '2020-03-25T16:28:25.593Z',
'dt_atualizacao': '08/06/2020 18:30',
'objectId': 'HXxFBK2BTx',
'texto_rodape': 'HIST_PAINEL_COVIDBR_08jun2020.xlsx',
'total_confirmado': '162.699',
'total_letalidade': '6,8%',
'total_obitos': '11.123',
'updatedAt': '2020-06-08T22:15:20.402Z',
'versao': 'v2.0'}]}

o MS tirou do ar para colocar uma versão 2.0, com menos informações agora

no link a seguir, o @flpms consegue capturar os dados que não estão visíveis no portal, mas ainda são acessíveis

https://github.com/flpms/covid-numeros-br

baixei a planilha completa, e os dados estavam lá com histórico por município

geamaro · 2020-06-08T23:27:28Z

Dados completos agora disponíveis via OpenDataSUS

…

--- George Amaro (pelo iPhone)

On 8 Jun 2020, at 19:19, Misael Bandeira Silveira ***@***.***> wrote: Já era. Reescreveram o JSON da resposta. Não vem mais o endereço da planilha gerada. 'results': [{'arquivo_srag': {'__type': 'File', 'name': '0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv', 'url': 'https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv'}, 'createdAt': '2020-03-25T16:28:25.593Z', 'dt_atualizacao': '08/06/2020 18:30', 'objectId': 'HXxFBK2BTx', 'texto_rodape': 'HIST_PAINEL_COVIDBR_08jun2020.xlsx', 'total_confirmado': '162.699', 'total_letalidade': '6,8%', 'total_obitos': '11.123', 'updatedAt': '2020-06-08T22:15:20.402Z', 'versao': 'v2.0'}]} o MS tirou do ar para colocar uma versão 2.0, com menos informações agora no link a seguir, o @flpms consegue capturar os dados que não estão visíveis no portal, mas ainda são acessíveis https://github.com/flpms/covid-numeros-br baixei a planilha completa, e os dados estavam lá com histórico por município — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

endersonmaia · 2020-06-08T23:41:28Z

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado
ElasticSearch API (índice geral e por estado)

misaelbr · 2020-06-09T00:05:59Z

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado

ElasticSearch API (índice geral e por estado)

Só microdados. Não tem dados consolidados por data. Uma pena. A planilha diária era bem completinha.

endersonmaia · 2020-06-09T00:11:49Z

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado

ElasticSearch API (índice geral e por estado)

Só microdados. Não tem dados consolidados por data. Uma pena. A planilha diária era bem completinha.

baixa o CSV, importa no Excel, e faz um pivot, PRONTO!

misaelbr · 2020-06-09T01:29:27Z

Tá desatualizado. Conferi os do RS, que são os que me interessa, e tem uma defasagem enorme no número de óbitos notificados.
Aparentemente nem todos os casos são lançados no sistema de vigilância.

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado

ElasticSearch API (índice geral e por estado)

Só microdados. Não tem dados consolidados por data. Uma pena. A planilha diária era bem completinha.

baixa o CSV, importa no Excel, e faz um pivot, PRONTO!

endersonmaia · 2020-06-09T01:52:09Z

Quando eu estava começando a acostumar com a ideia de transformar o XLSX em CSV e deixar o histórico registrado num repositório, o Ministério da Saúde chega e bagunça tudo novamente.
...
Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

veja aqui : https://opendatasus.saude.gov.br/dataset/painel-da-covid-19

segundo a descrição, estes são os dados utilizados no painel do site https://covid.saude.gov.br

marceloalencar · 2020-06-09T02:11:00Z

9a8daec1f0d2382c1491985437c876d7_HIST_PAINEL_COVIDBR_07jun2020.xlsx

Esse arquivo também foi entregue ontem, também para registro:

O prefixo no nome das planilhas é MD5 do MD5 do arquivo n vezes? Não tive paciência pra fazer algum script e testar esta hipótese.

Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

Acredito que não se trata de um hash:
FilesController.js

misaelbr · 2020-06-09T11:17:29Z

9a8daec1f0d2382c1491985437c876d7_HIST_PAINEL_COVIDBR_07jun2020.xlsx

Esse arquivo também foi entregue ontem, também para registro:

e4e6dfb57dcbb3c74c68cf89e816e805_HOJE_PAINEL_COVIDBR_07jun2020.xlsx

319d7e57d6216c0b168708e1c42b2025_HIST_PAINEL_COVIDBR_08jun2020.xlsx

O prefixo no nome das planilhas é MD5 do MD5 do arquivo n vezes? Não tive paciência pra fazer algum script e testar esta hipótese.
Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

Acredito que não se trata de um hash:
FilesController.js

É um hash, mas provavelmente de um hexa aleatório. O que complica. Se fosse um Hash MD5, gerando aqui e lá, daria a mesma coisa.

D166er · 2020-06-09T20:14:22Z

9a8daec1f0d2382c1491985437c876d7_HIST_PAINEL_COVIDBR_07jun2020.xlsx

Esse arquivo também foi entregue ontem, também para registro:

e4e6dfb57dcbb3c74c68cf89e816e805_HOJE_PAINEL_COVIDBR_07jun2020.xlsx

319d7e57d6216c0b168708e1c42b2025_HIST_PAINEL_COVIDBR_08jun2020.xlsx

O prefixo no nome das planilhas é MD5 do MD5 do arquivo n vezes? Não tive paciência pra fazer algum script e testar esta hipótese.
Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

Acredito que não se trata de um hash:
FilesController.js

É um hash, mas provavelmente de um hexa aleatório. O que complica. Se fosse um Hash MD5, gerando aqui e lá, daria a mesma coisa.

32 dígitos, acabou me induzindo a achar que era MD5. De qualquer forma, o Ministério da Saúde não disponibilizou a bendita planilha do dia 08 pelo https://opendatasus.saude.gov.br/dataset/painel-da-covid-19. Sacanagem. Tão forçando a gente a buscar os dados de cada secretaria estadual, ou que garimpemos os arquivos que contém SRAG também?

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)

https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

marceloalencar · 2020-06-09T20:18:50Z

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)

https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Então voltaram a publicar, antes arquivo era null para o xlsx e só estava disponível o arquivo csv de srag.

marceloalencar · 2020-06-09T20:22:57Z

O site voltou com os dados e gráficos!

misaelbr · 2020-06-09T20:25:30Z

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)
https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Ué, pois voltaram atrás e recolocaram o link no retorno do JSON. Ontem, às 22hrs, o retorno era:

{
  "results": [
    {
      "objectId": "HXxFBK2BTx",
      "total_confirmado": "162.699",
      "createdAt": "2020-03-25T16:28:25.593Z",
      "updatedAt": "2020-06-09T00:13:48.065Z",
      "total_obitos": "11.123",
      "versao": "v2.0",
      "dt_atualizacao": "08/06/2020 18:30",
      "total_letalidade": "6,8%",
      "arquivo_srag": {
        "__type": "File",
        "name": "0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv",
        "url": "https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv"
      },
      "texto_rodape": "HIST_PAINEL_COVIDBR_08jun2020.xlsx"
    }
  ]
}

STF determinou a divulgação completa dos dados, como era feito até o dia 04 de junho.

D166er · 2020-06-09T20:33:38Z

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)
https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Ué, pois voltaram atrás e recolocaram o link no retorno do JSON. Ontem, às 22hrs, o retorno era:
{
  "results": [
    {
      "objectId": "HXxFBK2BTx",
      "total_confirmado": "162.699",
      "createdAt": "2020-03-25T16:28:25.593Z",
      "updatedAt": "2020-06-09T00:13:48.065Z",
      "total_obitos": "11.123",
      "versao": "v2.0",
      "dt_atualizacao": "08/06/2020 18:30",
      "total_letalidade": "6,8%",
      "arquivo_srag": {
        "__type": "File",
        "name": "0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv",
        "url": "https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv"
      },
      "texto_rodape": "HIST_PAINEL_COVIDBR_08jun2020.xlsx"
    }
  ]
}
STF determinou a divulgação completa dos dados, como era feito até o dia 04 de junho.

O STF podia mandar eles aprenderem a diferença entre csv e xlsx!!!!

misaelbr · 2020-06-09T20:36:30Z

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)
https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Ué, pois voltaram atrás e recolocaram o link no retorno do JSON. Ontem, às 22hrs, o retorno era:
{
  "results": [
    {
      "objectId": "HXxFBK2BTx",
      "total_confirmado": "162.699",
      "createdAt": "2020-03-25T16:28:25.593Z",
      "updatedAt": "2020-06-09T00:13:48.065Z",
      "total_obitos": "11.123",
      "versao": "v2.0",
      "dt_atualizacao": "08/06/2020 18:30",
      "total_letalidade": "6,8%",
      "arquivo_srag": {
        "__type": "File",
        "name": "0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv",
        "url": "https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv"
      },
      "texto_rodape": "HIST_PAINEL_COVIDBR_08jun2020.xlsx"
    }
  ]
}
STF determinou a divulgação completa dos dados, como era feito até o dia 04 de junho.
O STF podia mandar eles aprenderem a diferença entre csv e xlsx!!!!

hahaha...
Uso Pandas, então tanto faz. O importante são os dados... =D

D166er · 2020-06-09T20:46:14Z

O pandas é um canivete suíço para analise de dados (ainda estou aprendendo). mas até o pandas separa as duas coisas. pd.read_csv() e pd.read_excel()

milkway · 2020-06-14T13:04:19Z

O endereço não retorna mais o arquivo atualizado... alguma informação?

milkway · 2020-06-14T13:11:40Z

O endereço não retorna mais o arquivo atualizado... alguma informação?

Erro meu.. o endereço agora é
"https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalGeralApi"

jluizg · 2020-09-19T01:01:56Z

Boa noite pessoal.

Acho sensacional o trabalho de vocês, em especial o do Turicas, pela iniciativa. Então, parabéns a todos que se envolveram com este projeto.

Dito isso, vou me apresentar. Não sou programador, não sou analista de dados e nem sou da área. Sou apenas um curioso que gosta de "tentar" coisas nessa área quando sobra um tempo.

Meados de abril eu montei uma planilha Google Sheets para visualizar os dados da minha maneira. E com isso, treinar o uso da planilha para manipular os dados.

Nesta planilha eu comecei importando os dados totalizados de 15 ou 20 países através do covid19api.com. Depois comecei a pegar os números diários do Brasil baixando a planilha do Ministério da Saúde. Quando deu aquele vai e vem com relação à mudança do tipo de divulgação diária eu comecei a pesquisar fontes alternativas e descobri o brasil.io. Enquanto eu mudava a minha planilha destino para adaptar ao novo formato, o site do ministério voltou a publicar os dados completos. Daí eu deixei a opção de usar os "dados oficiais" ou Brasil.io.

Tudo isso está funcionando muito bem. Os dados do brasil.io eu pego com a função =IMPORTDATA("https://brasil.io/dataset/covid19/caso_full/?place_type=state&format=csv"). Faço isso uma vez por dia. (espero não estar fazendo nada que prejudique o fornecimento dos dados) . Os dados do Ministério da Saúde eu pego da planilha baixada todos os dias. Mas eu gostaria de deixar todos os processos online, não quero baixar no PC e depois copiar e colar na planilha online. Outro problema é o tamanho da planilha. Eu só trabalho com os dados ESTADUAIS, porque por município o volume é muito grande. Só pra comentar, apesar de já ter brincado com Python, não tenho conhecimento suficiente.

Já li toda a conversa de vocês, testei algumas coisas e não consegui resolver meu problema.

Como os comentários aqui estão desatualizados, minha esperança é de que tenha surgido algo novo. Existe uma forma de obter os dados do Ministério sem baixar a planilha?

Ou, caso alguém tenha conhecimento com Google Sheets/Scripts, saberia dizer se a minha ideia é viável. Quero criar um script que pegue a planilha diária no Ministério, salve na minha pasta do Google Drive e a partir daí o script extrairia somente as linhas referentes ao números daquele dia. Ou, melhor ainda, fizesse esta atualização diária sem salvar a nova planilha no meu drive.

Isso eu já estou tentando e, quando tiver algum progresso ou descubra que não é possível, comento aqui.

Agradeço qualquer ajuda.

Bom trabalho a todos.

Abraço

José Luiz

jluizg · 2020-09-19T03:16:55Z

Olá José, Eu criei um repositório utilizando as automações do próprio Github para ter a planilha disponibilizada do Ministério da Saúde automaticamente convertida em CSV. Segue o link do repositório: https://github.com/4llan/covid19-br-csv E segue o link que sempre terá a última atualização dos dados em formato CSV: https://github.com/4llan/covid19-br-csv/raw/master/covid19-br.csv Espero que os links lhe sejam úteis, ou pelo menos a informação de você poder automatizar o processo sem ter que utilizar uma máquina física para tanto. Abraço, Allan
…
On Fri, Sep 18, 2020 at 10:02 PM jluizg @.***> wrote: Boa noite pessoal. Acho sensacional o trabalho de vocês, em especial o do Turicas, pela iniciativa. Então, parabéns a todos que se envolveram com este projeto. Dito isso, vou me apresentar. Não sou programador, não sou analista de dados e nem sou da área. Sou apenas um curioso que gosta de "tentar" coisas nessa área quando sobra um tempo. Meados de abril eu montei uma planilha Google Sheets para visualizar os dados da minha maneira. E com isso, treinar o uso da planilha para manipular os dados. Nesta planilha eu comecei importando os dados totalizados de 15 ou 20 países através do covid19api.com. Depois comecei a pegar os números diários do Brasil baixando a planilha do Ministério da Saúde. Quando deu aquele vai e vem com relação à mudança do tipo de divulgação diária eu comecei a pesquisar fontes alternativas e descobri o brasil.io. Enquanto eu mudava a minha planilha destino para adaptar ao novo formato, o site do ministério voltou a publicar os dados completos. Daí eu deixei a opção de usar os "dados oficiais" ou Brasil.io. Tudo isso está funcionando muito bem. Os dados do brasil.io eu pego com a função =IMPORTDATA(" https://brasil.io/dataset/covid19/caso_full/?place_type=state&format=csv"). Faço isso uma vez por dia. (espero não estar fazendo nada que prejudique o fornecimento dos dados) . Os dados do Ministério da Saúde eu pego da planilha baixada todos os dias. Mas eu gostaria de deixar todos os processos online, não quero baixar no PC e depois copiar e colar na planilha online. Outro problema é o tamanho da planilha. Eu só trabalho com os dados ESTADUAIS, porque por município o volume é muito grande. Só pra comentar, apesar de já ter brincado com Python, não tenho conhecimento suficiente. Já li toda a conversa de vocês, testei algumas coisas e não consegui resolver meu problema. Como os comentários aqui estão desatualizados, minha esperança é de que tenha surgido algo novo. Existe uma forma de obter os dados do Ministério sem baixar a planilha? Ou, caso alguém tenha conhecimento com Google Sheets/Scripts, saberia dizer se a minha ideia é viável. Quero criar um script que pegue a planilha diária no Ministério, salve na minha pasta do Google Drive e a partir daí o script extrairia somente as linhas referentes ao números daquele dia. Ou, melhor ainda, fizesse esta atualização diária sem salvar a nova planilha no meu drive. Isso eu já estou tentando e, quando tiver algum progresso ou descubra que não é possível, comento aqui. Agradeço qualquer ajuda. Bom trabalho a todos. Abraço José Luiz — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#140 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAV3RZKKPWCA5IEAOKSEZXDSGP7JDANCNFSM4NF4CKYQ .

Opa! Valeu. Amanhã eu vou testar.

Mas, já abri o link e vi o conteúdo do .CSV . Acredito que vai funcionar perfeitamente. Apenas vou criar critérios para pegar apenas os dados por UF, para não trazer o conteúdo completo. E acho que também vou criar um menu pra pegar uma cidade específica. Fiquei animado. Assim que testar eu deixo um comentário.

Muito obrigado.

jluizg · 2020-09-19T15:08:22Z

@4llan eu uso o Google Sheets/Scripts porque, pra mim, é o contato mais fácil com a programação. Comecei a usar porque estou muito envolvido com criptomoedas e consigo criar alguns controles e tirar relatórios dali.

Mas agradeço muito a dica do Data Studio. Já tinha visto algumas publicações a respeito mas não tinha buscado informações. Agora, com a sua dica, vou começar a estudar. Acaba sendo um incentivo e, com algo concreto (dados COVID), fica bem mais fácil testar.

Obrigado

Abraço

jluizg · 2020-09-21T02:09:56Z

@4llan testei importar o CSV. O problema é a limitação nº do Google Planilhas: quantidade de linhas. Vou insistir numa solução por mais um tempo. Independentemente disso, vou dar uma olhada no Data Studio.

jluizg · 2020-10-02T15:27:41Z

MS mudou novamente a disponibilização dos dados via API, dessa vez zipando o arquivo no formato csv

Voltou para .CSV, sem zipar!

This was referenced May 20, 2020

Estudar microdados do Ministério da Saúde #139

Open

Estudar microdados das SES #123

Open

turicas added automation data-scraping microdados Novos dados labels May 20, 2020

endersonmaia closed this as completed May 25, 2020

endersonmaia reopened this May 25, 2020

Estudar dados consolidados do Ministério da Saúde #140

Estudar dados consolidados do Ministério da Saúde #140

Comments

turicas commented May 20, 2020 • edited Loading

endersonmaia commented May 20, 2020

turicas commented May 20, 2020

horta commented May 21, 2020

geamaro commented May 22, 2020

fernandascovino commented May 22, 2020 • edited Loading

endersonmaia commented May 22, 2020

rfsaldanha commented May 22, 2020

fernandascovino commented May 22, 2020

horta commented May 23, 2020

fmplim commented May 24, 2020

horta commented May 25, 2020

horta commented May 25, 2020

misaelbr commented May 25, 2020 • edited Loading

horta commented May 25, 2020

misaelbr commented May 25, 2020

horta commented May 25, 2020

endersonmaia commented May 25, 2020

misaelbr commented May 25, 2020 • edited Loading

fmplim commented May 27, 2020

horta commented May 27, 2020

fmplim commented May 28, 2020

horta commented May 28, 2020

horta commented Jun 2, 2020

horta commented Jun 3, 2020

horta commented Jun 3, 2020

turicas commented Jun 3, 2020

fmplim commented Jun 4, 2020

horta commented Jun 5, 2020

endersonmaia commented Jun 6, 2020

misaelbr commented Jun 8, 2020

geamaro commented Jun 8, 2020 via email

endersonmaia commented Jun 8, 2020

misaelbr commented Jun 9, 2020

endersonmaia commented Jun 9, 2020

misaelbr commented Jun 9, 2020

endersonmaia commented Jun 9, 2020 • edited Loading

marceloalencar commented Jun 9, 2020 • edited Loading

misaelbr commented Jun 9, 2020

D166er commented Jun 9, 2020

marceloalencar commented Jun 9, 2020 • edited Loading

marceloalencar commented Jun 9, 2020

misaelbr commented Jun 9, 2020

D166er commented Jun 9, 2020

misaelbr commented Jun 9, 2020

D166er commented Jun 9, 2020

milkway commented Jun 14, 2020

milkway commented Jun 14, 2020 • edited Loading

jluizg commented Sep 19, 2020

jluizg commented Sep 19, 2020

jluizg commented Sep 19, 2020

jluizg commented Sep 21, 2020

jluizg commented Oct 2, 2020

turicas commented May 20, 2020 •

edited

Loading

fernandascovino commented May 22, 2020 •

edited

Loading

misaelbr commented May 25, 2020 •

edited

Loading

misaelbr commented May 25, 2020 •

edited

Loading

endersonmaia commented Jun 9, 2020 •

edited

Loading

marceloalencar commented Jun 9, 2020 •

edited

Loading

marceloalencar commented Jun 9, 2020 •

edited

Loading

milkway commented Jun 14, 2020 •

edited

Loading