Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Novo spider]: Arraial do Cabo - RJ #1261

Open
1 task done
trevineju opened this issue Sep 4, 2024 · 7 comments · May be fixed by #1275
Open
1 task done

[Novo spider]: Arraial do Cabo - RJ #1261

trevineju opened this issue Sep 4, 2024 · 7 comments · May be fixed by #1275
Assignees
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)

Comments

@trevineju
Copy link
Member

trevineju commented Sep 4, 2024

URL da forma de consulta

https://portal.arraial.rj.gov.br/diarios_oficiais_web

Período de publicação

é o atual local de publicação, porém confuso

Formato da publicação

Os diários oficiais são publicados em PDF (texto)

Conteúdo da publicação

Diário único: documento publicado é uma edição completa do diário oficial

Detalhes do site de publicação

Possui paginação

Observações

O raspador para rj_arraial_do_cabo parou de funcionar em 2024-08-22. O motivo foi migração da URL.

Parece que os diários do site anterior foram migrados, porém a data que consta no site não é a data do documento, mas sim a data em que foi adicionado ao site. Isso fica mais evidente ao navegar na paginação (por exemplo, na página 7) todos os diários são de 16/agosto, enquanto, ao abrir os documentos, aparece outra data.

Não existe uma issue aberta para esse município

  • Eu verifiquei que não existe uma issue aberta ou marcada com incompatible para o mesmo município.

Info

Município retirado de produção até a manutenção do raspador

@trevineju
Copy link
Member Author

@ogecece o que você acha que fazemos aqui?

podemos invalidar esse município pela falta de consistência das datas ou então - como temos toda a série histórica anterior - poderíamos ignorar isso e considerar que, nesse site, os raspadores começam em 2024-08-22.

@ogecece
Copy link
Member

ogecece commented Sep 4, 2024

Seria bem ineficiente pra raspagem completa, mas a busca com data início + data fim pro mesmo dia retorna os diários daquele dia direitinho. Desse jeito dá pra integrar

@trevineju
Copy link
Member Author

inicialmente, tive a impressão que o filtro por data não estava funcionando também, mas realmente... Beleza, então, obrigada!

@trevineju
Copy link
Member Author

e @slfabio este é um dos municípios que vocês acompanham? (fiquei em dúvida se adicionava ao quadro ou não)

@trevineju trevineju added priority Issue endereça algo prioritário maintenance Demanda de manutenção labels Sep 4, 2024
@slfabio
Copy link
Collaborator

slfabio commented Sep 5, 2024

e @slfabio este é um dos municípios que vocês acompanham? (fiquei em dúvida se adicionava ao quadro ou não)

É sim, @trevineju. Do Estado do Rio de Janeiro, o único que não acompanhamos é a capital.
Se quiser, pode adicionar no quadro.

@trevineju trevineju added the spider Adiciona robô raspador para município(s) label Sep 19, 2024
@jjpaulo2
Copy link
Contributor

Acho que não vai ser uma boa se confiar no filtro de datas do site. As vezes esse filtro não funciona da forma esperada.

Por exemplo, essa publicação do dia 28 Sep 2023 tá sendo exibida na listagem geral.

image

Mas se eu filtrar apenas os registros do dia 28/09/2023, não vem nada.

image

URL com filtro:

https://portal.arraial.rj.gov.br/diarios_oficiais_web?filter%5Btext%5D=&filter%5Bdaterange%5D=28%2F09%2F2023+-+28%2F09%2F2023

jjpaulo2 added a commit to jjpaulo2/querido-diario that referenced this issue Sep 21, 2024
@jjpaulo2 jjpaulo2 linked a pull request Sep 21, 2024 that will close this issue
12 tasks
@jjpaulo2
Copy link
Contributor

Subi o PR #1275 com essa implementação.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
maintenance Demanda de manutenção priority Issue endereça algo prioritário spider Adiciona robô raspador para município(s)
Projects
Status: em revisão
Development

Successfully merging a pull request may close this issue.

4 participants