Boa tarde. Fiquei sabendo da iniciativa pelo Prof. Biloti, e gostaria de saber como posso ajudar.
O grupo de Stanford fez essa calculadora epidemiológica fantástica com interface gráfica http://gabgoh.github.io/COVID/index.html
@rlourenco, tô colocando, diariamente, dados atualizados no github. Eu escrevo em R, então o RDA é pra caso alguém também o faça; não sendo esta a sua especialidade, os dados CSV também estão lá. Podemos começar com os modelos mais básicos e evoluir a partir daí.
@GRezende, esse ponto dos falsos negativos (que podemos começar a ver agora com os testes rápidos) e falsos positivos é relevante. Como você sugere que sigamos?
Bom dia. Eu desenvolvi uma plataforma contendo algumas visualizações simples de casos/mortes pelo mundo. Até então, não tinhamos dados seccinoados do Brasil, a idéia é disponiblizar algumas viz que ajudem/falicitem a análise da situação no Brasil (apesar dos casos/mortes estarem subnotificados). Estou atualizando os dados de hora em hora, usando dados disponibilizados pela JHU no GitHub. O código fonte da minha plataforma também está público no meu github.
http://covid19.beluzo.com.br
Olá, bom dia
sou cientista de dados e tenho experiência em modelagem preditiva no R e python. Gostaria de saber como posso ajudar. Muito obrigada
Caros,
uma pergunta. Não sei se este é o forum adequado. Como é o mais ativo, vou colocar aqui, por favor sintam-se a vontade pra replicar onde acharem conveniente. É sobre os testes em massa. A pergunta é: como são feitos os testes? Imagino que amostras são coletadas e são enviadas a um lab. Essas amostras são então testadas para verificar a presença de algum “marcador”, seja genético ou de anticorpos, certo? Havendo o marcador, o teste e positivo. Obviamente, ausente o marcador, o teste é negativo. É um teste binário simples. Portanto, se eu tenho N amostras, faço N testes e tenho os N resultados. Porém, numa situação como aparentemente é a nossa, na qual ainda esperamos muito menos testes positivos do que negativos, esse “algoritmo” não é o mais eficiente. Pode-se, por exemplo, pensar em algo do tipo busca binária. Ex.: comecemos com 2^m amostras. Pegamos um “pouquinho” de cada amostra e misturamos. Testamos a mistura. Dando negativo, já temos 2^m amostras sabidamente negativas. Dando positivo, divide-se as amostras iniciais em 2 grupos iguais e repete-se o procedimento. Supondo, por exemplo, que se espera 1/128 = 2^{-7} de casos positivos numa população, usando-se esse procedimento com 2^4 = 16, devemos ter que apenas 1/8 das “misturas” deem positivo. Assim, com 8 testes poderíamos garantir algo como 7*2^4 = 112 negativos.
Faz sentido isso?
@Benilton_Carvalho eu normalmente desenvolvo em Python. Vou olhar o repositório e começar uma análise exploratória.
@Benilton_Carvalho, ainda não tenho tudo em mente, mas certamente passaria por algum tipo de análise baysiana. Numa macrovisão, os dois conjuntos de perguntas que acredito serem pertinentes com essa informação são:
- Para equipes médicas em geral: Quantos testes rápidos ou com que frequência eles devem ser testados para garantir [dentro de margem de erro] que devam se afastar e qual o impacto deste afastamento se detectado cedo.
- Para o público em geral: Seria possível extrapolar para o conjunto da populaçao nao testada o número de infectados, incluindo assintomáticos? Claro, esse número é dinâmico e, infelizmente, a testagem até agora não está acompanhando em sincronia (ou seja, temos um banco de espera de resultados). Imagino que isso dificulte bastante análise.
Totalmente aberto a críticas, sugestões e comentários.
Parece que sim. Seria uma forma de diminuir o tempo de espera para saber o resultado do teste. Teria ver com os biólogos/médicos a questão de misturar um “pouquinho” de cada amostra. Se isso não causa nenhum problema no teste.
@acaseri, tô deixando os dados (atualizados diariamente) no repositório do github. Sinta-se à vontade pra mandar uns pull requests e vamos seguindo com isso de maneira “federada”. Nos próximos dias, devemos receber uma série de resultados que estão empacados na espera e os números podem mudar significativamente. Logo espero poder compartilhar um dashboard também.
@GRezende, acho que para as suas duas perguntas, a gente deve começar a ser capaz de coletar evidências nas próximas semanas, com os testes rápidos que já foram despachados para o Sudeste (acho que coisa de 200 mil). Entretanto, não acho que, na situação em que o mundo se encontra, estes serão recursos “perenes” para o período da pandemia… Mas penso que estes testes rápidos ajudarão a calibrar o problema das subnotificações.
@asaa, achei legal a linha de pensamento. Mas acho que os testes rápidos possuem uma taxa de falso negativos que não é desprezível… Você consegue ter uma idéia de o que seria a “maior taxa aceitável para falso negativos” que esta idéia suportaria? Vou checar algumas informações com o pessoal da área clínica.
@ Benilton_Carvalho Numa primeira análise mais simples, a “eficiência” do teste não muda muita coisa, i.e., os resultados finais nos dois algoritmos vão depender da mesma forma dessa “eficiência”, supondo “eficiência” como a prob. de acerto. Agora, se esta prob. é diferente nos casos positivos e negativos, a situação fica mais complicada, teria que pensar mais a respeito.
Este tipo de análise é empregada por laboratórios em testes de HIV.
Ótimo, obrigado!
Boa noite,
Eu escrevi um outro pacote em R para importar os dados no endereço https://github.com/Freguglia/datacovidbr
. Tem menos dependências do que o coronabr
e é mais simples porque o objetivo é apenas importar os dados, sem as funcionalidades de gerar gráficos, etc. Tem algumas diferenças no pré-processamento também.
Não consigo contribuir com a modelagem, mas deixo a alternativa disponível e posso adicionar mais conteúdo que possa ajudar conforme for necessário, tanto de novas fontes como pré-processamento.
Oi Victor, estamos olhando seu código e ele está muito interessante. Desde o início da epidemia estamos fazendo uma curadoria de diferentes fontes dos dados e atualizando diariamente. Um dos nossos objetivos iniciais era avaliar a qualidade da reportagem dos dados. Os dados podem ser encontrados aqui: https://github.com/pdpcosta/COVID-19_Brazil
Fiquei curiosa que você está conseguindo fazer o download de planilhas CSV direto do Ministério da Saúde, é isso mesmo? Como você descobriu o caminho? Não conseguimos encontrar com facilidade.
@asaa, fui levantar umas métricas dos testes rápidos que tanto se fala (que são de IgG/IgM)… a taxa de falso negativo pode chegar a 75%; já as de falso positivo, 15%. Talvez, no RT-PCR seja possível.
@VictorFreguglia, excelente! Vou dar uma olhada no seu pacote: a redução de dependência é bem importante nessa fase.
Pessoal, só indicando mais uma base de dados: https://covid19graficos.github.io/relatorio/
É nosso ex-aluno e está postando diariamente no Grupo da Unicamp no Facebook. Já chamei ele para contribuir por aqui tb.
@pdpcosta É isso mesmo! Eu precisei monitorar o tráfego de rede pra ver quais endereços eram acessados quando o usuário clica no botão de Download. Aí deu pra descobrir que, pelo menos no momento, os dados ficam no endereço https://covid.saude.gov.br/assets/files/COVID19_{dt}.csv
, onde {dt} é a data no formato, por exemplo 20200402
para o dia de ontem.
Eu ainda não consegui estimar em qual horário eles inserem os dados pro novo dia ou se isso é automático, então pelo menos nas primeiras horas do dia pode ser que ainda não tenha o arquivo do dia anterior.