Sim, participei da minha primeira competição de programação, neste caso, voltada para data science. Para aqueles que – assim como eu, até um tempo atrás (!) – não sabem o que é um um hackathon, aí vai uma ajuda (bem superficial):
Hackathon significa maratona de programação e reúne programadores, designers e outros profissionais, podendo durar um dia ou semanas, sendo totalmente focada no desenvolvimento de soluções e na geração de propostas inovadoras para algum problema pré definido.
O evento que aconteceu logo após a I Imersão de Dados (iniciativa incrível e árdua mas prazerosa), ambos organizados pelo laboratório Insight Lab, da UFC, aos comandos do professor José Macêdo (aproveito para agradecer aos professores Régis Pires, Gustavo Coutinho, Carlos Júnior, Lívia Almada, Ticiana Linhares e Lucas Peres pelo completo comprometimento e entrega durante o curso), foi apelidado de Hackatinho, por ter a curta duração de apenas uma manhã (3h30min mais especificamente).
🚨 Vagas abertas para o nosso grupo de ofertas que vai te fazer economizar MUITO!
O problema colocado foi de uma competição proposta pela plataforma Kaggle, dataset este sobre os crimes acontecidos na cidade de São Francisco, onde o objetivo era a predição da classe “categoria” de um possível crime, baseado em dados como endereço, data, hora, dia da semana, bairro e outros.
[SPOILER] Imprevistos acontecem: faltando simplesmente pouco menos de meia hora para o fim do tempo limite estipulado e quase encerrando o demorado treinamento do nosso modelo, EU e toda minha perfeita pontaria, encosto o joelho no botão da CPU e… computador desligado. 1min de silêncio – todos se olham – você sabe o que pensamos. Religamos o computador e, ninguém sabe como, lá estava nosso .csv salvo !!! Como nem tudo são flores, estávamos usando o Google Colab (por ter GPU haha) e não estávamos salvando constantemente – usuários do Colab, não repitam este erro. Resultado: perdemos boa parte do nosso notebook (.ipynb) , mas o o arquivo de probabilidades estava ali, pronto para ser submetido.
Bom, em suma, após a grande maioria do tempo debruçados nas etapas de pré-processamento, limpeza e higienização dos dados, nós da equipe flycher (eu e os FERAS, diga-se de passagem, Matheus Sampaio e Flávio Carneiro) treinamos o modelo usando o algoritmo XGBoost. Mesmo com parâmetros ainda default (sim, não deu tempo aplicar um grid search, standardization, cross validation e/ou outras possíveis técnicas que se prezem para melhoria dos resultados), alcançamos uma métrica de classificação Log-Loss (2.49728) que nos deixou no TOP 100 do Kaggle para este problema (acredite hahaha) e fomos primeiro lugar !!!
Na foto abaixo estão o Matheus (mais a frente, de cinza), o Flávio (de preto, ao meu lado esquerdo), o professor Régis (ao meu lado direito), o professor Gustavo Coutinho (de branco em uma das pontas) e o professor Lucas Peres (na outra ponta).
Este resultado, todo o conhecimento adquirido na imersão e no hackatinho, a visita ao laboratório (projeção futura e certeza de que ali estarei) e a todo o networking construído, só me deixou mais inspirado e motivado em busca do meu propósito.
Por fim, novamente deixo meu agradecimento à oportunidade dada pelo laboratório Insight Lab e a todos que o compõem, e também a minha equipe Matheus e Flávio, aprendi muito com vocês.
O mindset sempre será o mesmo: É SÓ O COMEÇO !!
*Por Saulo Maia, amante da Ciência de Dados e Mestrando em Engenharia de Telecomunicações