Nesta segunda-feira, 18, a Lanlink, empresa de tecnologia da informação, apresentou, em Brasília, a ferramenta de sumarização de processos criada exclusivamente para atender aos requisitos de um Chamamento Público para o Poder Judiciário brasileiro.
Dentre os objetivos do projeto, estava a criação de protótipos com recursos de inteligência artificial para geração de resumos para as classes processuais Recurso Extraordinário (RE) e Agravo em Recurso Extraordinário (ARE). O Chamamento Público forneceu aos participantes um conjunto de dados composto por peças processuais – todas públicas – necessárias para a elaboração, em formato PDF, bem como um conjunto mínimo de informações necessárias no resumo.
De acordo com Sérgio Ricardo de Freitas Oliveira, diretor da BU de Business Transformation da Lanlink, para desenvolver a solução foram utilizadas tecnologias de ponta, tendo como núcleo do trabalho o Azure OpenAI Service da Microsoft, que entrega alguns modelos GPT, entre eles o GPT-4 Turbo, que suporta contextos extensos de até 128 mil tokens por chamada. “Só para ter uma ideia de tamanho, esse tipo de modelo suporta entradas de até cerca de 20 mil palavras. Além disso, para aprimorar o processo de OCR em arquivos PDFs, nós integramos a solução Microsoft Azure Document Intelligence, que é uma ferramenta que, dentre muitas outras utilidades, consegue também extrair textos de imagens, PDFs, etc”, explica, também sendo eficaz para casos mais complexos.
🚨 Vagas abertas para o nosso grupo de ofertas que vai te fazer economizar MUITO!
O processo de programação foi realizado com a linguagem Python por ser um formato de código popular entre os cientistas de dados, o que possibilitou o processamento de arquivos PDFs mais complexos e volumosos com muita eficiência e precisão, garantindo a geração de sumários de alta qualidade. “O processo foi mantido intencionalmente simples, refletindo nossa crença de que a simplicidade é a forma mais alta de sofisticação”, relata Sérgio Ricardo.
A criação da interface do usuário tem como base o framework chamado Streamlit, que disponibiliza uma página web a partir de um código Python, ajudando principalmente na rapidez de desenvolvimento, desde a possibilidade de testar o fluxo de aplicação, um processo ou fazer um protótipo muito mais rápido.
Como funciona?
A aplicação desenvolvida pela Lanlink extrai e armazena temporariamente os arquivos em PDF, que devem ser enviados para a plataforma em formato zip, facilitando o manuseio de múltiplos documentos. Com o uso das APIs do Azure Document Intelligenece, os PDFs são transformados em arquivos de texto. Por fim, estes arquivos são processados através de chamadas recursivas das APIs da OpenAI, gerando um sumário completo e principalmente consistente entre os arquivos, que fica disponível na própria aplicação para consultas futuras sem que haja necessidade de novas chamadas à API da OpenAI. “Isso contribui para que a gente possa evitar custos adicionais caso haja necessidade de visualização do sumário de um mesmo processo já verificado anteriormente”, diz Sérgio Ricardo.
Na prática, o arquivo txt é convertido para um arquivo de sections, isso porque os serviços da OpenAI, dependendo do modelo que se use, vai ter um limite, por isso a solução escolhida pela Lanlink é o GPT-4 Turbo de 128k. “Nos casos em que o documento tiver muito mais, cerca de 22 mil palavras, por exemplo, o documento não será processado por inteiro, então a gente cria sessões no mesmo chamado que irão gerar um relatório final do processo com todas as informações necessárias”, aponta.
O relatório final apresenta disponibiliza um resumo com informações diversas sobre o processo, por exemplo, datas importantes, os próprios dados do processo, quem são as partes, o tipo de processo, conclusão etc.
O diretor da BU de Business Transformation da Lanlink, Sérgio Ricardo, ressalta que a aplicação foi construída com base em experiências exitosas da empresa em outras áreas. “A forma como a gente estruturou essa aplicação também já tem sido desenvolvida em outras iniciativas, e tem dado muito certo. Realmente é uma solução fantástica, que não depende de muita coisa diante dessa arquitetura enxuta”, conclui.