Reunindo tudo o que se fala na Câmara dos Deputados.
Os dados extraídos através do Fala Camara estão disponíveis para download aqui.
🔻 Esse tutorial assume que você possui a linguagem Python 3.0+ instalada em sua máquina, bem como as bibliotecas Scrapy, Beautiful Soup e Pandas.
Inicialmente, clone esse repositório.
$ git clone https://github.com/alvesmatheus/fala-camarada.gitAcesse o diretório do repositório clonado.
$ cd fala-camaradaA seguir, antes de obter os discursos das comissões da Câmara dos Deputados, você precisará extrair a agenda de eventos destas comissões. Para isso, execute o comando a seguir.
$ scrapy crawl coletor-eventos-comissoes -o data/raw/agenda_comissoes.csvCom a agenda de eventos das comissões já extraída, substitua a variável ano no comando abaixo por um valor entre 1995 e 2021 (inclusos) e execute-o. Os dados extraídos estarão disponíveis no diretório fala-camarada/data/raw/.
$ scrapy crawl coletor-discursos-comissoes -o data/raw/discursos_comissoes_<ano>.csv -a year=<ano>[Opcional] Quando a extração dos discursos de comissões for concluída para todos os anos de seu interesse, execute o script de limpeza de dados disponibilizado. Os dados produzidos estarão disponíveis no diretório fala-camarada/data/ready/.
$ python scripts/clean_data.py [Opcional] O script run-collectors.sh pode ser utilizado para executar, sequencialmente, todos os coletores referentes ao período supracitado e, em seguida, a limpeza dos dados extraídos.