Introdução
Este foi um projeto muito interessante, pois foi criado para ajudar com um problema da vida real de um amigo meu! Ele administra alguns canais no YouTube e, interessado em aprimorar a otimização de SEO, estava passando por um processo de acessar manualmente alguns canais de conteúdo semelhantes, espiando o código-fonte das páginas e juntando todas as tags que cada vídeo havia adicionado. Essas tags são algo que fica oculto na UI do site, então era necessário ir ao código-fonte para fazer isso.
Naquele momento, percebi que poderia usar minhas habilidades de web scraping para ajudar a agilizar e automatizar esse processo.
Criando o script
Em projetos anteriores, eu já havia utilizado a biblioteca BeautifulSoup para fazer web scraping de formas semelhantes, então foi natural usar a mesma para este problema. Nosso objetivo era reunir as tags de um conjunto de URLs diferentes e agrupá-las em uma planilha semelhante, para que pudesse ser facilmente analisada. Algo específico que me chamou a atenção foi a ideia de ver juntas todas as tags de todos os vídeos selecionados e verificar quais apareciam com mais frequência. Isso poderia ser feito manualmente, mas decidi usar meu conhecimento em manipulação de dados para aprimorar ainda mais esse novo processo.
Usando pandas, criei uma coluna adicional, concatenando todas as outras, e criei outra para acompanhar a contagem de cada linha. Dessa forma, o número de vezes que cada tag apareceu naquela coluna poderia ser verificado instantaneamente. No entanto, isso levantou outra preocupação da minha parte.
Naquele momento, visualizar tudo em um editor de planilhas era muito simples, mas se alguém quisesse utilizar esses dados de outras maneiras, essas colunas adicionais tornavam muito complicado manipular os dados em algo como o pandas. Considerando isso, decidi dar ao usuário a opção de optar por não adicionar essas colunas se não quiser.
Conclusão
Esse projeto foi um desafio muito bacana de usar tudo que estudei para ajudar alguém com problemas da vida real. Desse ponto em diante, este projeto poderia ser expandido para criar dados mais interessantes com mais informações da página. Se alguém quiser usar o script, experimentar o código-fonte ou até mesmo criar outra versão “forkando” o projeto, ele está disponível no GitHub.