Rede com elencos de filmes de sucesso

themoviedb

Tenho tentado gerar exemplos interessantes de redes para utilizar em exercícios da disciplina de Análise de Redes Sociais que estou ministrando este semestre em parceria com o professor Alisson Brito.

Um exemplo que acabei de montar é uma rede formada pelos elencos dos 250 filmes mais bem avaliados no IMDb.

A seguir apresento o ferramental utilizado e as conclusões obtidas com esse “experimento”.

A primeira parte da tarefa consiste em obter a listagem dos filmes a serem processados e extrair os dados dos filmes.

O IMDb apresenta uma listagem do 250 filmes mais bem avaliados de todos os tempos porém aparentemente não há uma API para permitir o acesso programático aos dados dos filmes. Porém, para felicidade geral da nação, existe uma alternativa para conseguir estes dados: TheMovieDB, que também tem uma lista com os 250 filmes mais bem avaliados no IMDb. :-)

O TheMovieDB fornece uma API gratuita e bem simples que permite a garimpagem dos dados disponíveis em sua base.

A primeira parte da tarefa foi obter a listagem dos filmes a serem processados. Utilizei o seguinte comando em shell para extrair os identificadores dos filmes da lista do TheMovieDB

Para gerar o grafo eu considerei cada integrante do elenco de um filme como um nó que está conectado de forma bidirecional aos nós de todos os demais membros do elenco. Dessa forma, cada filme dá origem a um grafo totalmente conectado. Depois fiz o cadastro no site para obter uma API KEY e escrevi um programinha que recebe como entrada o arquivo com a lista de identificadores de filmes no TheMovieDB, utiliza a API deles para extrair os dados dos filmes e imprime uma descrição do grafo formado pelos elencos de todos os filmes listados na linguagem GML.

Os atores que atuaram em mais de um filme na lista representam os pontos de conexão entre os diferentes grafos, formando a rede de atores.

De posse do GML, foi só utilizar o Gephi para gerar uma visualização legal para a rede e obter algumas estatísticas sobre a sua estrutura.

A rede resultante, exibida de forma interativa abaixo, tem um total de 3898 nós (atores) e 77.617 arestas (colaborações em filmes).

É possível ver que há um componente gigante no grafo. De fato, os elencos dos 250 filmes deram origem a uma rede com 24 componentes conectados (sub-grafos), incluindo um componente gigante que agrega 3585  (92%) dos 3898 atores que participaram de pelo menos um dos filmes incluídos.

Os nós tem grau médio 39.8, o que representa o tamanho médio do elenco de cada um dos filmes incluídos.  Porém, temos alguns pontos muito fora da curva, como Gary OldmanMichael CaineMorgan Freeman e Cillian Murphy, que atuaram com cerca de 400 outros atores, considerando apenas os elencos desses 250 filmes.

O tamanho dos nós é proporcional ao PageRank dos atores, o que dá uma noção da importância de cada um deles na rede como um todo. Podemos observar que nomes consagrados se destacam entre os atores que participaram destes filmes.

O grafo acima apresenta os nomes  dos atores que obtiveram os maiores valores para o PageRank na rede analisada. Entre os 10 primeiros temos: Robert De Niro, James Stewart, Samuel L. Jackson, Morgan Freeman, , Gary Oldman, Hugo Weaving, Al Pacino e Michael Caine.   Porém, aparecem também John RatzenbergerBess Flowers (quem???). :-)

Um lembrete, essa análise foi feita com a lista dos 250 filmes mais bem avaliados do IMDb atualizada no dia 9 de Setembro. Essa lista é dinâmica e seus resultados ao repetir este experimento podem ser diferentes dos que eu obtive.

O arquivo da rede no formato nativo do Gephi e o GML original estão disponíveis para quem também quiser brincar!

Para fins de comparação, realizei um estudo semelhante com os 100 filmes pior avaliados no IMDb. Neste caso, os resultados foram bem diferentes, como mostra a rede abaixo.

imdbbotton100

 

Neste caso, não houve a formação de um componente gigante. Os 718 atores presentes nos elencos dos 100 filmes deram origem a uma rede que possui 69 componentes conectados (sub-grafos) e o maior deles reúne apenas 65, o que representa apenas 9% do grupo.

Para essa rede o grau médio foi de 14.7, o que pode indicar elencos bem menores e diversificados que os dos filmes melhor avaliados.

O tamanho dos nós também é proporcional ao PageRank dos atores na rede e é possível observar alguns nomes proeminentes se destacando como Paris Hilton, Carmen Electra, Naomi Campbell, Tony Cox e outras celebridades de igual envergadura.

Esse estudo é só um arranhão na imensa quantidade de informação que pode ser extraída com uma análise mais aprofundada destes e dos demais dados disponíveis sobre filmes e outras obras audio-visuais.