sexta-feira, 30 de julho de 2010

Como tornar a Copa do mundo mais disputada

Você sabe quantos países já ganharam a copa? Não é muito difícil fazer a conta, então, vamos lá:


Brasil______|*****

Itália______|****
Alemanha____|***
Argentina___|**

Uruguai_____|**
Espanha_____|*
França______|*
Inglaterra__|*

Apenas oito países são bons de bola,
ou pelo menos é isso que demonstram os títulos mundiais. Nada menos do que 208 países são filiados à Fifa, isso é mais do que o número de países filiados à ONU. Menos de 4% desses países possui algum título. Considerando-se apenas os países que já participaram alguma vez da copa, temos 77 países, dentre esses, estão alguns que nunca mais apareceram e alguns que nem mais existem, outros se fragmentaram e viraram dois. Mas vamos manter esse número de 77 para fazer as contas de desigualdade dos títulos.

De acordo com a tabela abaixo, 90% dos países não possuem nenhum título, 5% possui 16% dos títulos e outros 5% detém 84% dos canecos.

Tabela de Porcentual de países, N° de títulos e fração dos títulos conquistados.

Porque a distribuição de títulos é tão desigual?

Juntos, Brasil e Itália levaram quase metade das copas do Mundo realizadas. A explicação mais rápida é que esses países são bons de futebol. Mas não é só isso. Uma copa do mundo é um fenomeno realmente desigual, isso é uma característica das competições desportivas. Participam vários competidores, geralmente todos bons, porém leva o troféu apenas um. Uma comparação mais completa para o futebol entre países deve considerar também outros torneios mundiais tais como as olimpíadas, copas das confederações e as ligas continentais. Para agregá-las seria preciso ponderar-lhes o valor. Quantas olimpíadas valem uma copa? Por causa disso, é um pouco mais simples, pela disponibilidade, pegarmos os dados apenas da copa.

O índice de Gini para os trofeus em copas é de 0,947, o que é altíssimo, dado que o valor máximo de desigualdade é 1,0. Tal desigualdade máxima só seria possível se apenas um país tivesse ganho todas as copas.


Há mais um motivo para a desigualdade nos resultados da copa e nos resultados esportivos em geral: a prática dos cabeças-de-chave nos grupos.* Um dos intuitos da formação de vários grupos com cabeças-de-chave é torná-los mais equilibrados. Porém, essa é uma prática que favorece muito aos times mais fortes, vou usar um pouco de estatística para argumentar em favor desse ponto:

Imagine o seguinte sorteio aleatório para a copa do Mundo de 2010:

Os quatro primeiros grupos:

Grupo A_______Grupo B ______Grupo C ________Grupo D

Itália _______Argélia ______Nova Zelândia __Eua

Espanha ______Eslovênia ____Sérvia _________Austrália

Gana _________Honduras _____Holanda
_________Brasil
Argentina ____Dinamarca ____México _________Camarões



Os outros quatro grupos:

Grupo E ______Grupo F ______Grupo G ________Grupo H


Uruguay ______Chile ________Costa do Marfim Coréia do Norte

França _______Portugal _____Eslováquia _____Japão

África do Sul Paraguay _____Grécia__________Suíça

Inglaterra ___Coréia do Sul Alemanha _______Nigéria



Repare como há muitos grupos com países mais equilibrados entre si, assim como é possível reparar os grupos da "morte" A e E, que teriam uma probabilidade muito menor de ocorrer na configuração atual de sorteio. Para prosseguirmos com o eventual ganhador, temos que atribuir probabilidades aos times. A probabilidade nos jogos não é igual para todos.

As probabilidades usadas foram:

Brasil_____|0.20
Itália_____|0.16
Alemanha___|0.12

Argentina__|0.08
Uruguay____|0.08
Espanha____|0.04
França_____|0.04
Inglaterra_|0.04

Para criar a matriz de probabilidade usei vitórias dos torneios em copas passadas. (incluíndo a Espanha como campeã). Os times que não ganharam nenhuma copa tiveram todos probabilidade igual a 1%. Essa aplicação de probabilidades pode não ser muito adequada, já que o futebol tem muitas nuances: Holanda com a mesma chance de Honduras? E a Itália que nessa última copa não jogou nada?! O Uruguay que ganhou duas copas há muito tempo? Bem, esse modelo é ilustrativo, não pretende ser completo. Se você tiver um modelo melhor para as probabilidades de cada time pode aplicá-lo, ao final desse exercício eu forneço o código gerador e você pode trocar as probabilidades se quiser.

Todos os demais 24 países sem títulos ficaram com 1% de probabilidade cada um. Sendo assim, simulando um resultado, teriamos classificados para as oitavas:

_____[,1] ___________[,2] _______[,3] _____[,4]
[1,] "Sérvia"_______ "Uruguay" __"Itália" _"Nigéria"
[2,] "Coréia do Sul"_"Eslovênia" "México" _"Austrália"


_____[,5] ___________[,6] _______[,7] _____[,8]
[1,]_"Grécia" _______"França" ___"Holanda" "Nova Zelândia"
[2,]
_"Brasil" _______"Alemanha" _"Espanha" "Argentina"

Vou queimar etapas e não colocar todas as fases aqui, só acrescento o detalhe de que na rotina, depois das quartas-de-finais, todos os times que lá chegaram tem igual probabilidade de vitória.

Ao final do primeiro processo temos que o vencedor da copa foi a França.

Pois bem, a graça dessa proposta está em simular várias copas e ver o que acontece com a distribuição de vencedores e compará-la com a atual. Depois de fazermos esses resultados mais 18 vezes temos:

Itália______|***
Alemanha____|**
Argentina___|**

França______|**
Uruguai_____|**
Brasil______|*
Camarões____|*
Coréia d Sul|*

Dinamarca___|*
Eslovênia___|*
Grécia______|*

Holanda_____|*
Paraguay____|*


Os mesmos 19 títulos, porém agora mais distribuidos, simplesmente pela introdução de duas mudanças simples: A primeira delas é a completa aleatorização dos times selecionados para os grupos. A outra é uma suposição um pouco mais forte de que os times após as quartas de finais tem todos as mesmas probabilidades. Isso se baseia no fato de que mesmo times pequenos crescem muito na fase do mata-mata. Porém, essa suposição pode ser forte demais.

Nessa lista aí de cima há uma série de países inéditos, caso você ache que algum deles (a Dinamarca, por exemplo) é i
nverossímil, você pode trocar pelo inédito de maior simpatia. O fato é que o sorteio aleatório de grupos insere muito mais chances para o surgimento de campeões inéditos.

Caso eu mantivesse as probabilidades até a final (sem igualar probabilidades a partir das quartas), os inéditos apareceriam menos, ainda assim, seriam mais prováveis do que na montagem atual das copas. A idéia por trás é que no sorteio aleatório você deixa de preservar os cabeças-de-chave. No sistema atual o que ocorre é uma espécie de "preservação" dos cabeças-de-chave. Não é garantido que os cabeças passarão para a próxima fase, como se viu que aconteceu com Itália e França nessa última copa. Mas fica claro que a eles se evita de pegar um grupo como "Alemanha", "Argentina", "Itália" e "Brasil". Já pensou?! Em um grupo sangrento desses só passam dois para a próxima fase, antecipa-se a disputa.

Os leitores não precisam ficar preocupados com esses grupos, a probabilidade de ocorrência de um grupo como esse descrito é menor que 0,0001%.


O Brasil na minha simulação teve muita má sorte. No caso, com as probabilidades aplicadas, o Brasil era tão bom candidato a encabeçar a lista quanto a Itália, só não teve sorte nas sequências. Em todos as copas que foram simuladas, o país estava nas oitavas e em quase todas era promovido às quartas, porém, pelo esquema de simulação, a vantagem probabilística do Brasil sumia a partir daí e o país não teve sorte. Repare tembém que os campeões Inglaterra e Espanha não aparecem. Outra coisa a se observar é que a simulação seria mais completa caso tivessemos os países que ficaram de fora em 2010.

Por fim, o principal desse exercício não é mostrar quem ficou com um título, dois ou três, mas sim a comparação dos histogramas aí de baixo:
Vemos que na simulação a distribuição se concentra bem mais perto dos times com apenas um título. O índice de Gini cai para um pouco menor que 0,9. Ainda alto pois estamos considerando todos os países que foram alguma vez para a copa.


Essa sugestão de grupos completamente aleatoriamente escolhidos insere uma opção ao mundo do futebol e ainda uma interpretação sobre o esporte: Seria válido termos grupos totalmente aleatórios e desconsiderar o esforço que os times fizeram para ficar em primeiro lugar de suas ligas? Em verdade, quando se faz a mudança aqui proposta, intui-se que os países classificados em cada continente tem o mesmo e igual direito de disputar a copa, independente de ter ficado em primeiro, em quarto ou quinto (na repescagem). Tudo depende das intenções de como conduzir uma competição no esporte. Em um exemplo mais radical, na fórmula 1, seria a mesma coisa que não contar as marcações de tempo para o grid e ter todos os concorrentes largando de forma alinhada.

Conhecendo a fórmula 1, isso não resolveria muita coisa para as pequenas equipes que continuariam chegando atrás. No entanto, no caso do futebol e de outros esportes coletivos pode ser uma boa idéia. Uma idéia parecida com algo que já ocorre nas eliminatórias da natação, nesse esporte as eliminatórias vão cortando os candidatos mais lentos, nem por isso, ser o primeiro (ou até bater record) nas eliminatórias dá direito a largar na frente na prova final.


É isso, para quem quiser jogar com suas próprias simulações basta baixar o "R", freeware para estatística, e selecionar a rotina que vou deixar nos comentários deste post. Uma observação: na parte das oitavas eu fiz as simulações de jogos uma a uma jogando as probabilidades descritas, isso foi feito para cada dupla de países classificado na segunda fase. Exemplo, Brasil x Inglaterra:

>sample(c("Brasil","Inglaterra"), 1, prob=c(0.20,0.04))

# Probabilidade de 20% para o Brasil e 4% para Inglaterra.

A partir das quartas, as probabilidades são iguais para todos os times. Divirtam-se!

*
A copa nem sempre contou com grupos organizados da forma que temos hoje.

2 comentários:

I'm a Rock disse...

Aqui no comentário segue a rotina básica utilizada no R para gerar resultados aleatórios para a última copa:

times <- c("Africa do Sul", "Alemanha", "Argélia", "Argentina", "Austrália", "Brasil", "Camarões", "Chile", "Coréia do Norte", "Coréia do Sul", "Costa do Marfim", "Dinamarca", "Eslováquia", "Eslovênia", "Espanha", "Estados Unidos", "França", "Gana", "Grécia", "Holanda", "Honduras", "Inglaterra", "Itália", "Japão", "México", "Nigéria", "Nova Zelândia", "Paraguay", "Portugal", "Sérvia", "Suíça", "Uruguay")

probabilidades <- c(0.01, 0.12, 0.01, 0.08, 0.01, 0.2, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.04, 0.01, 0.04, 0.01, 0.01, 0.01, 0.01, 0.04, 0.16, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.01, 0.08)

Grupos <- paste("Grupo", LETTERS[1:8], sep=" ")

Copa <- matrix(c(times, probabilidades), nrow=32)

sorteio <- sample(1:32, 32, replace=FALSE)

sorteio_copa_time <- NULL
for (i in 1:32){
sorteio_copa_time[i] <- matrix(Copa[sorteio[i],], nrow=4)
}

sorteio_copa_prob <- NULL
for (i in 1:32){
sorteio_copa_prob[i] <- matrix(Copa[sorteio[i],2], nrow=4)
}

I'm a Rock disse...

# Continuação:

Grupos_copa <- matrix(sorteio_copa_time, ncol=8, byrow=TRUE, dimnames=list(1:4,Grupos))

Grupos_copa_p <- matrix(sorteio_copa_prob, ncol=8, byrow=TRUE, dimnames=list(1:4,Grupos))

# Oitavas

oitavas <- matrix(0, nrow=2, ncol=8)

# Essa etapa vc pode rodar isso ou # fazer na mão como eu fiz. Se #simplemente rodar vc vai jogar #fora as probabilidades já nas #oitavas:
for(i in 1:8){
oitavas[,i] <- sample(Grupos_copa[,i], 2, replace=FALSE, prob=Grupos_copa_p[,i])
}
oitavas

# Quartas
quartas <- matrix(0, nrow=1, ncol=8)
for(i in 1:8){
quartas[,i] <- sample(oitavas[,i],1, replace=FALSE)
}
quartas

# Semi
quartas <- matrix(quartas, ncol=2, nrow=4)
semi <- matrix(0, nrow=2, ncol=2)
for(i in 1:2){
semi[,i] <- sample(quartas[,i],2, replace=FALSE)
}
semi
# Final
sample(semi[1,],1)