Última alteração: 2015-08-13
Resumo
A World Wide Web é um dos sistemas mais complexos e dinâmicos já construídos. Seu uso generalizado justifica sua importância e a necessidade de seu estudo. O objetivo deste trabalho foi identificar qual seria o tamanho apropriado de uma amostra para representar especificamente a Web brasileira. A Web foi modelada por meio de grafos como uma rede complexa. Várias métricas foram calculadas para amostras com número crescente de páginas. A medida de referência para os valores das métricas foi um estudo de uma coleta de dados contendo quase setecentos milhões de páginas. Analisamos oito amostras de tamanhos entre um milhão e cento e vinte e oito milhões de páginas.Os resultados indicam que alcançamos, com trinta e dois milhões de páginas, valores próximos aos obtidos pela análise total da coleta, o que equivale a menos de cinco porcento da coleta original. Tendo em vista que, em geral, as coletas são analisadas em sua totalidade, este resultado é importante porque indica que as coletas podem ser menores, portanto processadas mais rapidamente, gerando economia de recursos computacionais sem perda de precisão. No entanto, esses valores são válidos apenas para a Web brasileira.