Um excelente programa de estatística para Linux (e Windows) é o R, que parece difícil no começo, mas
que, depois de um certo tempo, permite que se trabalhe com muito mais
produtividade do que usando outros softwares, como o SPSS.
Vantagens do R:
Possui centenas de análises estatísticas em dezenas de pacotes que podem
ser carregados opcionalmente. Os softwares comerciais com interface gráfica
fácil de usar geralmente possuem apenas algumas dezenas de funções
acessíveis com o mouse, sendo preciso comprar módulos adicionais para poder
executar funções extras.
Permite a criação de objetos e funções que ficam disponíveis na Área de
Trabalho.
É um programa de linha de comando, uma linguagem de programação com
muitas facilidades para a manipulação de variáveis e análise de dados.
Frequentemente, usar a linha de comando no R será mais rápido do que
executar a mesma tarefa manipulando o mouse com agilidade em outro
programa.
Com o R é possível fazer qualquer tipo de manipulação dos dados ou
análise estatística. Um programa comercial com interface gráfica amigável
será mais fácil de usar no início, mas um dia poderá ser necessário fazer
algo que não está disponível nos menus clicáveis. Nesse dia, será preciso
usar programas em linha de comando. O próprio SPSS se torna mais poderoso se
forem usados scripts
É software livre. A alternativa mais comum entre os sociólogos,
cientistas políticos e antropólogos, o SPSS, custa cerca de R$ 3.000,00 e a
versão de demonstração somente funciona por duas semanas.
Desvantagens do R:
A flexibilidade e rapidez do R tem um preço. Todos os objetos ficam
carregados na memória e algumas operações realizam a criação automática de
vários objetos. Ou seja, bancos de dados muito grandes precisam ser
subdivididos antes de serem carregados no R. Outra solução é o uso do pacote
RMySQL.
Seria útil para os cientistas sociais se um data.frame
possuísse o atributo rótulo das variáveis ou, alternativamente, se um
vetor possuísse o atributo rótulo. O pacote Hmisc
tenta amenizar o problema ao fornecer funções que facilitam a criação de
atributos como esses, mas essa ainda não é uma solução ideal.
Começar a usar o R não é fácil. É preciso bastante perseverança e
motivação para aprender os comandos básicos e disposição para ler as páginas
de ajuda e os tutoriais.
Um programa com limitações em relação ao R, mas que não exige a memorização de
comandos, é o gretl e, para
análises simples, um programa em modo texto bastante leve é o statist.
O R é capaz de abrir arquivos do SPSS, mas se o banco de dados for muito
grande e seu computador não tiver muitos GB de memória ram, será melhor usar o
pspp, como no script sav2dat que converte um
arquivo .sav num formato usável por outros programas. Bancos de dados imensos
são comuns nas ciências sociais. O World Values
Survey, por exemplo, é distribuído como um arquivo .sav de 302
MB compactado no formato .zip (46 MB). Esse banco contém
dados de dezenas de países, incluindo o Brasil, e interessa a estudiosos de
diversas áreas, como sociologia, ciência política, antropologia, economia e
psicologia.
Vários bancos de dados interessantes podem ser encontrados no Consórcio de Informações Sociais.
Entretanto, será preciso convertê-los para o formato do R. A forma mais fácil
de fazer isso é usando um script, como esse que cria um arquivo .RData do
banco de dados da Pesquisa Social Brasileira a
partir do original .sav: criarPesbRData.R