Simples o exercício. Aprender a captar, coletar, filtrar e editar grandes dados de informação, rapidamente, utilizando a API do Twitter e o twitter_to_csv que também funciona com o .json . Quando isso fluir várias serão as possibilidades.

Os resultados do exercício de captar dados durante o segundo tempo do inesquecível Brasil 1 x 7 Alemanha, o Mineiraço, dão a pinta de mais de 2 milhões de tweets que conseguimos captar, muito pouco perto dos 35,6 milhões que quebraram o recorde em interação e publicação. Durante o primeiro tempo a idéia ganhou forma, no segundo ela entrou em campo. A partir de agora vamos descobrir o que mais é possível fazer com estes dados além de dar boas risadas lendo alguns caracteres bem humorados, esperançosos.

No caminho alguns links nos informam a quantidade média de tweets no dia 7.295. Escolhemos o site http://www.internetlivestats.com/ que apresenta um detalhe impressionante: o mundo todo assiste (85.379) vídeos no Youtube, enquanto meio mundo (44.641) pesquisa qualquer coisa no Google. Isso por segundo, é mole?

Seguem os comandos que aprendi com o @fititnt, mestre nos comandos hobin hood. Tudo isso no terminal, dentro de uma pasta em meu desktop.

# Utilize o terminal e instale o twitter_to_csv e se precisar use o sudo

gem install twitter_to_csv

# Comando utilizado para extrair os tweets

twitter_to_csv --api-key <your twitter api key> --api-secret <your twitter api secret> --access-token <your twitter access token> --access-token-secret <your twitter access token secret> --json out.json --filter "brasil,brazil,alemanha,germany,BRAvsGER,fifa,#BRA,#GER,futebol,neymar,julio cesar,maicon,david luiz,dante,marcelo,luiz gustavo,fernandinho,hulk,oscar,bernard,fred,maxwell,dani alves,daniel alves,hernanes,victor,willian,jo,ramires,jefferson,henrique,paulinho,neuer,lahm,boateng,hummels,howedes,khedira,schweinsteiger,muller,kroos,ozil,klose,weidenfeller,mertesacker,podolski,zieler,grosskreutz,schurrle,gotze,kramer,draxler,ginter,durm,scolari"

# Comando usado para gerar a planilha .CSV a partir dos dados brutos

twitter_to_csv --csv out-todos.csv --fields id,created_at,user.id,user.screen_name,lang,text,retweeted_status.id --replay-from-file out-todos.json

# Ver os tweets que contenham a palavra Dilma e gravá-los em um arquivo

grep dilma out.csv > apenas-linhas-com-dilma.csv

# Concatenar/juntar todos os arquivos em um só

cat out.json out2.json out3.json > out-todos.json

 

Saiba mais sobre o twitter_to_csv em:
http://bestgems.org/gems/twitter_to_csv

http://www.ruby-doc.org/gems/docs/t/twitter_to_csv-0.1.2/README_markdown.html


0 comentário

Deixe uma resposta