Produtos Soluções
Página Inicial Quem Somos Downloads Jornal CoSORT Contate a CoSORT Brasil

CoSORT: Relatórios, Manipulação de Dados e Data Webhouse Staging

Webhousing é uma prática de data warehousing bastante recente, onde um banco de dados de logs clickstreams é mantido e usado para análises e relatórios diversos. Estes logs contém registros de cliques de mouse feitos durante cada visita do usuário a um determinado website. Uma vez coletadas estas informações, elas são analisadas com o objetivo de aperfeiçoar a navegação e aprimorar a eficácia do website, analisando anúncios em banners, conteúdo da página, ofertas de e-commerce, etc.

Como o volume de dados "clickstream" é muito alto, uma ferramenta como o CoSORT - para manipulação e redução de dados - é essencial para você que pretende sumarizar e fazer uso deste volume de informações de uma forma séria. Existem muitos meios pelos quais você pode explorar o programa de controle de sort do CoSORT (o SortCL ), respeitando seus prazos e objetivos de webhousing. Clique aqui e veja um estudo de caso (em inglês).

O SortCL possui lógicas de seleção de dados (inclusão e omissão) que podem ser usadas para extrair apenas os registros necessários e reduzir a massa de dados a ser transformada . Você pode misturar dados similares, como endereços de IP, dentro de um único arquivo de análise. Através da classificação de linhas, você pode acelerar agrupamentos (junções que combinam registros de dois arquivos ao mesmo tempo) e cargas sequenciais de bancos de dados.

O CoSORT suporta análises, manipulação, apresentação de dados "clickstream" em ambientes de data webhousing e relatórios (incluindo browser-ready), através de metadados e suporte a processamento nos formatos populares de armazenamento de clickstream e endereços de IP :

W3C Extended Log Format (ELF)

O programa elf2scl do CoSORT traduz descrições de dados ELF (cabeçalhos) em layouts de campos do arquivo de definição de dados do SortCL (.ddf), permitindo que você, com pouquíssimas instruções, inicie o processamento destes dados. Uma vez criado a especificação de job em metadados traduzidos, você pode instruir o SortCL para processar somente o data log atual (por exemplo, pular a informação de cabeçalho) com a declaração /PROCESS=ELF.

NCSA Common (Separate/Three-log) Format (CLF)

O CoSORT fornece três exemplos de metadados SortCL para os formatos NCSA "common", "agent" e "referral". Com estes exemplos, você pode iniciar o processamento destes arquivos de log com um mínimo de instruções adicionais.

Endereços de IP

O CoSORT pode ordenar, converter e agrupar endereços IPv4 através do tipo de dado chamado IP_ADDRESS. Quando classificado, cada sub-campo é comparado numericamente começando pelo sub-campo mais a esquerda. Sub-campos subsequentes são comparados somente se todos os sub-campos anteriores forem iguais. Por exemplo, o arquivo de entrada abaixo contém nomes de empresas e seus respectivos endereços de IP :

cosort.com;216.97.193.101
cnn.com;64.236.24.12
aa.com;144.9.72.134
ibm.com;129.42.19.99
nytimes.com;199.239.136.200
cornell.edu;132.236.56.6
fedex.com;199.81.202.50

Para classificar endereços de IP, utilize o seguinte script :

/INFILE=ns.txt
/FIELD=(company,pos=1,sep=';',ASCII)
/FIELD=(ip,pos=2,sep=';',IP_ADDRESS)
/SORT
/KEY=ip
/OUTFILE=ns.out

A saída será como segue :

cnn.com;64.236.24.12
ibm.com;129.42.19.99
cornell.edu;132.236.56.6
aa.com;144.9.72.134
fedex.com;199.81.202.50
nytimes.com;199.239.136.200
cosort.com;216.97.193.101

 


© 2007 CoSORT Brasil / IRI Innovative Routines International, Inc.
mkt@cosort.com.br | Aviso Legal