CoSORT:
Relatórios, Manipulação de
Dados e Data Webhouse Staging
Webhousing
é uma prática de data warehousing
bastante recente, onde um banco de dados de logs
clickstreams é mantido e usado para análises
e relatórios diversos. Estes logs contém
registros de cliques de mouse feitos durante cada
visita do usuário a um determinado website.
Uma vez coletadas estas informações,
elas são analisadas com o objetivo de aperfeiçoar
a navegação e aprimorar a eficácia
do website, analisando anúncios em banners,
conteúdo da página, ofertas de e-commerce,
etc.
Como
o volume de dados "clickstream" é
muito alto, uma ferramenta como o CoSORT
- para manipulação e redução
de dados - é essencial para você que
pretende sumarizar e fazer uso deste volume de informações
de uma forma séria. Existem muitos meios
pelos quais você pode explorar o programa
de controle de sort do CoSORT (o SortCL
), respeitando seus prazos e objetivos de webhousing.
Clique aqui e veja
um estudo de caso (em inglês).
O
SortCL possui lógicas de seleção
de dados (inclusão e omissão) que
podem ser usadas para extrair apenas os registros
necessários e reduzir a massa de dados a
ser transformada .
Você pode misturar dados similares, como endereços
de IP, dentro de um único arquivo de análise.
Através da classificação de
linhas, você pode acelerar agrupamentos
(junções
que combinam registros de dois arquivos ao mesmo
tempo) e cargas
sequenciais de bancos de dados.
O
CoSORT suporta análises, manipulação,
apresentação de dados "clickstream"
em ambientes de data webhousing e relatórios
(incluindo browser-ready), através de metadados
e suporte a processamento nos formatos populares
de armazenamento de clickstream e endereços
de IP :
W3C Extended Log Format (ELF)
O
programa elf2scl do CoSORT traduz descrições
de dados ELF (cabeçalhos) em layouts de campos
do arquivo de definição de dados do
SortCL (.ddf), permitindo que você, com pouquíssimas
instruções, inicie o processamento
destes dados. Uma vez criado a especificação
de job em metadados traduzidos, você pode
instruir o SortCL para processar somente o data
log atual (por exemplo, pular a informação
de cabeçalho) com a declaração
/PROCESS=ELF.
NCSA
Common (Separate/Three-log) Format (CLF)
O
CoSORT fornece três exemplos de metadados
SortCL para os formatos NCSA "common",
"agent" e "referral". Com estes
exemplos, você pode iniciar o processamento
destes arquivos de log com um mínimo de instruções
adicionais.
Endereços
de IP
O
CoSORT pode ordenar, converter e agrupar endereços
IPv4 através do tipo de dado chamado IP_ADDRESS.
Quando classificado, cada sub-campo é comparado
numericamente começando pelo sub-campo mais
a esquerda. Sub-campos subsequentes são comparados
somente se todos os sub-campos anteriores forem
iguais. Por exemplo, o arquivo de entrada abaixo
contém nomes de empresas e seus respectivos
endereços de IP :
cosort.com;216.97.193.101
cnn.com;64.236.24.12
aa.com;144.9.72.134
ibm.com;129.42.19.99
nytimes.com;199.239.136.200
cornell.edu;132.236.56.6
fedex.com;199.81.202.50
|
Para
classificar endereços de IP, utilize o seguinte
script :
/INFILE=ns.txt
/FIELD=(company,pos=1,sep=';',ASCII)
/FIELD=(ip,pos=2,sep=';',IP_ADDRESS)
/SORT
/KEY=ip
/OUTFILE=ns.out
|
A
saída será como segue :
cnn.com;64.236.24.12
ibm.com;129.42.19.99
cornell.edu;132.236.56.6
aa.com;144.9.72.134
fedex.com;199.81.202.50
nytimes.com;199.239.136.200
cosort.com;216.97.193.101 |
|