CoSORT
: A Ferramenta ETL
Otimiza,
Combina e Acelera a Integração de Dados
e Tarefas de Staging
A
sua linguagem Sort Control Language (SortCL)
é capaz de fazer uma limpeza pesada nos maiores
data warehouses existentes. Especialmente desenhado para
trabalhar com flat files, executa as funções
de extract - transform - load (ETL), combinando em uma
única execução as capacidades de:
extração, limpeza, classificação,
joins, formatação, cálculos, conversão,
agregação, sequencias e geração
de relatórios.
Clique
aqui para visualizar
diagramas estratégicos e táticos que identificam
e ilustram onde e como o CoSORT
é aplicado em Data Warehouse.
Com
uma linguagem familiar, data definition language (DDL),
você define dicionários de dados centralizados
(repositórios de metadados) para reduzir os tempos
de criação e tamanhos de scripts, assim
como facilita a criação de tabelas por SQL,
cargas e comparações de arquivos de metadados.
Nos job scripts o uso da linguagem de manipulação
de dados (DML) pode conter e/ou referenciar os layouts.
Os jobs do SortCL podem rodar de linhas de comandos, em
scripts batch, de programas, e via interface Java GUI
entre plataformas.

Extração
(Select)
A
maioria dos dados operacionais em companhias comerciais
e do governo, residem internamente em arquivos de dados
sequenciais (flatfiles), em tabelas de banco de dados
relacionais no mainframe, ou são importados de
fitas ou outros meios. Estas bases de dados de histórico
de clientes, inventários e pedidos, são
otimizados para queries ad hoc e transações,
não extrações. Partindo destas bases
para uma tabela de larga escala ou dump de dados em um
flat file, é o melhor caminho para começar.
A SortCL aceita múltiplos arquivos de entrada,
ou blocos de registros através de canais (pipes)
padrões para executar inner e outer joins, mais
seleção vertical (condicional) em registros
para estes processos.
Limpeza
(Filtro)
A
SortCL suporta lógicas condicionais extensivas
(if-then-else) para filtrar 'verticalmente' (include/omit)
e reformatar registros em um sort, join ou report. Também
pode filtrar registros 'horizontalmente' através
de comandos de processa/ignora para de-dupes e byte/record/header-specific.
Por exemplo, você pode especificar para a SortCL
quais valores de campos são válidos para
gerar somente saídas sem estes valores.
Classificação
(Sort)
A
SortCL alavanca a co-rotina de sort paralelo do CoSORT
(que dispara diretamente em múltiplas CPUs de servidores
Unix e Wintel) para prover a reorganização
mais rápida possível do seu banco de dados.
Você pode especificar qualquer número de
campos chaves fixos e/ou variáveis. As saidas classificadas
são imediatamente disponíveis para cruzamento
de joins e outros processos.

Comparações
(Join)
A
SortCL está três anos na frente da concorrência
em tecnologia join, e seus joins 20 vezes mais rápidos
que em banco de dados ! Comparando dois arquivos pré-ordenados
ao mesmo tempo e velocidde de I/O, a SortCL usa sintaxes
SQL inner e outer joins, para produzir uma saida mesclada
baseada em condições específicas.
Uso de scripts adicionais para comparar três ou
mais tabelas. Você pode até mesmo eliminar
resultados de inner joins providos de um outer join, e
eliminar e reformatar registros nulos !
Formatação
(Remapeamento)
Como
a SortCL mapeia posição de campos fixos
ou variáveis da entrada para a saida, você
pode reposicionar, re-dimensionar, e converter tipos de
dados. Você pode tratar cabeçalhos, inserindo
ou alterando para a saida, inserir caracteres formatados
e variáveis de ambiente - incluindo comandos de
markup para relatórios web. Também pode
executar expressões matemáticas (cálculos-cruzados)
entre campos de dados, assim como em valores agregados,
derivar resumos detalhados de campos!

Conversão
Enquanto
campos de posições fixas ou variáveis
são mapeados da entrada para a saida, seus dados
podem ser reposicionados, redimensionados e convertidospor
tipos, ex. de EBCDIC para ASCII, ou decimal compactado
para campo com sinal ou decimal zonado. Muitas formas
binárias do mainframe são indesejadas para
propagação de dados, 'mining' e acessos
em sistemas abertos (é por isso que o SortCL processa
CSV). A SortCL resolve este problema no mesmo passo de
outras funções, eliminando a necessidade
de outra ferramenta de conversão.
Agregação
(Agrupamento)
A
SortCL pode contar, sumarizar (totais), tirar média,
e achar os valores mínimos e máximos baseado
em condições de quebras inter e intra registros,
para produzir um sumário sofisticado de EIS, ou
análises "drill-down" em múltiplas
classes de dados. Também unicamente capaz de rodar
agregações (acúmulo de valores),
e agregar em valores de cálculos cruzados. Estas
funções de agrupamentos também são
utilizadas em apresentações ad hoc e análises
complexas em conjunto com sorts, joins, e/ou reports.
Carga
(Sequência)
Selecionando,
classificando, mesclando, reformatando, e agregando dados,
não somente os prepara para a repopulação
do banco de dados qualitativamente, mas quantativamente
também - o montante dos dados caem drásticamente.
100 milhões de linhas podem ser reduzidas para
10 milhões, as quais sendo classificadas, irão
melhorar a velocidade e a eficiência de suas ferramentas
de cargas, como o Oracle load em mais de 90%, e em Sybase
bcp e Red Brick's PTMU. Saidas classificadas podem ser
canalizadas na ordem do índice (com números
sequenciais afixados) diretamente para o loader. Para
usuários IBM DB2, o CoSORT Load Accelerator (CLA)
para DB2 substitui diretamente o sort dentro do EEE's
loader em UNIX, baixando os tempos do UDB load a metade.

|