Produtos Soluções
Página Inicial Quem Somos Downloads Jornal CoSORT Contate a CoSORT Brasil

CoSORT : A Ferramenta ETL

Otimiza, Combina e Acelera a Integração de Dados e Tarefas de Staging

A sua linguagem Sort Control Language (SortCL) é capaz de fazer uma limpeza pesada nos maiores data warehouses existentes. Especialmente desenhado para trabalhar com flat files, executa as funções de extract - transform - load (ETL), combinando em uma única execução as capacidades de: extração, limpeza, classificação, joins, formatação, cálculos, conversão, agregação, sequencias e geração de relatórios.

Clique aqui para visualizar diagramas estratégicos e táticos que identificam e ilustram onde e como o CoSORT é aplicado em Data Warehouse.

Com uma linguagem familiar, data definition language (DDL), você define dicionários de dados centralizados (repositórios de metadados) para reduzir os tempos de criação e tamanhos de scripts, assim como facilita a criação de tabelas por SQL, cargas e comparações de arquivos de metadados. Nos job scripts o uso da linguagem de manipulação de dados (DML) pode conter e/ou referenciar os layouts. Os jobs do SortCL podem rodar de linhas de comandos, em scripts batch, de programas, e via interface Java GUI entre plataformas.

Extração (Select)

A maioria dos dados operacionais em companhias comerciais e do governo, residem internamente em arquivos de dados sequenciais (flatfiles), em tabelas de banco de dados relacionais no mainframe, ou são importados de fitas ou outros meios. Estas bases de dados de histórico de clientes, inventários e pedidos, são otimizados para queries ad hoc e transações, não extrações. Partindo destas bases para uma tabela de larga escala ou dump de dados em um flat file, é o melhor caminho para começar. A SortCL aceita múltiplos arquivos de entrada, ou blocos de registros através de canais (pipes) padrões para executar inner e outer joins, mais seleção vertical (condicional) em registros para estes processos.

Limpeza (Filtro)

A SortCL suporta lógicas condicionais extensivas (if-then-else) para filtrar 'verticalmente' (include/omit) e reformatar registros em um sort, join ou report. Também pode filtrar registros 'horizontalmente' através de comandos de processa/ignora para de-dupes e byte/record/header-specific. Por exemplo, você pode especificar para a SortCL quais valores de campos são válidos para gerar somente saídas sem estes valores.

Classificação (Sort)

A SortCL alavanca a co-rotina de sort paralelo do CoSORT (que dispara diretamente em múltiplas CPUs de servidores Unix e Wintel) para prover a reorganização mais rápida possível do seu banco de dados. Você pode especificar qualquer número de campos chaves fixos e/ou variáveis. As saidas classificadas são imediatamente disponíveis para cruzamento de joins e outros processos.

Comparações (Join)

A SortCL está três anos na frente da concorrência em tecnologia join, e seus joins 20 vezes mais rápidos que em banco de dados ! Comparando dois arquivos pré-ordenados ao mesmo tempo e velocidde de I/O, a SortCL usa sintaxes SQL inner e outer joins, para produzir uma saida mesclada baseada em condições específicas. Uso de scripts adicionais para comparar três ou mais tabelas. Você pode até mesmo eliminar resultados de inner joins providos de um outer join, e eliminar e reformatar registros nulos !

Formatação (Remapeamento)

Como a SortCL mapeia posição de campos fixos ou variáveis da entrada para a saida, você pode reposicionar, re-dimensionar, e converter tipos de dados. Você pode tratar cabeçalhos, inserindo ou alterando para a saida, inserir caracteres formatados e variáveis de ambiente - incluindo comandos de markup para relatórios web. Também pode executar expressões matemáticas (cálculos-cruzados) entre campos de dados, assim como em valores agregados, derivar resumos detalhados de campos!

Conversão

Enquanto campos de posições fixas ou variáveis são mapeados da entrada para a saida, seus dados podem ser reposicionados, redimensionados e convertidospor tipos, ex. de EBCDIC para ASCII, ou decimal compactado para campo com sinal ou decimal zonado. Muitas formas binárias do mainframe são indesejadas para propagação de dados, 'mining' e acessos em sistemas abertos (é por isso que o SortCL processa CSV). A SortCL resolve este problema no mesmo passo de outras funções, eliminando a necessidade de outra ferramenta de conversão.

Agregação (Agrupamento)

A SortCL pode contar, sumarizar (totais), tirar média, e achar os valores mínimos e máximos baseado em condições de quebras inter e intra registros, para produzir um sumário sofisticado de EIS, ou análises "drill-down" em múltiplas classes de dados. Também unicamente capaz de rodar agregações (acúmulo de valores), e agregar em valores de cálculos cruzados. Estas funções de agrupamentos também são utilizadas em apresentações ad hoc e análises complexas em conjunto com sorts, joins, e/ou reports.

Carga (Sequência)

Selecionando, classificando, mesclando, reformatando, e agregando dados, não somente os prepara para a repopulação do banco de dados qualitativamente, mas quantativamente também - o montante dos dados caem drásticamente. 100 milhões de linhas podem ser reduzidas para 10 milhões, as quais sendo classificadas, irão melhorar a velocidade e a eficiência de suas ferramentas de cargas, como o Oracle load em mais de 90%, e em Sybase bcp e Red Brick's PTMU. Saidas classificadas podem ser canalizadas na ordem do índice (com números sequenciais afixados) diretamente para o loader. Para usuários IBM DB2, o CoSORT Load Accelerator (CLA) para DB2 substitui diretamente o sort dentro do EEE's loader em UNIX, baixando os tempos do UDB load a metade.

 


© 2007 CoSORT Brasil / IRI Innovative Routines International, Inc.
mkt@cosort.com.br | Aviso Legal