Produtos Soluções
Página Inicial Quem Somos Downloads Jornal CoSORT Contate a CoSORT Brasil

CoSORT: Acelerando ETL de Grandes Volumes no ORACLE

O melhor lugar para rapidamente extrair, transformar, gerar relatórios e carregar (ETRL) em um ambiente Oracle de data warehousing é na verdade, fora do Oracle, através de arquivos flat. A velocidade do data staging do CoSORT melhora exponencialmente conforme cresce o volume de dados. Trabalhar fora da base, em arquivos flat, permite que o Oracle realize o que tem de melhor - conectar, armazenar e executar queries.

As ferramentas do CoSORT otimizam individualmente os passos de E, T, R e L :

· Extração via FAst extraCT (FACT) do CoSORT - até 7X mais rápido !
· Transformação em arquivos flat via linguagem de controle de sort do CoSORT (SortCL) - até 20X mais rápido !
· Relatórios e I/O no mesmo job script de transformação SortCL !
· Cargas diretas de arquivos flat classificados (CoSORTed) para o SQL*Loader do Oracle - até 10X mais rápido !

As ferramentas do CoSORT combinam estes passos otimizados através de um único comando, racionalizando a produção de data warehouse. Clique aqui para visualizar um esquema do processo.

Carregando o programa SortCL do CoSORT diretamente entre o FAst extraCT (FACT) para Oracle e o utilitário SQL*Loader do Oracle, você pode formar uma solução ETL de grande performance que replica e amplia operações de reorg e SQL. Para facilitar o processo, o FACT gera metadados tanto para operações de transformações do SortCL como para operações de carga do SQL*Loader. O metadado gerado baseia-se nas descrições das tabelas Oracle que o FACT estiver extraindo.

Para se ter uma idéia do benefício de velocidade atingido com a alternativa ETL do CoSORT, considere o benchmark à direita. O CoSORT ETL para usuários Oracle envolve uma preparação simples e básica :

Benchmark


Exemplo de extração-transformação-carga (ETL) básica que compara
CoSORT fact | sortcl | sqlldr versus Oracle SQL*Plus
(select * ...order by).

Origem : ~ 50,000,000 50-byte linhas (2.32 GB), 1 chave de classificação.

CoSORT ETL: 00h:18m:00sOracle SQL*Plus: 01h:38m:58s Configuração: ia64 hp server rx56704X1GHz Itanium2 CPU, 32GB RAMHP-UX B.11.23, Oracle 9i

EXTRAÇÃO - Extraindo do Oracle.
Utilize o software FAst extraCT (FACT) do CoSORT para extrair dados de tabelas. Prepare um arquivo de parametrização (.ini) do FACT que entende a sintaxe padrão SQL Select – onde somente seleções condicional e não-condicional são suportadas para maximizar a velocidade de extração. O equivalente para qualquer opção como WHERE, ORDER BY, GROUP BY e/ou DISTINCT deve ser especificado no script do SortCL durante a fase de transformação.

TRANSFORMAÇÃO - Classifique e Transforme com o CoSORT.
Prepare um único job script SortCL que especifica os dados extraídos pelo FACT como entrada, os parâmetros de transformação (incluindo instruções SortCL equivalentes a qualquer cláusula SQL tais como - ORDER BY , JOIN e GROUP BY ) e a saída que será carregada mais tarde de volta ao Oracle. As definições de dados necessárias (layouts de campos/colunas do arquivo de entrada) são automaticamente geradas pelo FACT. Para obter uma performance melhor, o arquivo de entrada é definido como stdin (durante a extração FACT) em vez de um arquivo físico.

RELATÓRIOS - Mais uma Opção do CoSORT.
No mesmo job script SortCL citado acima, é possível especificar múltiplas saídas (não somente aquela que será recarregada no Oracle) ! Estas saídas podem ser um ou mais relatórios, detalhados ou sumarizados, através das instruções de manipulação de dados do SortCL. Os relatórios saem prontos para apresentação standalone e/ou web, data marts, aplicações BI, etc.

CARGA - Recarga Oracle.
Dados classificados podem ser recarregados para o Oracle utilizando o SQL*Loader, o que pode ser 10X mais rápido do que carregar dados não classificados. Utilize a instrução DIRECT=TRUE para executar uma carga direta de seus dados classificados com o CoSORT (CoSORTed).
Assim que preparado o arquivo .ini do FACT e o job script SortCL, é possível executar toda a operação em uma única linha de comando, ou em um script batch, como mostra o exemplo abaixo :

fact extract_job.ini info_file 1
mkfifo stdout.dat
fact extract_job.ini | SortCL /spec=primarykeysort.scl
& sqlload user/pswd control=stdout.ctl DIRECT=TRUE

onde stdout.dat é uma pipe nomeada utilizada como o arquivo de saída produzido pelo script SortCL primarykeysort.scl, e stdout.ctl foi gerando automaticamente pelo FACT.


1 A opção info_file para a execução do fact é necessária somente em situações de ETL canalizado (piped) porque o SortCL e SQL*Loader são carregados simultaneamente e ambos requerem informações de metadados assim que o primeiro registro é processado. Este passo não requer nenhuma alteração no arquivo .ini do FACT .ini.

 


© 2007 CoSORT Brasil / IRI Innovative Routines International, Inc.
mkt@cosort.com.br | Aviso Legal