PUCRS Prof. Dr. Duncan Dubugras Ruiz
Faculdade de Informática
Descoberta de Conhecimento em Banco de Dados (2007/I)


Entrega de Trabalhos:


Plano de Aulas :
AULA DATA CONTEÚDO OBSERVAÇÕES
114/03 Apresentação; Programa; Avaliação
Introdução a Modelos Analíticos de Banco de Dados
Sugiro caps. 1, 4, 5 e 6 do livro do C.A.Heuser "Projeto de Banco de Dados", 5a ed. Porto Alegre: Sagra-Luzzato, 2004.
221/03 Introdução ao Processo de Descoberta de Conhecimento em Banco de Dados Sugiro cap. 1 Han&Kamber (apresentação disponível em 1intro.ppt)
328/03 Introdução ao Processo de Descoberta de Conhecimento em Banco de Dados Sugiro cap. 2 Han&Kamber (apresentação disponível em 2dw.ppt)
404/04 Exercício de modelagem OLAP: o enunciado distribuído na aula passada está aqui.
O banco de dados distribuído está aqui.
Recebo o trabalho até próxima a 2a, 09/04.
Para a prática, usem o arquivo dcbdtabs.sql
ATENÇÃO: todos os alunos regulares têm logins e senhas no Oracle. Peguem comigo os respectivos logins.
Para acessar o SGBD Oracle, clique aqui.
Exemplos de consultas OLAP: dcbdolapcons.sql

Questões para reflexão:
  • Quais as diferencas entre os 4 exemplos? Por que?
  • Por que aparecem linhas iguais na saida no exemplo 1, mesmo com todas as colunas em branco (valores nao validos) exceto num_notas?
Exercicios:
  • Procurem elaborar as consultas usando:
    disciplinas e historico,
    disciplinas e professores e historico.
 11/04 Não haverá aulas hoje. Leitura sugerida para o horário de aulas: ruiz-Warehousing.pdf
518/04 Introdução a Mineração de Dados Sugiro material Tan, Steinbach, Kumar (apresentação disponível aqui.)
Apresentações animadas, e sonorizadas, da ferramenta DataWarehouse Explorer: dwedemos.zip
Quem pegar o BD usado nas aulas anteriores, implementar nessa ferramenta (free download) e mostrar algumas análises interessantes, ganha mais uns pontinhos na nota.
625/04 Preparação de Dados Sugiro cap. 3 Han&Kamber (apresentação disponível em 3prep.ppt)
Sugiro também material Tan, Steinbach, Kumar, cap. 2 (apresentação disponível aqui.)
702/05 Preparação de Dados e prática
Peguem já os dados que vamos trabalhar aqui. e a descrição dos mesmos aqui..

Enunciado da prática:
    A partir dos dados entregues, em .XLS, reduzir a dimensionalidade e o número de objetos dos dados.
    Para tanto, usem, entre outras coisas, a matriz de correlação entre as colunas (já calculada) para a redução de dimensionalidade. Reduzam para menos de 50 atributos.
    Para a redução do número de objetos, segmentem (clustering) os atributos a seguir, no número de segmentos sugeridos, e eliminem duplicatas.
    Atributo MOSTYPE: n. segmentos: entre 4 e 10
    Atributo MGEMLEEF: n. segmentos: 3
    Atributo MOSHOOFD: n. segmentos: 3
    Atributo MGODRK: n. segmentos: 3.

    Material a ser entregue:
      Relatório descrevendo todo o experimento: atributos eliminados e justificativas, descrição dos segmentos definidos para cada atributo, número de instâncias iguais encontradas e posteriormente eliminadas para cada atributo, descrição do layout final.
      Arquivo .XLS resultante.
    Prazo: 16/05.
    Trabalho em duplas ou trios.

A aula será no laboratório, sala 312, 3o. andar.
Sugiro material Tan, Steinbach, Kumar, cap. 2 (apresentação disponível aqui.) especificamente sobre Feature Selection.
809/05 Prática com Preparação de Dados
Será feita nas ilhas.
 
916/05 Prática com Preparação de Dados
Será feita nas ilhas.

A entrega fica adiada par 30/05, OK???
Estou pensando em vocês me apresentarem o que fizeram. O que acham???
 
1023/05 Última Prática com Preparação de Dados
Será feita nas ilhas.

A entrega é na semana que vem, OK???
Depois de receber os trabalhos, eu agendo quando vocês apresentarão.
 
1130/05 Mineração de Dados: Classificação.
Na sala de aula.
Sugiro material Tan, Steinbach, Kumar, caps. 4 e 5 (apresentações disponíveis aqui.).
1206/06 Mineração de Dados: Associação.
Na sala de aula.

Enunciado da 2a. prática:
    Peguem o enunciado do trabalho T2: aqui. e os correspondentes arquivos aqui..
Sugiro material Tan, Steinbach, Kumar, caps. 6 e 7 (apresentações disponíveis aqui.).
1313/06 Palestra Márcio Basgalupp - Mestre PPGCC-PUCRS, Doutorando USP-São Carlos
Título: Uma abordagem evolutiva para selecionar atributos na descoberta de conhecimento em processos de negócio

Após a palestra, Márcio poderá conversar sobre fazer doutorado em São Carlos, na USP
Abstract: A business process defines a set of activities along with their possible execution flows and their necessary resources. Business Intelligence (BI) projects have been show the importance of data mining techniques as instrument of assistance in the analysis, prediction and optimization of business processes. One of the most important data mining's tasks is classification, which aims to understand the causes of certain behaviors and to generate models to predict the behavior and performance of these processes. When leading with business processes classification, it is recommended the use of attribute selection, due to the large possible amount of attributes may be necessary to characterize a process. Thus, this work aims the use of multiobjective genetic algorithms for feature selection upon business processes' classification problems. The obtained results were satisfactory, considering that the criteria aimed to be optimized were improved.
1420/06 Palestra Prof. Dr. Flávio Rech Wagner
Desafios para o Planejamento da Pesquisa e da Pós-Graduação na Área de Computação
Auditório 517.
 
1527/06 Mineração de Dados: Prática com Classificação.
Nas ilhas.
 
1604/07 Mineração de Dados: Prática com Classificação.
No laboratório 311.

Trabalho 2 - Material a ser entregue:
    1- Relatório descrevendo toda a prática:
      Exercício com TICdata2000.arff e TICeval2000.arff, ou seja, árvore de decisão produzida, as 2 matrizes de confusão e acurácias obtidas.
      Repetição do mesmo exercício, usando o arquivo preparado no trabalho 1, convertido para arquivo .arff, como conjunto de treino, e, como conjunto de teste, o arquivo TICEvalPositivo2000.csv com o mesmo tipo de preparação feito no arquivo do trabalho 1 e convertido para .arff.
      Para este 2o. exercício, além da árvore de decisão produzida, das 2 matrizes de confusão e acurácias, listar os eventuais verdadeiros positivos obtidos.

    2- Arquivos a serem entregues:
      arquivos .arff referentes à repetição do exercício (preparado no trabalho 1 e TICEvalPositivo2000)
 

 
 
De volta ao índice
De volta à página principal


Programa da Disciplina (resumido):



Bibliografia
De volta ao índice
De volta à página principal