Ordenação e Recuperação de Dados – 2013.1

ord-cloud

Sobre a Disciplina

  • Técnicas básicas e avançadas utilizadas em sistemas de informação baseados em texto: indexação eficiente de texto; modelos de recuperação booleano e vetorial.
  • Pesquisa web incluindo rastejamento (crawling), algoritmos baseados em ligações e metadados.
  • Agrupamento e classificação de texto e mineração de texto.

Carga horária: 60 horas
Horário: Terça -› 16:00h-18:00h; Quinta -› 16:00h-18:00h

Conteúdo Programado

    • Introdução à recuperação da informação
    • Vocabulário de termos e listas de postagem
    • Dicionários e recuperação tolerante
    • Construção de índices
    • Compressão de índices
    • Classificação, ponderação de termos e consultas vetoriais
    • Cálculo de score
    • Sumário de resultados
    • Feedback relevante e expansão de consultas
    • Classificação de texto (Modelo de Naive-Bayes e filtragem de spam)
    • Agrupamento plano
    • Fundamentos de buscas na web
    • Índices e rastejamento (crawling) web
    • Análise de links

Plano de aulas

Data Assunto Notas de Aula
 21/05/2013
  • Introdução à Recuperação da Informação: índices invertidos; consultas booleanas; otimização de consultas; a natureza do texto estruturado e semi-estruturado
  • Detalhes sobre o curso
  • Vocabulário de termos e listas de postagem
  • Dicionários e recuperação tolerante
  • Construção de índices
  • Compressão de Índices
Prova 1 
  • Classificação e Ponderação
  • Modelo de Espaço Vetorial
  • Cálculo de Score 
  • Avaliação de Sistemas de Recuperação da Informação e Sumário de Resultados
  • Feedback de relevância e expansão de consultas
Prova 2
  • Classificação de texto e Naive Bayes 
  • Agrupamento
  • Recuperação da Informação e Busca na Web 
  • Índice e Rastejamento
  • Análise de Links 
Prova 3
  Reposição
  Prova Final

Bibliografia

Básica

Complementar

  • Managing Gigabytes, by I. Witten, A. Moffat, and T. Bell.
  • Information Retrieval: Algorithms and Heuristics by D. Grossman and O. Frieder.
  • Modern Information Retrieval, by R. Baeza-Yates and B. Ribeiro-Neto.
  • Finding Out About, by R. Belew.
  • Mining the Web, by S. Chakrabarti.

Forma de Avaliação

A avaliação da disciplina será realizada através de um projeto em grupo e de três provas, com os seguintes pesos:

  • Projeto: Seu Sistema de buscas especializado
    • Entrega 1: 13/06/2013 (2,5%)
    • Entrega 2: 30/08/2013 (37,5%)
  • Provas
    • Prova 1: Capítulos de 1 a 5  (20%)  – Notas
    • Prova 2: Capítulos de 6 a 9 (20%)
    • Prova 3: Capítulos 13, 16, 19, 20 e 21 (20%)

Política para Plágio

Alunos flagrados trapaceando nas provas ou nos projetos serão severamente punidos!

As provas serão realizados individualmente e os alunos poderão trazer UMA FOLHA DE CONSULTA TAMANHO A4 para classe. Cada aluno deverá produzir a sua própria folha de consulta não sendo permitidas trocas de folhas entre os alunos. Alunos flagrados trocando folhas de consulta ou trapaceando de qualquer forma durante a aplicação das provas terão sua prova recolhida e receberão nota 0 na avaliação.

Os únicos códigos-fonte que poderão ser utilizados nos projetos são o disponibilizado pelo professor (caso haja) e o implementado pelo aluno

Alunos que forem flagrados compartilhando código fonte com outros alunos ou utilizando código fonte de outros alunos ou de qualquer outra origem terão nota 0 no projeto da disciplina.