Transmissões

Data

Palestra MAC - 04/06/2013 - Explorando Dados Estruturados em Conteúdo Textual da Web : Métodos,Técnicas e Aplicações

Normal Expandido
Formato
Reportar Erro
Denunciar
Incorporar
Recomendar
Download
Gostei
563 visualizações
Publicado em Wed Jul 03 15:57:06 GMT-03:00 2013
Formatos:  FLV (640 X 360 px)

Palestra MAC - 04/06/2013 - Explorando Dados Estruturados em Conteúdo Textual da Web : Métodos Técnicas e Aplicações

Muito embora as máquinas de busca sejam hoje as mais efetivas e populares
ferramentas para recuperar informação na Web, existe hoje um consenso em
torno de que ainda é possível explorar de maneira mais efetiva o potencial
destes sistemas. Isso é particularmente verdadeiro no atual cenário de
expansão das redes sociais, da consolidação da Web 2.0, e da entrada em
cena da chamada Web of Data. Esta constatação motivou o surgimento de
várias propostas visando aumentar o poder expressivo das consultas feitas
sobre conteúdo da Web, tanto do ponto de vista sintático, por exemplo,
através da tecnologia XML, quanto do ponto de vista semântico, por
exemplo,
através dos recursos conjuntamente conhecidos como Web Semântica. Embora
bastante promissoras, algumas destas propostas tem esbarrado na
dificuldade
da adoção de padrões, que é uma característica inerente à natureza da Web.
Neste apresentação, enfocamos uma outra vertente possível para abordar
esta
questão: o desenvolvimento de métodos e técnicas para automaticamente
obter, extrair e utilizar dados (semi) estruturados que estão
implicitamente disponíveis dentro do vasto conteúdo textual
não-estruturado
da Web. Trabalhos que buscam explorar de forma efetiva estes dados têm
surgido na literatura há mais de uma década, no entanto, uma série de
avanços recentes em Recuperação de Informação, Aprendizagem de Máquina e
Mineração de Dados, deram a este tema um novo impulso na comunidade
científica. Isso pode ser comprovado pelo espaço considerável que veículos
de publicação importantes de áreas como Bancos de Dados, Recuperação de
Informação e Inteligência Artificial têm devotado pra trabalhos de
pesquisa
a ele relacionados. Isso se justifica não apenas pelos problemas
desafiadores que se apresentam, mas principalmente pela crescente demanda
da indústria para solução destes problemas. Isso faz com que os resultados
de pesquisa neste tema sejam não somente imediatamente aplicáveis, mas
também realimentem continuamente a investigação científica em torno dele.
Este tema envolve várias classes de problemas, sendo que algumas destas
classes de problemas serão aqui abordadas, quais sejam: Extração de Dados
de Fontes Textuais, Coleta Focada de Páginas Web, Integração de Dados de
Fontes Textuais da Web e Busca na Web Considerando Características de
Estrutura.


Resumo Curricular:
Altigran Soares da Silva é professor associado do Instituto de Computação
da Universidade Federal do Amazonas (IComp/UFAM) onde atua como
pesquisador, professor e orientador na graduação, mestrado e doutorado.
Concluiu seu doutorado em Ciência da Computação pela Universidade Federal
de Minas Gerais (UFMG) em 2002. Seus interesses de pesquisa envolvem
Gerência de Dados, Recuperação de Informação e Mineração de Dados com
ênfase no ambiente da World-Wide Web. Sobre estes temas, tem coordenado e
participado de dezenas de projetos de pesquisa que resultaram em mais de
100 publicações científicas em periódicos e anais de conferência de boa
qualidade nestas áreas. Em 2007 foi o Coordenador do Comitê de Programa do
Simpósio Brasileiro de Bancos de Dados (SBBD) e em 2010 atuou com co-chair
da trilha "Bridging Structured and Unstructured Data" da International
World Wide Web Conference. Participou também como membro de comitês
técnico
de programa em cerca de 40 conferências e workshops realizados no Brasil e
no Exterior. Em 2012, foi indicado como palestrante convidado para o SBBD.
Exerceu entre 2007 e 2009 a Pró-reitoria de Pesquisa e Pós-Graduação da
UFAM. É atualmente o Coordenador Adjunto da área de Computação na CAPES e
desde 2005 é membro da diretoria da Sociedade Brasileira de Computação
(SBC). É co-fundador de empreendimentos de tecnologia, entre eles a Akwan
Information Technologies, adquirida pela Google Inc. em 2005 e a Neemu,
empresa que aplica técnicas de Recuperação de Informações e Aprendizado de
Máquina em soluções para Comércio Eletrônico.