Transmissões

Data
Vídeos mais vistos

» veja mais

Vídeos indicados

Palestra MAC - 04/06/2013 - Explorando Dados Estruturados em Conteúdo Textual da Web : Métodos,Técnicas e Aplicações

Muito embora as máquinas de busca sejam hoje as mais efetivas e populares ferramentas para recuperar informação na Web, existe hoje um consenso em torno de que ainda é possível explorar de maneira mais efetiva o potencial destes sistemas. Isso é particularmente verdadeiro no atual cenário de expansão das redes sociais, da consolidação da Web 2.0, e da entrada em cena da chamada Web of Data. Esta constatação motivou o surgimento de várias propostas visando aumentar o poder expressivo das consultas feitas sobre conteúdo da Web, tanto do ponto de vista sintático, por exemplo, através da tecnologia XML, quanto do ponto de vista semântico, por exemplo, através dos recursos conjuntamente conhecidos como Web Semântica. Embora bastante promissoras, algumas destas propostas tem esbarrado na dificuldade da adoção de padrões, que é uma característica inerente à natureza da Web. Neste apresentação, enfocamos uma outra vertente possível para abordar esta questão: o desenvolvimento de métodos e técnicas para automaticamente obter, extrair e utilizar dados (semi) estruturados que estão implicitamente disponíveis dentro do vasto conteúdo textual não-estruturado da Web. Trabalhos que buscam explorar de forma efetiva estes dados têm surgido na literatura há mais de uma década, no entanto, uma série de avanços recentes em Recuperação de Informação, Aprendizagem de Máquina e Mineração de Dados, deram a este tema um novo impulso na comunidade científica. Isso pode ser comprovado pelo espaço considerável que veículos de publicação importantes de áreas como Bancos de Dados, Recuperação de Informação e Inteligência Artificial têm devotado pra trabalhos de pesquisa a ele relacionados. Isso se justifica não apenas pelos problemas desafiadores que se apresentam, mas principalmente pela crescente demanda da indústria para solução destes problemas. Isso faz com que os resultados de pesquisa neste tema sejam não somente imediatamente aplicáveis, mas também realimentem continuamente a investigação científica em torno dele. Este tema envolve várias classes de problemas, sendo que algumas destas classes de problemas serão aqui abordadas, quais sejam: Extração de Dados de Fontes Textuais, Coleta Focada de Páginas Web, Integração de Dados de Fontes Textuais da Web e Busca na Web Considerando Características de Estrutura. Resumo Curricular: Altigran Soares da Silva é professor associado do Instituto de Computação da Universidade Federal do Amazonas (IComp/UFAM) onde atua como pesquisador, professor e orientador na graduação, mestrado e doutorado. Concluiu seu doutorado em Ciência da Computação pela Universidade Federal de Minas Gerais (UFMG) em 2002. Seus interesses de pesquisa envolvem Gerência de Dados, Recuperação de Informação e Mineração de Dados com ênfase no ambiente da World-Wide Web. Sobre estes temas, tem coordenado e participado de dezenas de projetos de pesquisa que resultaram em mais de 100 publicações científicas em periódicos e anais de conferência de boa qualidade nestas áreas. Em 2007 foi o Coordenador do Comitê de Programa do Simpósio Brasileiro de Bancos de Dados (SBBD) e em 2010 atuou com co-chair da trilha "Bridging Structured and Unstructured Data" da International World Wide Web Conference. Participou também como membro de comitês técnico de programa em cerca de 40 conferências e workshops realizados no Brasil e no Exterior. Em 2012, foi indicado como palestrante convidado para o SBBD. Exerceu entre 2007 e 2009 a Pró-reitoria de Pesquisa e Pós-Graduação da UFAM. É atualmente o Coordenador Adjunto da área de Computação na CAPES e desde 2005 é membro da diretoria da Sociedade Brasileira de Computação (SBC). É co-fundador de empreendimentos de tecnologia, entre eles a Akwan Information Technologies, adquirida pela Google Inc. em 2005 e a Neemu, empresa que aplica técnicas de Recuperação de Informações e Aprendizado de Máquina em soluções para Comércio Eletrônico.