Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Cap. 18 - Web Search

Livro "Recommender Systems" - Cap. 18 - Disciplina Sistemas de Recomendação 2013.1
by

Christiana Barreira

on 14 August 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Cap. 18 - Web Search

Communities, Collaboration, and Recommender Systems
in Personalized Web Search Chapter 18 Christiana Barreira Soraia Pacheco Walter Bicalho http://www. Introdução Agenda Introdução

Breve Histórico sobre Busca na Web

O Futuro da Pesquisa na Web

Estudo de Caso 1 - Busca na Web baseado em Comunidades

Estudo de Caso 2 - Busca na Web - Compartilhada

Conclusão Estudo de Caso 1 - Busca na Web baseado em Comunidades Fontes de recomendação dentro do comportamento de busca em Comunidades:
Repetição da consulta e
Regularidade de seleção Utiliza o motor de busca do Google Em comunidades que compartilham a mesma opinião existe uma regularidade e uma repetição na pesquisa. Um tipo de conhecimento de pesquisa em comunidades é gerado a partir da experiência das pessoas de como pesquisar. Um visitante, por exemplo, pode se beneficiar de pesquisas realizadas por membros mais experientes de uma comunidade. Estudo de Caso 1 - Busca na Web baseado em Comunidades - Repetição e Regularida de busca em Comunidades na Web USUÁRIO BUSCADOR Consulta Recomendações
de Páginas BUSCA NA WEB SR BUSCADORES estão entre as mais importantes e conhecidas ferramentas de informação

Líder do Mercado = SearchTeam - Busca Colaborativa - Como funciona? SearchTeam - Busca Colaborativa - Conceito No mundo....(usuários 2012) No Brasil... (buscas em fev13) Rankings de Buscadores Em seguida, as consultas semelhantes: 1. Repetição e regularidade da busca em Comunidades Observou-se primeiro as consultas iguais. Conclui-se que encontram-se mais repetições de consultas em cenários mais especializados (55-60%) do que cenários genéricos (15%). [92, pág 390] Por exemplo, similaridade da consulta sobre "jaguar pictures" e "jaguar photos"= 0,33 Consultas No mundo... (usuários) No Brasil... (buscas) Rankings dos Buscadores Consultas Relevância Conclusões
1) consultas semelhantes tendem a repetir com freqüência em pesquisa na web.
2) o grau de repetição é especialmente elevado em tarefas de pesquisa mais focadas. Resultados 70 funcionários de uma empresa de software, durante 17 semanas. 20.000 consultas e 16.000 resultados selecionados. Conclusões: pesquisadores dentro desta empresa ad hoc em uma comunidade de busca fazem buscas por coisas semelhantes de formas semelhantes, muito mais do que em cenários de busca genéricos. Estudo de Caso 1 - O Sistema de Busca Colaborativa - CWS - Arquitetura Conjuntura Atual Conjuntura Desejada Serviços de busca COMUNS para todos os usuários (one-size-fits-all)

RELEVÂNCIA LIMITADA nos resultados de busca (desperdício de tempo + $$)

Consultas de usuário pouco precisas

BUSCA SOLITÁRIA na web
(usuário - buscador) BUSCA PERSONALIZADA (considerando necessidades e preferências dos usuários)

Melhor TAXA DE SUCESSO dos resultados de busca

BUSCA COLABORATIVA (considerando informação gerada na interação e colaboração de GRUPOS DE USUÁRIOS)

BUSCA SOCIAL (híbrida de PERSONALIZAÇÃO + COLABORAÇÃO) Modelo Ponderado de busca colaborativa Cálculo da Relevância na prática Por que o tema BUSCA NA WEB em SR SR Importância das tecnologias de SR Antes do Cálculo de Relevância Depois do Cálculo de Relevância Esta página tem sido selecionada 26,4% das vezes que a palavra "shakey "foi usada como uma consulta. Estudo de Caso 2 - Busca Web Compartilhada Novas fontes de informação
para motores de busca:

Informação gerada por

- INTERAÇÃO

- COLABORAÇÃO

(GRUPO DE USUÁRIOS) Objetivo:

Entregar INFORMAÇÃO CERTA
para USUÁRIO CERTO
no TEMPO CERTO! Novas ideias para busca na Web:

- PERSONALIZAÇÃO

- COLABORAÇÃO Resultado do Estudo com Promoções: Breve Histórico da Busca na Web - Google 60 - http://www.masswerk.at/google60/ Futuro da Busca na Web Tipos de Buscadores Buscadores Globais Buscadores Verticais Guias Locais Buscadores Locais Diretórios de Websites (toda a web) (pesquisa especializada) (endereços próx CEP usuário) (índices de sites) Anos 60 - Guerra Fria (EUA - ARPANET)
- Infográfico - História da Internet (ver link no resumo na Wiki) Google nos anos 80... Anos 70 - Tecnologias de Recuperação de Informação

Anos 80 - Web não era ainda para busca
- Portal Browsing pela URL Anos 90 - World Wide Web - WWW (1992) Anos 90... - 1993 - Wandrex, Aliweb (aliweb.com)
- 1994 - Lycos (terra.com.br) Ranking - frequência dos
termos da consulta nas páginas Crawler - software que
rastreava a rede de páginas
da web, analizando seu
conteúdo e gravando pa-
lavras e suas frequências
nas páginas (ÍNDICE) Primeiros motores de busca - Indexação e Recuperação de Informação (RI) Fundadores do Google

- citação entre páginas por HIPERLINK
(CONECTIVIDADE)

- relevância - back links

Google Page Rank (1998) - algoritmo de avaliação de um agrupamento de páginas
interlinkadas (combinado ao term-matching) Cada bola representa uma página e o tamanho de cada uma a sua importância (PageRank). Quanto maior a bola, mais valor tem seu voto: repare que a bola superior vermelha é grande mesmo recebendo só um voto, pois o voto que ela recebe, da bola maior amarela, tem mais valor. HeyStaks Modelo alternativo de pesquisa colaborativa na web. Utiliza a abordagem user-led Dois aspectos importantes: Está focada em ajudar os usuários para melhor organizar e compartilhar suas experiências de pesquisa. Como ? Permiti aos usuários criar e compartilhar repositórios de experiências de pesquisa. Integrado com um motor de busca Mainstream (Google) Considera o "gosto popular", as escolhas ao estilo da "maioria". Como ? Por meio de uma barra de ferramentas do navegador, o que proporciona a busca de colaboração motor com a capacidade de capturar e orientar as atividades de pesquisa. Estudo de Caso 2 - Busca Web Compartilhada Permite aos usuários criar Staks de busca, como um tipo de pasta para suas experiências de pesquisa. O Sistema HeyStaks Estas staks podem ser compartilhadas com outros, de modo que as suas pesquisas, também irão ser adicionadas à stak criada. Gera recomendações que são adicionadas aos resultados das pesquisas subjacentes, que vêm do motor de busca tradicionais. Que resultados são estes ? São resultados que os "membros stak" já encontraram e foram relevantes para consultas semelhantes e ajudaram o usuário a descobrir resultados, interessantes, que amigos ou colegas encontram e que poderiam ficar "escondidos" dentro do Google, por exemplo. - A barra de ferramentas permite aos usuários criar e compartilhar staks e oferece uma gama de serviços auxiliares (a capacidade de codificar ou votar páginas).
- A barra de ferramentas também captura de busca click-through e administra a integração de recomendações heystaks com a lista de resultados padrão.
- O servidor back-end seleciona os índices stak individuais (indexação de páginas individuais contra a consulta, tag, votos + e - ), o banco de dados stak (títulos stak, membros, descrições, estado, etc), o serviço de rede social heystaks e a recomendação motor. - O Google mostra os resultados, mas em adição o HeyStaks fez duas promoções.

- Estes resultados foram promovidos porque os outros membros da Stak tinham recentemente encontrado estes resultados e foram relevantes. Eles foram selecionados ou votado como +, ou ainda marcados como termos relacionados para que novas consultas mostrem novamente como resultados.

- Estas recomendações poderiam ter sido promovidas mesmo se não estivessem na lista de resultado do Google, ou eles podem sequer estar presentes nos resultados padrões do Google para a consulta alvo. A versão Beta A Recomendação Heystaks Cada stak serve como um perfil de atividades de pesquisa dos membros staks. O sistema combina diversos perfis e utiliza as técnicas para capturar o histórico das experiÊncias de pesquisas (buscas).

Cada stak é composta por um conjunto de páginas de resultados resultados (S = {p1, ..., pk}) e cada página é anonimamente associada com uma série de indicadores incluindo o número total de vezes que um resultado tenha sido selecionado (SEL), os termos da consulta (q1, ..., qn), que levou à sua eleição, o número de vezes que um resultado tenha sido marcados (tag), os termos usados para marcá-lo (T1, ..., tm), os votos que recebeu (v + v-), e o número de pessoas que compartilhou com todos os indicadores explícitos de interesse. Cada página está associado com um conjunto de dados de termos de consulta e/ou termos de marca e um conjunto de dados de uso (seleção, tag, compartilhamento, contagem de votos).

O termo dados é representado como uma tabela de índice Lucene (*), com cada página indexada sob sua consulta associado e termos de marca, e fornece a base para recuperar e classificar candidatos a promoção.

O uso de dados fornece um adicional fonte de provas que podem ser utilizados para filtrar os resultados e gerar um conjunto final de recomendações

No tempo de busca, um conjunto de recomendações é produzido num número de estágios.

Resultados relevantes são recuperados e classificado no índice stak - Lucene - e esses candidatos a promoção são filtrados com base em um modelo de provas para eliminar recomendações ``ruidososas``. Os restantes dos resultados são adicionados ao Google resultList de acordo com um conjunto de regras de recomendação.
Promoções Primárias: são resultados que vêm do ativo stak St;

Promoções Secundárias: vêm de outros Staks em stak-list do pesquisador.

Para gerar esses candidatos a promoção, o HeyStaks server usa o consulta atual (qt) como uma sonda em cada índice stak, Si, para identificar um conjunto de páginas relevantes stak P (Si, qt).

Cada página de candidato, p, é marcado usando uma função de recuperação do Lucene, que serve como base para o um ranking da recomendação inicial. Resumindo: Temos dois tipos de candidatos a promoção: (*) Lucene: O Lucene é uma biblioteca de mecanismo de procura de texto altamente escalável e de software livre a partir do Apache Software Foundation;
Você pode usar o Lucene em aplicativos comerciais e de software livre;
As APIs poderosas do Lucene focam principalmente na indexação e na procura de texto;
Elas podem ser usadas para criar recursos de procura para aplicativos, como clientes de e-mail, listas de correspondências, procuras da Web, procuras de banco de dados, etc;
Web sites como Wikipedia, TheServerSide, jGuru e LinkedIn foram desenvolvidos com o Lucene. http://www.heystaks.com Processamento Móvel: Devo usar o HeyStaks ? https://www.facebook.com/socialsearch/photos_stream Avaliação: Foram avaliados 95 usuários ativos durante a implantação da versão Beta, entre OUT/2008 e JAN/2009. Objetivos: Compreender se estes usuários foram beneficiados nas promoções das buscas realizadas. + de 300 Staks criadas em uma ampla gama de temas. Desafio de RECOMENDAÇÃO (fatores) - Tamanho e crescimento da Web
- Diversidade de tipos de conteúdo ofertados
- Expansão demográfica
- Diversidade de tipos de usuários e níveis de habilidade de busca
- Natureza das Consultas (vagas ou ambíguas) em engenhos de RI baseados em termos Ideias a partir de pesquisas em SR, PERFIL de usuário e TRABALHO COLABORATIVO apoiado por computador - Busca mais PERSONALIZADA --> inclusão de PREFERÊNCIAS e CONTEXTO ATUAL do USUÁRIO - Busca mais COLABORATIVA --> GRUPOS cooperando nas buscas (implicita ou explicitamente) - Busca HÍBRIDA --> BUSCA SOCIAL = personalização + colaboração) BUSCA PERSONALIZADA REQUISITOS-CHAVE



DIMENSÕES DOS PERFIS




FORMA DE CONSTRUIR PERFIL - Compreensão das NECESSIDADES do usuário
- Capacidade de usar o perfil para influenciar os RESULTADOS - NATUREZA --> Perfil de CURTO PRAZO (atual)
Perfil de LONGO PRAZO (período de tempo)

- ABORDAGEM --> Perfil INDIVIDUAL ou COLABORATIVO - IMPLÍCITA (indireta, por inferência do sistema)
- EXPLÍCITA (direta, fornecida pelo usuário) ' BUSCA COLABORATIVA TEMPO


LUGAR - Síncrona ("chamada para busca")
- Assíncrona - Co-localizada
- Remota (serviços móveis) Estudos de Caso CONCLUSÃO A nova geração de Motores de Busca está em fase de amadurecimento

As tecnologias de recomendação tem potencial para levar ao objetivo ("entregar a informação certa para o usuário certo no tempo certo")

SR terão papel principal nos serviços de BUSCA SOCIAL (maior tendência)

Motores de busca trabalharão mais para ANTECIPAR do que para responder às necessidades dos usuários (pro-ativos)

Evolução para o nível de INTERFACE DE BUSCA - Infográfico - História dos Motores de Busca
(http://www.wordstream.com/articles/internet-search-engines-history
Full transcript