6. ricercare nel web
DESCRIPTION
Slides dalle lezioni del corso di "Strumenti e applicazioni del Web", Università di Milano Bicocca - Prof.R.Polillo - A.A.2012-13 Lezione del 21 marzo 2013 Vedi anche www.corsoweb.wordpress.comTRANSCRIPT
![Page 1: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/1.jpg)
Edizione 2012-13
Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e Comunicazione
Corso di Strumenti e applicazioni del Web
6. Ricercare nel Web
![Page 2: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/2.jpg)
Queste slides2
Queste slides fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in www.corsow.wordpress.com . Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno.
Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e alle screen shots, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.
R.Polillo - Marzo 2013
![Page 3: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/3.jpg)
Una visualizzazione [di una parte] del web
La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/
R.Polillo - Marzo 2013
3
![Page 4: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/4.jpg)
4
R.Polillo - Marzo 2013
Una visualizzazione [di una parte] del web
![Page 5: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/5.jpg)
R.Polillo - Marzo 2013
5
Una visualizzazione [di una parte] del web
![Page 6: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/6.jpg)
Come trovare l'informazione in rete
DirectoriesIndici strutturati di argomenti (gestiti da una redazione)
Motori di ricercaQuery Risultati
EsplorazioneBrowsing, serendipity
Motori semanticiwww.wolframalpha.com, …
Sistemi di Q&A socialeYahoo! Answer, …
R.Polillo - Marzo 2013
6
![Page 7: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/7.jpg)
Web directories7
Storicamente, il primo strumento di ausilio alle ricerche nel Web
Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"
Directories “generaliste” e directories verticali o di nicchia http://en.wikipedia.org/wiki/Web_directory
R.Polillo - Marzo 2013
![Page 8: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/8.jpg)
Tassonomia8
Emporio celeste dei riconoscimenti benevoli(Enciclopedia cinese, J.L.Borges, 1973)
Gli animali si dividono in:a) Appartenenti all’imperatoreb) Imbalsamatic) Ammaestratid) Lattonzolie) Sirenef) Favolosig) Cani randagih) Inclusi in questa classificazionei) Che si agitano come pazzij) Innumerevolik) Disegnati con un pennello finissimo di peli di
cammellol) Ecceteram) Che hanno ritto il vason) Che da lontano sembrano mosche.
R.Polillo - Marzo 2013
Raggruppamento di oggetti in classi, secondo qualche criterio
taxis=ordine nomos=regola
Ogni tassonomia è arbitraria, e dipende dagli obiettivi
![Page 9: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/9.jpg)
Yahoo! (http://dir.yahoo.com)9
R.Polillo - Marzo 2013
- Nasce come “La guida al WWW di Jerry e David”, nel 1994
- Qui la home del 1996, da www.archive.org
http://en.wikipedia.org/wiki/Internet_Archive
![Page 10: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/10.jpg)
The Open Directory Project (ODP)10
Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/ Directory gratuita, aperta e multilingua Posseduta da Netscape (dal 1998) e manutenuta da una comunità di
editor volontari http://en.wikipedia.org/wiki/Open_Directory_Project
R.Polillo - Marzo 2013
![Page 11: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/11.jpg)
Domoz vs Yahoo!
R.Polillo - Marzo 2013
11
Dmoz Yahoo!
![Page 12: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/12.jpg)
Wikipedia come strumento di ricerca12
Wikipedia è un formidabile strumento di ricerca e accesso al web
Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato
Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici
(http://en.wikipedia.org/wiki/Portal:List_of_portals )
R.Polillo - Marzo 2013
![Page 13: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/13.jpg)
Serendipità13
Cerco una cosa e ne trovo un'altra Nome coniato da Horace Walpole, tratto dalla fiaba “I tre principi di
Serendip” (Serendip è l'antico nome di Sri Lanka) Serve fortuna (“il caso”) e un atteggiamento di apertura: per cogliere
l'indizio che porterà alla scoperta occorre essere aperti alla ricerca e riconoscere il valore di esperienze che non corrispondono alle originarie aspettative
http://en.wikipedia.org/wiki/Serendipity http://serendip.brynmawr.edu/serendip/about.html
R.Polillo - Marzo 2013
![Page 14: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/14.jpg)
14 R.Polillo - Marzo 2013
![Page 15: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/15.jpg)
www.stumbleupon.com 16
to stumble: inciampare, scoprire per caso
È una discovery engine di pagine web, fondato in Canada nel 2001
Premendo il bottone STUMBLE! installato sul browser, viene proposto un sito, un’immagine o un video scelti sulla base delle preferenze dell’utente, o delle raccomandazioni dei suoi amici o da altri utenti che hanno interessi simili
Il processo di selezione si affina sulla base del gradimento espresso (opzionalmente) dall’utente:
R.Polillo - Marzo 2013
![Page 16: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/16.jpg)
Motori di ricerca per il Web
Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web
Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)
La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati
R.Polillo - Marzo 2013
17
![Page 17: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/17.jpg)
Motori di ricerca
Una storia complessa, iniziata negli anni '90. Oggi, i primi 3: Google- Dal 1998
Bing- Dal 2009- Prima: MSN Search, Windows Live Search, Live Search
Yahoo!- Con motori esterni (dal 1999 "Powered by Bing")
R.Polillo - Marzo 2013
18
Market share, Jan 2013, http://www.statowl.com
![Page 18: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/18.jpg)
Motori di ricerca: struttura
R.Polillo - Marzo 2013
19
Interfaccia Query processing
Rankingdei risultati
Query
Risultati(SERP)
Front-end process
Indici + cached pages
CrawlerCrawler
IndicizzatoreCrawler
Richieste
Pagine web
Pagine web
WWW
Back-end process
![Page 19: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/19.jpg)
Web crawling
I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti
Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)
L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)
Non tutto il Web è accessibile ai crawler
R.Polillo - Marzo 2013
21
![Page 20: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/20.jpg)
robots.txt: esempio
www.domain.com
R.Polillo - Marzo 2013
22
/
robots.txt
utenti
foto
aboutUser-agent: GoogleDisallow /utenti/fotoAllow: *Crawl-delay: 20 sec
![Page 21: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/21.jpg)
Deep vs surface Web
Non tutto il Web è accessibile ai motori di ricerca Il Web invisibile ("deep Web") è parecchi ordini di
grandezza più vasto del Web visibile ("surface Web") Deep Web, esempi:
Pagine "vietate" dai Web server (robots.txt) Pagine generate dinamicamente a fronte di query o di input forniti
attraverso form Pagine senza link entranti Pagine accessibili tramite registrazione e login Ecc.
R.Polillo - Marzo 2013
23
![Page 22: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/22.jpg)
Struttura del web: uno studio
Analisi di 203 milioni di pagine, nel 1999: Broder et al., Graph structure in the web, WWW Conference 2000, http://www9.org/w9cdrom/160/160.html
17 million nodes
24
R.Polillo - Marzo 2013
![Page 23: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/23.jpg)
Tipi di query
InformativaObiettivo: trovare un'informazione
NavigazionaleObiettivo: trovare una pagina web, che conosco già
RisorsaObiettivo: trovare una risorsa (non informativa) disponibile sul web
Il risultato è di solito (ma non sempre!) una lista di link a pagine web
Dal contenitore al contenuto
R.Polillo - Marzo 2013
25
![Page 24: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/24.jpg)
Search forms (Google)
R.Polillo - Marzo 2013
26
Semplice: Avanzata:
Posso usare una sintassi complessa
Esempi:query AND queryquery OR query-queryterm site:urllink: x…. Cfr.
http://www.google.com/insidesearch/ http://bit.ly/13dakJx
![Page 25: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/25.jpg)
Google: evoluzione della home page
Video sulla evoluzione di www.google.com dal 1998 al 2007
http://www.youtube.com/watch?v=1vgprty39og
R.Polillo - Marzo 2013
27
![Page 26: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/26.jpg)
SERP: struttura tipica
R.Polillo - Marzo 2013
28
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati "organici"
(non influenzati dalle
sponsorizzazioni)
Google:AdWords
![Page 27: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/27.jpg)
La coda lunga delle ricerche
R.Polillo - Marzo 2013
29
Search terms
Freq
uen
za
Alto costo, alta frequenza, bassa probabilità di conversione
Basso costo, bassa frequenza, alta probabilità di conversione
![Page 28: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/28.jpg)
Google Trends (www.google.com/trends)
R.Polillo - Marzo 2013
30
Vedi anche www.google.com/zeitgeist/2012
![Page 29: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/29.jpg)
Risultati della ricerca: esempio (Google)
R.Polillo - Marzo 2013
31
PreviewCached Fiat
http://www.googleguide.com/cached_pages.html
![Page 30: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/30.jpg)
Ranking
I risultati della ricerca dovrebbero essere presentati sulla SERP in ordine di "rilevanza" (gli utenti considerano di solito solo i risultati nella prima pagina)
Il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
R.Polillo - Marzo 2013
32
![Page 31: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/31.jpg)
Google PageRank
Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University
L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono le pagine Web (a loro volta "importanti") che la linkano
In sostanza, è il meccanismo con cui vengono valutati i paper accademici
S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine”
1998: Brin e Page fondano Google Inc
R.Polillo - Marzo 2013
33
![Page 32: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/32.jpg)
PageRank: esempio34
R.Polillo - Marzo 2013
71
1
61
1
![Page 33: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/33.jpg)
PageRank: esempio35
http://en.wikipedia.org/wiki/PageRank
R.Polillo - Marzo 2013Per la spiegazione dell'algoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdf
![Page 34: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/34.jpg)
Risultati della ricerca: non solo link
Provate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- AZ637- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….
R.Polillo - Marzo 2013
37
Search engine → Answer engine
![Page 35: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/35.jpg)
Google: quali servizi di ricerca?
R.Polillo - Marzo 2013
38
Marzo 2013
![Page 36: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/36.jpg)
Google: quali servizi di ricerca?
R.Polillo - Marzo 2013
39
![Page 37: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/37.jpg)
Google: quali servizi di ricerca?
R.Polillo - Marzo 2013
40
![Page 38: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/38.jpg)
Google: quali servizi di ricerca?
R.Polillo - Marzo 2013
41
![Page 39: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/39.jpg)
Search history
La search history di ciascuno viene salvata nella "cronologia Web" (Google, Bing)
È possibile cancellare singoli elementi, o tutti Cronologia in Google:
entrare nel proprio account, ed entrare nella "dashboard"
Google sulla privacy delle ricerche (2007):http://www.youtube.com/watch?v=iPkvNr2cpqg
42
![Page 40: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/40.jpg)
SEO / SEM
SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di un sito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization
SEM: Search Engine MarketingAttività di promozione di un sito Web per migliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing
Page rank checker: esempio:http://www.whatsmypr.net
R.Polillo - Marzo 2013
43
![Page 41: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/41.jpg)
SEM/SEO44
La posizione (rank) in cui un sito viene mostrato dal motore di ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)
Molti specialisti indipendenti offrono servizi di consulenza affinchè il sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)
Le tecniche usate non sono sempre corrette: per es. vengono creati siti composti solo da link per far “salire” i siti che pagano
Periodicamente Google aggiorna gli algoritmi del motore per penalizzare quello che considera spamming da parte degli specialisti SEM/SEO
http://www.google.it/support/webmasters/bin/answer.py?answer=35291&hl=it
R.Polillo - Marzo 2013
![Page 42: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/42.jpg)
Google search: per saperne di più
Help di Google: http://support.google.com/websearch
Google Guide (indipendente da Google):http://www.googleguide.com
Wikipedia:http://en.wikipedia.org/wiki/Google_Search
R.Polillo - Marzo 2013
45
![Page 43: 6. Ricercare nel Web](https://reader035.vdocumenti.com/reader035/viewer/2022062319/557b316cd8b42a6d698b45e9/html5/thumbnails/43.jpg)
Lavoro individuale
Esplorare accuratamente le funzioni del motore di ricerca di Google, e confrontarle con quelle di Bing
Esplorare la propria dashboard (nel proprio account Google), e verificare quali informazioni sulla vostra storia sono memorizzate
Esplorate www.wolframalpha.com
R.Polillo - Marzo 2013
46