10 - ricercare nel web ii
TRANSCRIPT
![Page 1: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/1.jpg)
Università degli Studi di Milano BicoccaDipartimento di Informatica, Sistemistica e ComunicazioneCorso di Strumenti e applicazioni del Web
10. Ricercare nel Web (Parte II)
Giuseppe Vizzari
Edizione 2015-16
![Page 2: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/2.jpg)
Queste slideQueste slide fanno parte del corso “Strumenti e applicazioni del Web”. Il sito del corso, con il materiale completo, si trova in strumentiapplicazioniweb.wordpress.com. Data la rapida evoluzione della rete, il corso viene aggiornato ogni anno. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo – 3.0” (http://creativecommons.org/licenses/by-nc-sa/3.0/it/deed.it ):
La licenza non si estende alle immagini provenienti da altre fonti e alle screen shot, i cui diritti restano in capo ai rispettivi proprietari, che, ove possibile, sono stati indicati. L'autore si scusa per eventuali omissioni, e resta a disposizione per correggerle.
![Page 3: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/3.jpg)
Motori di ricerca: struttura
3
Interfaccia Query processing
Rankingdei
risultati
Query
Risultati(SERP)
Front-end process
Indici + cached pages
CrawlerCrawler IndicizzatoreCrawler
RichiestePagine
web
Pagine webWW
W
Back-end process
![Page 4: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/4.jpg)
Semplificando al massimo…
URL PAGINE
CACHE
Keyword
URLs
INDICE
IndicizzatoreCrawler
Query processing
![Page 5: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/5.jpg)
Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
5
![Page 6: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/6.jpg)
Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
6
![Page 7: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/7.jpg)
TF-IDF di base…• TF-IDF sta per term frequency –
inverse document frequency• Si tratta di una statistica che dà
conto di quanto un termine sia significativo per scegliere un documento all’interno di un certo insieme di documenti (corpus)• Matematicamente è il prodotto di
una funzione legata alla frequenza del termine nel documento e di un’altra funzione che decresce quanto più il termine è frequente nei documenti del corpus• In pratica, un termine per essere
importante deve essere presente nel documento ma anche non essere troppo frequente nel corpus
CorpusDocument
Searched term
![Page 8: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/8.jpg)
Ricerche con più termini?
• Una query con più termini può essere vista come un vettore di termini…• Per ogni termine si può
calcolare il valore TF-IDF di ogni documento nel corpus…• Si possono aggregare questi
valori per ricavare un valore di rilevanza del documento per la query specificata• … una presentazione più
dettagliata richede l’uso di alcune formule matematiche che preferisco evitare di mostrarvi
CorpusDocument
Searched terms
![Page 9: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/9.jpg)
Ranking
• Gli utenti considerano di solito solo i risultati nella prima SERP
i risultati devono essere presentati in ordine di rilevanza il successo di un motore di ricerca è fortemente legato al suo algoritmo di ranking
9
![Page 10: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/10.jpg)
Google PageRank
•Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University• L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono numerose e importanti le pagine Web che la linkano•S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine” • In sostanza, è il meccanismo con cui vengono valutati i paper accademici •1998: Brin e Page fondano Google Inc
10
![Page 11: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/11.jpg)
PageRank: esempio
11
![Page 12: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/12.jpg)
PageRank: esempio
12
7 1
1
61
1
![Page 14: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/14.jpg)
L’algoritmo: altri criteri
•Google utilizza oltre 200 criteri per il ranking delle pagine • I criteri sono segreti e in continua evoluzione•Esempi:• Parole chiave in parti specifiche della pagina (titolo, header, testo …)• Età del sito• Qualità dei contenuti• Ranking fra i siti di analogo argomento• Numero di accessi via URL della pagina• Numero di accessi da parte di chi cerca• Tempo speso sulla pagina dagli utenti• ….
14
![Page 15: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/15.jpg)
SEO / SEM
• SEO: Search Engine OptimizationMetodi e tecniche per migliorare il ranking di un sito Web, per i vari motori di ricercahttp://http://en.wikipedia.org/wiki/Search_engine_optimization • SEM: Search Engine Marketing
Attività di promozione di un sito Web per migliorarne il ranking dei motori di ricercahttp://en.wikipedia.org/wiki/Search_engine_marketing• Page rank checker: esempio:http://www.whatsmypr.net
15
![Page 16: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/16.jpg)
SEM/SEO• La posizione (rank) in cui un sito viene mostrato dal motore di
ricerca è estremamente importante (chi ricerca utilizza le prime posizioni, e non guarda oltre la prima pagina)• Molti specialisti indipendenti offrono servizi di consulenza affinchè il
sito cliente acquisisca un buon rank (SEM/SEO: Search Engine Marketing / Search Engine Optimization)• Le tecniche usate non sono sempre corrette: per es. vengono creati
siti composti solo da link per far “salire” i siti che pagano• Periodicamente Google aggiorna gli algoritmi del motore per
penalizzare quello che considera spamming da parte degli specialisti SEM/SEO• http://www.google.it/support/webmasters/bin/answer.py?answer=35
291&hl=it
16
![Page 17: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/17.jpg)
Risultati della ricerca: non solo link Provate a cercare (su Google e Bing):- weather Milano- time San Francisco- sunrise New York- 5*9+(sqrt 10)^3=- Ernest Hemingway- Population Milan- define philosophy- ristoranti 20143- movies 20143- mappa 20143- mappa corso italia 6 milano- concessionari Fiat- ….
17
Search engine → Answer engine
![Page 18: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/18.jpg)
Vedere le pagine cashed (Google search)
18http://www.digitaltrends.com/computing/directly-access-google-cached-pages/#!BqSUt
![Page 19: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/19.jpg)
Risultati della ricerca: semantica
19
Search engine → Answer engine
• Google Knowledge Graph - https://youtu.be/mmQl6VGvX-c
![Page 20: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/20.jpg)
Google: quali servizi di ricerca?
20
Marzo 2013
![Page 21: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/21.jpg)
Google: quali servizi di ricerca?
21
![Page 22: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/22.jpg)
Google: quali servizi di ricerca?
22
![Page 23: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/23.jpg)
Google: quali servizi di ricerca?
23
![Page 24: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/24.jpg)
Search history • La search history di ciascuno viene salvata nella ”search
history" (Google, Bing)• (Non confonderla con la cronologia Web, che è raccolta dal browser)• È possibile cancellare singoli elementi, o tutti
24
Search history in Google: entrare nel proprio account, ed entrare nella "dashboard”, e…. guardate quello che Google sa di voi
![Page 25: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/25.jpg)
La coda lunga delle ricerche
25Search terms
Freq
uenz
aAlta frequenza, bassa probabilità di trovare l’informazione desiderata
Bassa frequenza, alta probabilità di trovare l’informazione… in linea di massima!
“negozi scarpe uomo centro milano”
![Page 26: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/26.jpg)
Google Trends (www.google.com/trends)
26
Vedihttp://www.google.com/trends/topcharts?date=2014
![Page 27: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/27.jpg)
Google Ngram viewer (https://books.google.com/ngrams/)
27
![Page 28: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/28.jpg)
SERP: struttura tipica
28
Search box
Risultati sponsorizzati
Opzioni per la ricerca
Risultati "organici"
(non influenzati
dalle sponsorizzazio
ni)
Google:AdWords
![Page 29: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/29.jpg)
Google search: per saperne di più
• Help di Google: http://support.google.com/websearch • Wikipedia:
http://en.wikipedia.org/wiki/Google_Search
29
![Page 30: 10 - Ricercare nel web II](https://reader036.vdocumenti.com/reader036/viewer/2022062311/58eec39a1a28abca5a8b45e3/html5/thumbnails/30.jpg)
Lavoro individuale
• Esplorare accuratamente le funzioni del motore di ricerca di Google, [e confrontarle con quelle di Bing]• Esplorare la propria dashboard (nel proprio account Google), e verificare quali informazioni sulla vostra storia sono memorizzate (importantissimo!)• Esplorate www.wolframalpha.com Guardate che cosa Wolfram alpha vi dice della VOSTRA attività su Facebook cercare su Google: wolfram personal analytics
30