Title: Sommario
1Sommario
- Internet ed il World Wide Web
- Introduzione le reti di calcolatori
- Internet indirizzamento e protocolli di
comunicazione - Il World Wide Web come funziona e a cosa serve
- Ricerca di informazione sul Web
2Introduzione le reti di calcolatori
3Introduzione ? 1
- Una rete è costituita da due o più computer
collegati tra loro in modo tale da permettere
flusso di informazione - La più grande rete esistente al mondo è Internet
ogni computer connesso ad Internet è in grado di
comunicare con tutti i computer collegati
4Introduzione ? 2
- Internet ha rivoluzionato il mondo dei
calcolatori e della comunicazione come nulla
aveva fatto prima. È allo stesso tempo capacità
di diffusione a livello mondiale, un meccanismo
per disseminare informazioni ed un mezzo per
collaborazione ed interazione fra individui ed i
loro calcolatori, senza riguardo alla
collocazione geografica. (Leiner et al., A
brief history of the Internet, Feb. 97,
http//www.isoc.org/internethistory) - Internet offre una notevole varietà di servizi
informativi posta elettronica, ftp, login
remoto, accesso a newsgroup, etc. il WWW è di
gran lunga il più conosciuto
5Reti locali
- Una rete locale LAN (Local Area Network )
connette dispositivi hardware che si trovano
fisicamente vicini, nello stesso edificio o nella
stessa università - Per le LAN, il proprietario delle macchine è
anche il proprietario dei mezzi di comunicazione
non occorre acquistare servizi forniti da terzi,
come la compagnia telefonica - Il modello più diffuso di LAN è chiamato Ethernet
6Reti geografiche
- Una rete geografica WAN (Wide Area Network )
connette dispositivi che possono essere ai poli
opposti della stessa città o in città vicine (in
questo caso si parla più propriamente di MAN
Metropolitan Area Network ) o dallaltra parte
delloceano - Poiché le WAN attraversano proprietà pubbliche,
gli utenti di una WAN devono acquistare servizi
di telecomunicazione
- Le WAN impiegano linee di comunicazione
puntoapunto, che collegano direttamente due
calcolatori, anziché canali condivisi,
normalmente utilizzati per le LAN
7Servizi di rete
- Condivisione delle risorse sia fisiche (memorie
di massa, periferiche) che logiche (dati,
software) - Condivisione delle informazioni accesso ad
informazioni remote, di carattere scientifico,
medico, legale, commerciale - Posta elettronica conveniente (può essere
scritta/letta a qualsiasi ora del giorno e della
notte), veloce (un messaggio dagli USA arriva in
meno di un minuto), economica (i costi di
trasmissione non dipendono dalla distanza)
documenti di qualsiasi tipo (file, archivi,
foto, musica) possono essere acclusi in allegato
8Internet
9La storia di Internet ? 1
- Internet è la rete telematica più grande del
mondo, per estensione geografica e per numero di
utenti - Nel periodo della guerra fredda, il governo USA
sollecitò la creazione di DARPA, Defense Advanced
Research Project Agency, una struttura del
Dipartimento della Difesa con il compito di
mantenere le comunicazioni in caso di attacco
nucleare - Fu Paul Baran a ipotizzare, in un documento dal
titolo On Distributed Communication Networks, la
creazione di una rete priva di autorità centrale,
in cui tutti i nodi fossero indipendenti, di pari
gerarchia ed in grado di originare, passare e
ricevere messaggi (indipendentemente dalla
tipologia dei computer collegati)
10La storia di Internet ? 2
- I messaggi dovevano essere scomposti in
pacchetti, ognuno dei quali in grado di
raggiungere la propria destinazione seguendo un
percorso qualsiasi, qualora quello stabilito
fosse interrotto - Nel 1965, il DARPA finanziò uno studio sulle reti
cooperative di computer
- Nel 1969, il Dipartimento della Difesa
commissionò ARPANET, con lo scopo di promuovere
la ricerca per un piano di rete nazionale
militare il primo collegamento fu stabilito tra
due computer dellUniversità della California
(UCLA) e dello Stanford Research Institute
11La storia di Internet ? 3
- Internet non è gestita da alcuna istituzione
politica, culturale o economica, ma da un gruppo
di volontari, conosciuto come ISOC (Internet
Society ) - Fornire le dimensioni di Internet è impossibile
si calcola vi siano centinaia di milioni di
utenti, localizzati in ogni paese del mondo la
crescita esponenziale di Internet continua
12Le tappe fondamentali
- 1987 ? 10000 host
- 1989 ? 100000 host
- 1990 ? ARPANET diviene Internet, Tim
- Berners-Lee del CERN di Ginevra
- progetta il WWW
- 1991 ? primi software di navigazione
- 1992 ? nasce il protocollo HTTP
- 1993 ? prima versione (gratuita) di Mosaic,
- il primo browser grafico
- 1994 ? Netscape distribuisce gratuitamente
- via Internet, la versione beta
del - Navigator
- 1995 ? Microsoft realizza Explorer
1969 ? primo nodo di ARPANET 1971 ? ARPANET conta
15 nodi 1972 ? ARPANET congiunge 37 nodi 1973 ?
prima connessione internazionale
fra Inghilterra e Norvegia 1976 ? la regina
Elisabetta è il primo capo di
stato a spedire e-mail Jimmy
Carter e Walter Mondale coordinano
la campagna elettorale via e-mail (4
a messaggio) 1982 ? nasce il protocollo
TCP/IP 1983 ? la rete conta più di mille
nodi MILNET (rete militare) si
scinde da ARPANET (rete di ricerca
del mondo universitario)
13Internet la rete delle reti
- Conseguentemente ad ARPANET, nacquero HEPNet
(High Energy Physics Network), CSNET (Computer
Science Network), SPAN (Space Physics Access
Network), etc., per supportare lo scambio di
informazione scientifica nelle specifiche aree di
ricerca la proliferazione rapida e non
pianificata di reti indipendenti causa
incompatibilità e ostacola la comunicazione fra
utenti di reti distinte - Internetworking ogni WAN è libera di gestire
autonomamente la comunicazione al suo interno, ma
deve utilizzare uno schema comune di
indirizzamento e protocolli identici per
interfacciarsi alle altre reti - Internet diviene la rete delle reti reti
distinte si interconnettono attraverso gateway,
che realizzano la connessione effettiva e
forniscono i servizi di routing fra le diverse WAN
14Indirizzamento
- Uno schema globale e gerarchico di indirizzamento
identifica univocamente ogni utente ovunque
localizzato nel mondo - monica_at_dii.unisi.it
- identifica lutente Monica (Bianchini), con un
account su un calcolatore il cui indirizzo di
rete è rappresentato da ciò che sta a destra di
at, _at_ il calcolatore è situato nel Dipartimento
di Ingegneria dellInformazione (dii)
dellUniversità di Siena (unisi), in Italia (it) - Lo schema gerarchico di indirizzamento, che
procede dallo specifico al generale, è chiamato
Domain Name System (DNS) - Nella realtà, gli indirizzi di Internet sono
numeri binari a 32 bit gli indirizzi simbolici
più facili da memorizzare sono convertiti
automaticamente negli indirizzi numerici prima
della trasmissione di dati sulla rete
15Protocolli di comunicazione
- In informatica, le regole comuni per lo scambio
di informazioni vengono definite protocolli
usi e norme che regolano le formalità, il
diritto di precedenza e di cerimoniale
diplomatico definizione che si adatta
perfettamente al contesto della trasmissione
dellinformazione - TCP/IP Transmission Control Protocol/Internet
Protocol, descrive le regole e le procedure cui
le diverse WAN devono attenersi per
indirizzamento, formato dei messaggi, routing e
controllo degli errori è il linguaggio comune
parlato dalle reti di tutto il mondo
16Internet la diffusione ? 1
- Dalle origini al gennaio 2000, nei suoi primi
dieci anni di vita, Internet è cresciuto fino a
più di 72.4 milioni di calcolatori localizzati in
ogni parte del mondo, ed il DNS include
estensioni per 239 paesi, territori e
possedimenti, compresi il continente antartico
(.aq), Guinea Bissau (.gw), le isole Cocos (.cc),
Pitcairn (.pn), etc. - Secondo uno studio dellamericana Telcordia
Technologies, il numero degli Internet host
presenti nel mondo avrebbe superato i 100 milioni
nel 2000 - Questo dato rappresenta un incremento del 45
rispetto al 1999 - Gli utenti di Internet sono circa 350 milioni
- Nel primo semestre del 2004 gli Internet host
sono oltre 285 milioni
17Internet la diffusione ? 2
- Negli USA, lultima parte del DNS non identifica
lo stato, ma il tipo di sito commerciale (.biz,
.com), universitario (.edu), governativo (.gov),
militare (.mil), organizzazioni no profit (.org) - I principali servizi offerti (tramite TCP/IP)
sono il telnet, per realizzare il login remoto,
lFTP (File Transfer Protocol ) per il
trasferimento di file da macchine remote, lSMTP
(Simple Mail Transfer Protocol ) per la posta, ed
il World Wide Web per la condivisione di
informazione ipertestuale, che si avvale del
protocollo HTTP (HyperText Transfer Protocol ) - In Italia...
- Nel quinquennio 1990?95 si passa da 650 a 45000
host - Luglio 2000 1574000 host
- Giugno 2004 7447300 host
18Il World Wide Web
19Internet, ovvero il WWW ? 1
- WWW Whatever, Wherever, Whenever
- WWW World Wide Wait (lattesa planetaria)
- Information Nirvana
- Internet è la più grande anarchia operante nel
mondo. (Kevin Kelly) - Internet è la passeggiata curiosa in un grande
mercato delle pulci, dove ci si può divertire a
cercare notizie sugli extraterrestri, conoscere
il canto degli uccelli australiani o scambiarsi
opinioni sul gioco delle bocce - Il desiderio di Internet è così intenso che può
essere compreso solo come un fatto spirituale.
Quel desiderio indica che cè qualcosa che manca
nella nostra vita. E quello che manca è la voce
umana. Il Web promette il ritorno della voce
umana. (David Weinberger)
20Internet, ovvero il WWW ? 2
- Ogni sito è un punto di vista su Internet
- Internet non è né buono né cattivo, ma un
semplice mezzo per luso e labuso siamo noi che
gli diamo lanima, la nostra, buona o cattiva
inutile lodare, inutile maledire - Cercare informazioni su Internet equivale a
versare un aperitivo con la pompa della benzina - Ognuno proietta su Internet quello che fa (o
avrebbe voluto fare) nella vita reale un
ospedale virtuale, un supermercato elettronico,
una galleria con le emozioni vissute - Internet è la Mecca dei grafomani
- Internet è quel posto dove tutti navigano per
trovare un motivo per navigare - Internet è quella realtà nella quale gli
investitori pagano prezzi assurdi per azioni di
aziende di cui non sanno spiegare il business
21Internet, ovvero il WWW ? 3
- Il motore a vapore allinizio non ha cambiato la
vita che di poche persone ma quando è stato
montato su una locomotiva e messo sulle rotaie,
la società intera è stata trasformata. Il
computer è il motore a vapore, Internet le
rotaie. Saranno le rotaie di Internet a
diffondere la rivoluzione digitale e a cambiare
il mondo - La nuova Internet sarà questa non più utenti
che comunicano fra di loro via computer, bensì
computer in rete 24 ore su 24 che comunicano tra
loro per conto degli utenti. (Philip Greenspun,
MIT, Boston)
22Il World Wide Web
- Grazie al Web stiamo assistendo ad una
rivoluzione nellaccesso alle fonti di
informazione - Cercare nel Web è come accedere ad
unenciclopedia di miliardi di pagine senza un
indice né un ordine apparente - La erevolution avrà un enorme impatto in tutti i
campi del sapere e nella nostra vita quotidiana - Come rappresentiamo e misuriamo il Web ha un
severo impatto nei metodi di ricerca che
riusciamo a modellare - 3 utenti su 5 cercano nel Web sottoponendo query
(interrogazioni) a motori di ricerca come Google
o Altavista
23Il Web italiano ? 1
- Secondo i dati presentati da Eurisko nel febbraio
2005 (in base a ricerche fino a gennaio) il
numero totale di persone che accedono alla rete
in Italia, anche occasionalmente, sarebbe salito
a 14.5 milioni, che si riducono a 13.6 se si
escludono gli accessi in situazioni esterne, come
corsi di formazione, presso amici, in biblioteca
o bar e a 9.7 se si considerano le persone
che dicono di collegarsi almeno una volta alla
settimana - Sono circa 4 milioni le persone che dicono di
usare Internet tutti i giorni - Il numero totale di utenti dal lavoro, da casa o
da scuola nel gennaio 2005 è aumentato del 5
rispetto al gennaio 2004 (in mesi precedenti si
erano rilevati indici più alti per esempio un
aumento del 15 nel giugno 2004 rispetto a un
anno prima)
24Il Web italiano ? 2
Utenti Internet in Italia (gennaio 2001?gennaio
2005)
- Eurisko ritiene che il potenziale di sviluppo
si collochi fra i 23 e i 24 milioni di persone (e
che quindi lattuale penetrazione sia circa il
60 ) - Landamento di Internet in generale, e
particolarmente nei paesi più evoluti, indica che
siamo lontani da unipotetica soglia di
saturazione
25Previsioni
- Ci saranno più di 765 milioni di utenti nel mondo
? 118 ogni 1000 persone ? alla fine del 2005, in
base a quanto stimato dal CIA (Computer Industry
Almanac) - La quota di utenti Internet statunitensi è
destinata a calare dal 43 del totale di utenti
nel mondo alla fine del 1999 al 27 per la fine
del 2005 - LEuropa dellovest sta crescendo più velocemente
del nord America ed è destinata a diventare la
seconda area nel 2005 con più di 213 milioni di
utenti - La regione Asia?Pacifico sta crescendo ancora più
velocemente ed avrà approssimativamente 190
milioni di utenti nel 2005 - La quota di utilizzatori in centro e sud America,
e Africa, sta crescendo più lentamente, in
particolare in Africa (studi sociologici hanno
dimostrato che esiste una connessione diretta tra
livello culturale, occupazione ed utilizzo di
Internet)
26Internet interplanetario
27Linformazione ipertestuale ? 1
- Ipertesto raccolta di documenti connessi da
puntatori, gli hyperlink un documento
contenente informazione ipertestuale è una
pagina, nel linguaggio del Web - Lo standard linguistico per la scrittura di
pagine è HTML Hypertext Markup Language - Navigare sul Web significa accedere a pagine
successive, utilizzando i link per spostarsi da
pagina a pagina - I documenti ipertestuali possono essere
- memorizzati ovunque nei miliardi di
- computer collegati ad Internet e un link
- è il nome di una pagina e lindirizzo
- Internet della macchina su cui è
- memorizzata
28Linformazione ipertestuale ? 2
- Un link di un ipertesto fa riferimento ad un URL
(Uniform Resource Locator ), - protocollo//indirizzo_Internet/risorsa
- ?protocollo indica la natura
dellinformazione contenuta - nella pagina (http(s) ipertesto ftp file
download news - per informazioni da bollettini e
newsgroup mailto web - mail)
- ? indirizzo_Internet è lindirizzo DNS
della macchina su - cui la pagina è locata
- ? risorsa è lidentificativo della
risorsa, un file - memorizzato sulla macchina specificata
- http//wwwdii.ing.unisi.it/people.html
29Linformazione ipertestuale ? 3
- Quando si clicca su un link, la rete utilizza
i protocolli TCP/IPHTTP per stabilire una
connessione tra la macchina dellutente e la
macchina remota il cui indirizzo Internet è
puntato dallURL - Quando la connessione è stabilita, la pagina
richiesta viene trasferita alla macchina
dellutente e visualizzata sullo schermo il
fetch (reperimento) delle pagine e la loro
visualizzazione è gestita da un browser
(Netscape, MS Explorer) - Il WWW è la killer app , lapplicazione dalla
crescita più rapida e la più importante di
Internet
30Numero di anni per raggiungere 50.000.000 di
utenti
38 years
16 years
13 years
4 years
Internet
Radio Televisione PC
31Il commercio elettronico
- Termine applicato allutilizzo del Web per lo
scambio di merci, informazioni e servizi nel
settore commerciale - I primi servizi offerti dallecommerce
riguardavano soprattutto aspetti di ebusiness,
con lemissione di bonifici, lattivazione di
sportelli automatici per la gestione di
transazioni finanziarie da siti remoti,
lutilizzo di dispositivi di lettura alle casse
per la raccolta automatica di informazioni di
vendita - I POS (Point of Sale) per la lettura di carte di
credito e Bancomat sono esempi di servizi di
ebusiness - Più recentemente, con il WWW, si è assistito alla
diffusione del servizio in maniera capillare i
siti commerciali offrono tour interattivi nei
loro negozi virtuali - In rete possono essere acquistati con
transazioni sicure libri, cd musicali, dvd,
magliette, generi alimentari, che vengono
rapidamente recapitati a domicilio
32Commercio elettronico in Italia
- Nella sua accezione più sommaria, il commercio
elettronico è il risultato di un insieme di
transazioni commerciali svolte attraverso un
processo telematico - Tuttavia, il Ministero dellIndustria, del
Commercio e dellArtigianato lo definisce come - L'E-Commerce consiste nello svolgimento di
attività commerciali e di transazioni per via
elettronica e comprende attività diverse quali
la commercializzazione di beni e servizi per via
elettronica, la distribuzione on-line di
contenuti digitali, l'effettuazione per via
elettronica di operazioni finanziarie e di borsa,
gli appalti pubblici per via elettronica ed altre
procedure di tipo transattivo della pubblica
Amministrazione - Le società multinazionali per tecnologiche
avanzate (come Cisco e Oracle) sono state tra le
prime che hanno trasferito i loro acquisti e gran
parte delle loro vendite sul Web
33Sicurezza in rete
- Dalla rapida crescita delle transazioni
economiche sulla rete proviene la necessità di
incrementare la sicurezza se un hacker rubasse
i numeri delle carte di credito usate per
acquisti online o ottenesse laccesso agli
archivi di una banca, potrebbero verificarsi
perdite economiche catastrofiche - La sicurezza in rete coinvolge
- ? il problema dellautenticazione
(verifica dellidentità di chi - effettua la transazione)
- ? il problema della crittazione/decrittaz
ione (per la sicurezza - dellinformazione durante la
trasmissione) - ? la tolleranza ai guasti (per la
sicurezza delle transazioni in - presenza di guasti software/hardware)
34Ricerca di informazione sul Web
35Perché non è facile trovare informazione sul Web?
- Enorme massa di informazione
- ?20 miliardi di pagine (stimate), ?48
- milioni nel Web italiano, 3 milioni di
- pagine aggiunte ogni giorno il Web
- raddoppia ogni 2 anni
- Linformazione è spesso accessibile solo
attraverso maschere di ricerca - I motori di ricerca indicizzano le pagine con
circa 15 giorni di ritardo - Poca o nessuna possibilità di personalizzare gli
strumenti di ricerca
36Il modello a papillon
Modello generato dalla raccolta di 200
milioni di pagine Il raggio del core
è stimato pari a 19 clic
37Deep Web
- Il deep Web è rappresentato da tutti i siti
inaccessibili ai motori di ricerca tradizionali
500 miliardi di documenti racchiusi in oltre
100.000 siti che permettono di accedere
dinamicamente ad informazioni strutturate nei
propri archivi - I motori di ricerca censiscono solo le singole
pagine statiche dei siti, e cioè il surface Web
38Che tipo di informazione si trova sul Web?
- Le homepage di 2500 server Web sono state
classificate manualmente ? 83 siti commerciali - Il numero di siti su argomenti specifici è
abbastanza piccolo è perciò possibile creare
motori di ricerca verticali relativi ad un
singolo argomento - Il 65 dei siti è in inglese
- Circa il 7 degli utenti Internet sono di lingua
tedesca, ? il 51 parlano inglese, e poco più del
7 sono giapponesi
39Motori di ricerca
- Ve ne sono probabilmente di 3000, ma i 20 più
usati coprono il 98 di tutte le ricerche - Architettura dei motori di ricerca
- Web crawler colleziona documenti di testo, html,
etc. - Indexer indicizza alcune delle pagine raccolte
e, a fronte di ogni interrogazione, fornisce una
serie di documenti in ordine di importanza - Query engine effettua le query sul database
locale - Query interface realizza linterfaccia per la
formulazione delle interrogazioni
40Confrontare i motori di ricerca
- Criteri di valutazione
- Indicizzazione delle pagine
- Copertura
- Freschezza dellinformazione
- Velocità
- Affidabilità
- Facilità di utilizzo
41Come i Web navigator usano i motori di ricerca
- Le interrogazioni fatte in base ad ununica
chiave di ricerca sono il 50, mentre l1 dei
termini più usati è presente nel 10 delle
interrogazioni - La categoria sesso è nettamente la più
richiesta - Per una data ricerca, ciascun utente effettua, in
media, 4.87 query - In media, vengono utilizzati 2.11 termini per
ricerca nei normali database, le interrogazioni
sono tra 3 e 7 volte più articolate - Gli operatori booleani (and e or ) sono usati 1
volta ogni 15 query, ma il 33 delle volte non
sono immessi in modo corretto - I modificatori (, ?, ) sono usati 1 volta
ogni 9 query, ma il 75 delle volte lutilizzo è
scorretto
42Informazione non reperibile dai motori di ricerca
- Lhidden Web, è il Web nascosto dietro maschere
di ricerca o firewall - Porzioni di Web non raggiungibili dalle altre
pagine (pagine mai puntate dallesterno) - Pagine a cui i robot dei motori di ricerca non
possono accedere a causa dei Robots exclusion
standards - Il Web dinamico (deep Web), che varia più
velocemente della frequenza di aggiornamento dei
database dei motori di ricerca
43Perché i motori non indicizzano tutto il Web?
- Limiti tecnologici
- a) Banda/tempo per effettuare il download
- b) Spazio su disco per memorizzare linformazione
Vi è un limite oltre il quale non è
economicamente conveniente indicizzare di più ?
Soluzione Motori di ricerca specializzati,
portali verticali
44Una generazione avanti Google
- Google tiene in considerazione linformazione
- topologica inclusa nellipergrafo del Web
- PageRank, il metodo di indicizzazione
utilizzato - da Google, usa concetti simili a quelli
classici - delleditoria cartacea per valutare
limportanza - di una pagina tiene conto di
- quanti link puntano ad una pagina per deciderne
limportanza - inoltre, link da pagine popolari sono più
importanti - Esamina il testo dei link della pagina per
valutare la necessità di sondarli in relazione
alla stessa interrogazione - Google indicizza più di 8 miliardi di pagine
(gennaio 2005) raggiunge così un numero di
elementi web ricercabili che supera quello di
qualsiasi altro concorrente