Deep Web

Todeep web(επίσης γνωστό και ωςdeepnet,undernet,τοαόρατο Webή τοκρυμμένο Web) αναφέρεται στο περιεχόμενο τουWorld Wide Webπου δεν ανήκει στονΕπιφανειακό Web(Surface Web), το οποίο ευρετηριάζεται από μία συνηθισμένημηχανή αναζήτησης.

Ο Mike Bergman, ιδρυτής του BrightPlanet,^[1]που επινόησε τη φράση,^[2]είχε πει πως το να ψάχνει κανείς στο Internet σήμερα είναι σαν να σέρνει ένα δίχτυ στην επιφάνεια του ωκεανού: πολλά μπορεί να πιαστούν στο δίχτυ, αλλά υπάρχει ένας πλούτος πληροφοριών που βρίσκονται βαθιά και επομένως δεν μπορούν να πιαστούν. Οι περισσότερες πληροφορίες του Web είναι θαμμένες μέσα σειστότοπουςμε δυναμικά παραγόμενες ιστοσελίδες, και οι συνηθισμένες μηχανές αναζήτησης δεν μπορούν να τις εντοπίσουν. Οι παραδοσιακές μηχανές αναζήτησης δεν μπορούν να ανακτήσουν το περιεχόμενο του deep Web. Αυτές οι σελίδες δεν υπάρχουν μέχρι να δημιουργηθούν δυναμικά ως το αποτέλεσμα μιας συγκεκριμένης αναζήτησης. Το deep Web είναι αρκετέςτάξεις μεγέθουςμεγαλύτερο από το επιφανειακό Web.^[3]

Μέγεθος

Σύμφωνα με εκτιμήσεις που έγιναν σε μία μελέτη στοΠανεπιστήμιο της Καλιφόρνιας, Μπέρκλεϋ(University of California, Berkeley) το 2001^[3],το deep Web αποτελείται περίπου από 91.000terabytes.Αντίθετα το επιφανειακό Web (που είναι εύκολα προσπελάσιμο από τις μηχανές αναζήτησης) είναι περίπου 167 terabytes. ΗΒιβλιοθήκη του Κογκρέσου,υπολογίστηκε πως το 1997 είχε 3.000 terabytes. Το 2011, τοYouTubeυπολογίζεται ότι είχε αποθηκευμένα περίπου 200 εκατομμύρια βίντεο, συνολικού μεγέθους 5 petabytes ή 5000 terabytes. Ο υπολογισμός του μεγέθους του web διαφέρει από πηγή σε πηγή και έτσι υπάρχει ένα μεγάλο περιθώριο λάθους και κανένας αριθμός δε μπορεί να θεωρηθεί ως ακριβής.^[4]Ωστόσο σχετικά με τον αριθμό των πηγών του deep Web υπάρχουν πιο ακριβείς εκτιμήσεις: Το 2004 ο He ανακάλυψε 300.000 deep web sites σε ολόκληρο το Web,^[5]και σύμφωνα με τον Shestakov, περίπου 14.000 deep web sites υπήρχαν στο Ρώσικο τμήμα του Web το 2006.^[6]

Πληροφορίες του Deep Web

Οι πληροφορίες του Deep Web ανήκουν σε μία ή περισσότερες από τις παρακάτω κατηγορίες:

Δυναμικά παραγόμενο περιεχόμενο:δυναμικές ιστοσελίδεςοι οποίες δημιουργούνται ως αποτέλεσμα της εκτέλεσης κάποιας επερώτησης (query) ή προσπελαύνονται μόνο μέσω κάποιας φόρμας.
Μη συνδεδεμένο περιεχόμενο: ιστοσελίδες οι οποίες δεν περιέχουνσυνδέσμουςαπό άλλες ιστοσελίδες, εμποδίζοντας έτσι τα προγράμματα που κάνουνWeb crawlingνα επισκεφθούν το περιεχόμενό τους.
Ιδιωτικό Web: ιστότοποι που απαιτούν εγγραφή (registration) και κωδικό πρόσβασης.
Περιεχόμενο περιορισμένης πρόσβασης: ιστότοποι που περιορίζουν την πρόσβαση στις σελίδες τους με τεχνικό τρόπο (π.χ. χρησιμοποιώντας τοRobots Exclusion Standard,CAPTCHAs,ή το no-cache Pragma στις επικεφαλίδες του πρωτοκόλλουHTTP,τα οποία απαγορεύουν στις μηχανές αναζήτησης να πλοηγούνται στις ιστοσελίδες τους^[7]).
Περιεχόμενο που δεν είναι σε μορφήHTML:κείμενα που συμπεριλαμβάνονται σε multimedia αρχεία (εικόνες ή video) ή που έχουν συγκεκριμένη μορφή την οποία δεν μπορούν να χειριστούν οι μηχανές αναζήτησης.
Κείμενα που χρησιμοποιούν το παλαιότερο πρωτόκολλοGopherκαι αρχεία που βρίσκονται σε διακομιστέςFTPκαι τα οποία δεν μπορούν να εντοπιστούν από τις περισσότερες μηχανές αναζήτησης. Οι μηχανές αναζήτησης όπως η Google δεν δεικτοδοτούν ιστοσελίδες που βρίσκονται έξω από το πρωτόκολλο HTTP.^[8]

Προσπέλαση

Οι μηχανές αναζήτησης ανακαλύπτουν περιεχόμενο στο Web, χρησιμοποιώνταςweb crawlersπου ακολουθούνσυνδέσμους.Αυτή η τεχνική είναι ιδανική για να ανακαλύψει κανείς πληροφορίες στοΕπιφανειακό Web(Surface Web) αλλά είναι αναποτελεσματική στην εύρεση πληροφοριών από το deep Web. Για παράδειγμα, αυτοί οι crawlers δεν προσπαθούν να βρουν δυναμικές ιστοσελίδες που προέρχονται από ερωτήματα σεβάσεις δεδομένωνεπειδή τα ερωτήματα αυτά θα ήταν θεωρητικά άπειρα.^[2]

Το 2005, ηYahoo!έκανε ένα μικρό κομμάτι του deep Web ερευνήσιμο με τη χρήση των Yahoo! Subscriptions. Αυτή η μηχανή αναζήτησης ψάχνει μόνο μέσω λίγων συνδρομητικών ιστοτόπων. Κάποιοι τέτοιοι ιστότοποι εμφανίζουν όλο τους το περιεχόμενο στα robots των μηχανών αναζήτησης, έτσι ώστε να εμφανίζονται στις αναζητήσεις των χρηστών, αλλά μετά εμφανίζουν στους χρήστες μία σελίδα για login ή συνδρομή.

Αναφορές

↑«Αρχειοθετημένο αντίγραφο»(PDF).Αρχειοθετήθηκεαπό το πρωτότυπο(PDF)στις 11 Νοεμβρίου 2011.Ανακτήθηκε στις 9 Ιανουαρίου 2012.
↑^2,0^2,1Wright, Alex (2009-02-22).«Exploring a 'Deep Web' That Google Can’t Grasp».The New York Times.http://www.nytimes.com/2009/02/23/technology/internet/23search.html?th&emc=th.Ανακτήθηκε στις 2009-02-23.
↑^3,0^3,1Bergman, Michael K (August 2001).«The Deep Web: Surfacing Hidden Value».The Journal of Electronic Publishing7(1).doi:10.3998/3336451.0007.104.Αρχειοθετήθηκε απότο πρωτότυποστις 2011-11-11.https://web.archive.org/web/20111111190250/http://brightplanet.com/images/uploads/12550176481-deepwebwhitepaper.pdf.Ανακτήθηκε στις 2012-01-09.
↑Michael, Lesk. "How much information is there in the world?".Ανακτήθηκε στις 2009-02-24.
↑He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (May 2007).«Accessing the Deep Web: A Survey».Communications of the ACM (CACM)50(2): 94–101.doi:10.1145/1230819.1241670.http://doi.acm.org/10.1145/1230819.1241670.
↑Denis Shestakov(2011).«Sampling the National Deep Web»(PDF).Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA).Springer, pp. 331-340.http://www.mendeley.com/download/public/1423991/4300016182/a07080a3191f90cc97cf60fcd21566b1b915d894/dl.pdf.Ανακτήθηκε στις 2011-10-06.^{[νεκρός σύνδεσμος]}
↑«HTTP 1.1: Header Field Definitions (14.32 Pragma)».HTTP — Hypertext Transfer Protocol.World Wide Web Consortium.1999.Ανακτήθηκε στις 24 Φεβρουαρίου 2009.
↑«Gopher — DeepGeek».www.talkgeektome.us.29 Νοεμβρίου 2009. Αρχειοθετήθηκεαπό το πρωτότυποστις 25 Ιουλίου 2011.Ανακτήθηκε στις 25 Ιουλίου 2011.

Επιπλέον Ανάγνωση

Barker, Joe (Jan 2004),«Invisible Web: What it is, Why it exists, How to find it, and its inherent ambiguity»,Teaching Library Internet Workshops,Berkeley, CA, USA: UC,http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html.
Gruchawka, Steve (June 2006),How-To Guide to the Deep Web,http://techdeepweb.com/,ανακτήθηκε στις 2012-01-09.
Hamilton, Nigel (2003),The Mechanics of a Deep Net Metasearch Engine,12th World Wide Web Conference,http://www2003.org/cdrom/papers/poster/p170/poster/poster.html.
He, Bin (2003).«Statistical Schema Matching across Web Query Interfaces»(PDF).Proceedings of the 2003 ACM SIGMOD International Conference on Management of Data.Αρχειοθετήθηκε απότο πρωτότυποστις 2011-07-20.https://web.archive.org/web/20110720085124/http://eagle.cs.uiuc.edu/pubs/2003/unifiedschema-sigmod03-hc-mar03.pdf.Ανακτήθηκε στις 2012-01-09.
Ipeirotis, Panagiotis G. (2001).«Probe, Count, and Classify: Categorizing Hidden-Web Databases»(PDF).Proceedings of the 2001 ACM SIGMOD International Conference on Management of Data,pp. 67–78. Αρχειοθετήθηκε απότο πρωτότυποστις 2006-09-12.https://web.archive.org/web/20060912141432/http://qprober.cs.columbia.edu/publications/sigmod2001.pdf.Ανακτήθηκε στις 2012-01-09.
King, John D.; Li, Yuefeng; Tao, Daniel; Nayak, Richi (November 2007).«Mining World Knowledge for Analysis of Search Engine Content»(PDF).Web Intelligence and Agent Systems: an International Journal5(3): 233–53. Αρχειοθετήθηκε απότο πρωτότυποστις 2008-12-03.https://web.archive.org/web/20081203104452/http://sky.fit.qut.edu.au/~kingj2/downloads/king07mining.pdf.Ανακτήθηκε στις 2012-01-09.
McCown, Frank; Liu, Xiaoming; Nelson, Michael L; Zubair, Mohammad (Mar/Apr 2006).«Search Engine Coverage of the OAI-PMH Corpus»(PDF).IEEE Internet Computing10(2): 66–73.doi:10.1109/MIC.2006.41.http://library.lanl.gov/cgi-bin/getfile?LA-UR-05-9158.pdf.
Price, Gary (2001).The Invisible Web: Uncovering Information Sources Search Engines Can't See.CyberAge Books.ISBN 0-910965-51-X.Unknown parameter|month=ignored (βοήθεια);Unknown parameter|coauthors=ignored (|author=suggested) (βοήθεια)
Shestakov, Denis (June 2008).Search Interfaces on the Web: Querying and Characterizing.TUCS Doctoral Dissertations 104, University of Turku
Wright, Alex (Mar 2004),In Search of the Deep Web,Salon,http://www.salon.com/tech/feature/2004/03/09/deep_web/.
Caio, Noilson (Jul 2011),Introdução a invisible web,http://ncaio.ithub.com.br/2011/07/18/introducao-a-invisible-web/,ανακτήθηκε στις 2012-01-09.

Εξωτερικοί Σύνδεσμοι

Whoriskey, Peter (Thursday, December 11, 2008),Firms Push for a More Searchable Federal Web,The Washington Post, σελ. D01,http://www.washingtonpost.com/wp-dyn/content/article/2008/12/10/AR2008121003241.html.

[1] «Αρχειοθετημένο αντίγραφο»(PDF).Αρχειοθετήθηκεαπό το πρωτότυπο(PDF)στις 11 Νοεμβρίου 2011.Ανακτήθηκε στις 9 Ιανουαρίου 2012.

[wright2009-2] 2,0^2,1Wright, Alex (2009-02-22).«Exploring a 'Deep Web' That Google Can’t Grasp».The New York Times.http://www.nytimes.com/2009/02/23/technology/internet/23search.html?th&emc=th.Ανακτήθηκε στις 2009-02-23.

[bergman2001-3] 3,0^3,1Bergman, Michael K (August 2001).«The Deep Web: Surfacing Hidden Value».The Journal of Electronic Publishing7(1).doi:10.3998/3336451.0007.104.Αρχειοθετήθηκε απότο πρωτότυποστις 2011-11-11.https://web.archive.org/web/20111111190250/http://brightplanet.com/images/uploads/12550176481-deepwebwhitepaper.pdf.Ανακτήθηκε στις 2012-01-09.

[4] Michael, Lesk. "How much information is there in the world?".Ανακτήθηκε στις 2009-02-24.

[he07-5] He, Bin; Patel, Mitesh; Zhang, Zhen; Chang, Kevin Chen-Chuan (May 2007).«Accessing the Deep Web: A Survey».Communications of the ACM (CACM)50(2): 94–101.doi:10.1145/1230819.1241670.http://doi.acm.org/10.1145/1230819.1241670.

[shestakov11-6] Denis Shestakov(2011).«Sampling the National Deep Web»(PDF).Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA).Springer, pp. 331-340.http://www.mendeley.com/download/public/1423991/4300016182/a07080a3191f90cc97cf60fcd21566b1b915d894/dl.pdf.Ανακτήθηκε στις 2011-10-06.^{[νεκρός σύνδεσμος]}

[7] «HTTP 1.1: Header Field Definitions (14.32 Pragma)».HTTP — Hypertext Transfer Protocol.World Wide Web Consortium.1999.Ανακτήθηκε στις 24 Φεβρουαρίου 2009.

[8] «Gopher — DeepGeek».www.talkgeektome.us.29 Νοεμβρίου 2009. Αρχειοθετήθηκεαπό το πρωτότυποστις 25 Ιουλίου 2011.Ανακτήθηκε στις 25 Ιουλίου 2011.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]