Võng lạc ba trùng

Võng lạc trảo thủ tín tức đích ứng dụng trình tự
Thu tàng
0Hữu dụng +1
0
Đồng nghĩa từSưu tác dẫn kình tri chu( sưu tác dẫn kình tri chu ) nhất bàn chỉ võng lạc ba trùng
Võng lạc ba trùng ( hựu xưng viVõng hiệt tri chu,Võng lạc cơ khí nhân, tạiFOAFXã khu trung gian, canh kinh thường đích xưng vi võng hiệt truy trục giả ), thị nhất chủng án chiếu nhất định đích quy tắc, tự động địa trảo thủVạn duy võngTín tức đíchTrình tựHoặc giảCước bổn.Lánh ngoại nhất ta bất thường sử dụng đích danh tự hoàn hữu mã nghĩ,Tự động tác dẫn,Mô nghĩ trình tựHoặc giả nhuyễn trùng.
Trung văn danh
Võng lạc ba trùng
Ngoại văn danh
web crawler
Biệt danh
Võng lạc tri chu,Nhuyễn trùng,Võng lạc cơ khí nhân
Bính âm
wǎng luò pá chóng
Mục đích
Án yếu cầu hoạch thủVạn duy võngTín tức
Tác dụng
Trảo thủVõng trạmThượng đích tín tức
Toán pháp
Võng lạc thác phác,Cơ vu võng hiệt nội dung hòa cơ vu dụng hộ phóng vấn hành vi tam chủng toán pháp

Sản sinh bối cảnh

Bá báo
Biên tập
Tùy trứ võng lạc đích tấn tốc phát triển,Vạn duy võngThành vi đại lượng tín tức đích tái thể, như hà hữu hiệu địa đề thủ tịnh lợi dụng giá ta tín tức thành vi nhất cá cự đại đích thiêu chiến.Sưu tác dẫn kình( Search Engine ), lệ như truyện thống đích thông dụng sưu tác dẫn kình AltaVista, Yahoo! HòaGoogleĐẳng, tác vi nhất cá phụ trợ nhân môn kiểm tác tín tức đích công cụ thành vi dụng hộ phóng vấn vạn duy võng đích nhập khẩu hòa chỉ nam. Đãn thị, giá ta thông dụng tính sưu tác dẫn kình dã tồn tại trứ nhất định đích cục hạn tính, như:
( 1 ) bất đồng lĩnh vực, bất đồng bối cảnh đích dụng hộ vãng vãng cụ hữu bất đồng đích kiểm tác mục đích hòa nhu cầu, thông quá sưu tác dẫn kình sở phản hồi đích kết quả bao hàm đại lượng dụng hộ bất quan tâm đích võng hiệt.
( 2 ) thông dụngSưu tác dẫn kìnhĐích mục tiêu thị tẫn khả năng đại đích võng lạc phúc cái suất, hữu hạn đích sưu tác dẫn kình phục vụ khí tư nguyên dữ vô hạn đíchVõng lạc sổ cưTư nguyên chi gian đích mâu thuẫn tương tiến nhất bộ gia thâm.
( 3 )Vạn duy võngSổ cư hình thức đích phong phú hòaVõng lạc kỹ thuậtĐích bất đoạn phát triển, đồ phiến, sổ cư khố, âm tần, thị tần đa môi thể đẳng bất đồng sổ cư đại lượng xuất hiện, thông dụng sưu tác dẫn kình vãng vãng đối giá ta tín tức hàm lượng mật tập thả cụ hữu nhất định kết cấu đích sổ cư vô năng vi lực, bất năng ngận hảo địa phát hiện hòa hoạch thủ.
( 4 ) thông dụng sưu tác dẫn kình đại đa đề cung cơ vu quan kiện tự đích kiểm tác, nan dĩ chi trì căn cưNgữ nghĩa tín tứcĐề xuất đích tra tuân.
Võng lạc ba trùng
Vi liễu giải quyết thượng thuật vấn đề, định hướng trảo thủ tương quan võng hiệt tư nguyên đích tụ tiêu ba trùng ứng vận nhi sinh. Tụ tiêu ba trùng thị nhất cá tự động hạ tái võng hiệt đích trình tự, tha căn cư kí định đích trảo thủ mục tiêu, hữu tuyển trạch đích phóng vấnVạn duy võngThượng đích võng hiệt dữ tương quan đích liên tiếp, hoạch thủ sở nhu yếu đích tín tức. Dữ thông dụng ba trùng ( general purpose web crawler ) bất đồng, tụ tiêu ba trùng tịnh bất truy cầu đại đích phúc cái, nhi tương mục tiêu định vi trảo thủ dữ mỗ nhất đặc định chủ đề nội dung tương quan đích võng hiệt, viDiện hướng chủ đềĐích dụng hộ tra tuân chuẩn bị sổ cư tư nguyên.
Tụ tiêu ba trùng công tác nguyên lý dĩ cậpQuan kiện kỹ thuậtKhái thuật
Võng lạc ba trùng thị nhất cá tự động đề thủ võng hiệt đích trình tự, tha viSưu tác dẫn kìnhTòng vạn duy võng thượng hạ tái võng hiệt, thị sưu tác dẫn kình đích trọng yếu tổ thành. Truyện thống ba trùng tòng nhất cá hoặc nhược càn sơ thủy võng hiệt đích URL khai thủy, hoạch đắc sơ thủy võng hiệt thượng đích URL, tại trảo thủ võng hiệt đích quá trình trung, bất đoạn tòng đương tiền hiệt diện thượng trừu thủ tân đích URL phóng nhập đội liệt, trực đáo mãn túc hệ thống đích nhất địnhĐình chỉ điều kiện.Tụ tiêu ba trùng đíchCông tác lưu trìnhGiác vi phục tạp, nhu yếu căn cư nhất định đíchVõng hiệt phân tích toán phápQuá lự dữ chủ đề vô quan đích liên tiếp, bảo lưu hữu dụng đích liên tiếp tịnh tương kỳ phóng nhập đẳng đãi trảo thủ đích URL đội liệt. Nhiên hậu, tha tương căn cư nhất định đích sưu tác sách lược tòng đội liệt trung tuyển trạch hạ nhất bộ yếu trảo thủ đích võng hiệt URL, tịnh trọng phục thượng thuật quá trình, trực đáo đạt đáo hệ thống đích mỗ nhất điều kiện thời đình chỉ. Lánh ngoại, sở hữu bị ba trùng trảo thủ đích võng hiệt tương hội bị hệ thống tồn trữ, tiến hành nhất định đích phân tích, quá lự, tịnh kiến lập tác dẫn, dĩ tiện chi hậu đích tra tuân hòa kiểm tác; đối vu tụ tiêu ba trùng lai thuyết, giá nhất quá trình sở đắc đáo đíchPhân tích kết quảHoàn khả năng đối dĩ hậu đích trảo thủ quá trình cấp xuất phản quỹ hòa chỉ đạo.
Võng lạc ba trùng công tác nguyên lý
Tương đối vu thông dụng võng lạc ba trùng, tụ tiêu ba trùng hoàn nhu yếu giải quyết tam cá chủ yếu vấn đề:
( 1 ) đối trảo thủ mục tiêu đích miêu thuật hoặc định nghĩa;
( 2 ) đối võng hiệt hoặc sổ cư đích phân tích dữ quá lự;
( 3 ) đối URL đíchSưu tác sách lược.

Diện lâm đích vấn đề

Bá báo
Biên tập
Tiệt chỉ đáo 2007 niên để, Internet thượng võng hiệt sổ lượng siêu xuất 160 ức cá, nghiên cứu biểu minh tiếp cận 30% đích hiệt diện thị trọng phục đích;Động thái hiệt diệnĐích tồn tại: Khách hộ đoan,Phục vụ khí đoanCước bổn ngữ ngônĐích ứng dụng sử đắcChỉ hướngTương đồng Web tín tức đích URL sổ lượng trìnhChỉ sổ cấpTăng trường. Thượng thuật đặc chinh sử đắc võng lạc ba trùng diện lâm nhất định đích khốn nan, chủ yếu thể hiện vu Web tín tức đích cự đại dung lượng sử đắc ba trùng tại cấp định thời gian nội chỉ năng hạ tái thiếu lượng võng hiệt. Lawrence hòa Giles đích nghiên cứu biểu minh một hữu na cá sưu tác dẫn kình năng cú tác dẫn siêu xuất 16% đích Internet thượng Web hiệt diện, tức sử năng cú đề thủ toàn bộ hiệt diện, dã một hữu túc cú đích không gian lai tồn trữ.
Vi đề cao ba hành hiệu suất, ba trùng nhu yếu tại đan vị thời gian nội tẫn khả năng đa đích hoạch thủ cao chất lượng hiệt diện, thị tha diện lâm đích nan đề chi nhất. Đương tiền hữu ngũ chủng biểu kỳ hiệt diện chất lượng cao đê đích phương thức:Similarity( hiệt diện dữ ba hành chủ đề chi gian đích tương tự độ ), Backlink ( hiệt diện tại Web đồ trung đích nhập độ đại tiểu ), PageRank ( chỉ hướng tha đích sở hữu hiệt diện bình quânQuyền trịChi hòa ), Forwardlink ( hiệt diện tại Web đồ trung đích xuất độ đại tiểu ), Location ( hiệt diện đích tín tức vị trí ); Parallel (Tịnh hành tínhVấn đề ). Vi liễu đề cao ba hành tốc độ, võng lạc thông thường hội thải thủ tịnh hành ba hành đích công tác phương thức, tùy chi dẫn nhập liễu tân đích vấn đề:Trọng phục tính( tịnh hành vận hành đích ba trùng hoặc ba hành tuyến trình đồng thờiVận hành thờiTăng gia liễuTrọng phục hiệt diện), chất lượng vấn đề ( tịnh hành vận hành thời, mỗi cá ba trùng hoặc ba hành tuyến trình chỉ năng hoạch thủ bộ phân hiệt diện, đạo trí hiệt diện chất lượng hạ hàng ), thông tín đái khoan đại giới ( tịnh hành vận hành thời, các cá ba trùng hoặc ba hành tuyến trình chi gian bất khả tị miễn yếu tiến hành nhất ta thông tín ). Tịnh hành vận hành thời, võng lạc ba trùng thông thường thải dụng tam chủng phương thức: Độc lập phương thức ( các cá ba trùng độc lập ba hành hiệt diện, hỗ bất thông tín ),Động thái phân phốiPhương thức ( do nhất cá trung ương hiệp điều khí động thái hiệp điều phân phối URL cấp các cá ba trùng ),Tĩnh thái phân phốiPhương thức ( URL sự tiên hoa phân cấp các cá ba trùng ).

Phân loại

Bá báo
Biên tập
Võng lạc ba trùng án chiếuHệ thống kết cấuHòaThật hiện kỹ thuật,Đại trí khả dĩ phân vi dĩ hạ kỉ chủng loại hình: Thông dụng võng lạc ba trùng ( General Purpose Web Crawler ), tụ tiêu võng lạc ba trùng ( Focused Web Crawler ), tăng lượng thức võng lạc ba trùng ( Incremental Web Crawler ), thâm tằng võng lạc ba trùng ( Deep Web Crawler ). Thật tế đích võng lạc ba trùng hệ thống thông thường thị kỉ chủng ba trùng kỹ thuật tương kết hợp thật hiện đích.
Thông dụng võng lạc ba trùng
Thông dụng võng lạc ba trùng hựu xưng toàn võng ba trùng ( Scalable Web Crawler ), ba hành đối tượng tòng nhất ta chủng tử URL khoách sung đáo chỉnh cá Web, chủ yếu vi môn hộ trạm điểmSưu tác dẫn kìnhHòa đại hình WebPhục vụ đề cung thươngThải tập sổ cư. Do vu thương nghiệp nguyên nhân, tha môn đíchKỹ thuật tế tiếtNgận thiếu công bố xuất lai. Giá loại võng lạc ba trùng đích ba hành phạm vi hòa sổ lượng cự đại, đối vu ba hành tốc độ hòaTồn trữ không gianYếu cầu giác cao, đối vu ba hành hiệt diện đích thuận tự yếu cầu tương đối giác đê, đồng thời do vu đãi xoát tân đích hiệt diện thái đa, thông thường thải dụng tịnh hành công tác phương thức, đãn nhu yếu giác trường thời gian tài năng xoát tân nhất thứ hiệt diện. Tuy nhiên tồn tại nhất định khuyết hãm, thông dụng võng lạc ba trùng thích dụng vu vi sưu tác dẫn kình sưu tác quảng phiếm đích chủ đề, hữu giác cường đích ứng dụng giới trị.
Thông dụng võng lạc ba trùng đích kết cấu đại trí khả dĩ phân vi hiệt diện ba hành mô khối, hiệt diện phân tích mô khối, liên tiếp quá lự mô khối, hiệt diện sổ cư khố, URL đội liệt, sơ thủy URL tập hợp kỉ cá bộ phân. Vi đề caoCông tác hiệu suất,Thông dụng võng lạc ba trùng hội thải thủ nhất định đích ba hành sách lược. Thường dụng đích ba hành sách lược hữu:Thâm độ ưu tiên sách lược,Quảng độ ưu tiên sách lược.
( 1 ) thâm độ ưu tiên sách lược: Kỳ cơ bổn phương pháp thị án chiếu thâm độ do đê đáo cao đích thuận tự, y thứ phóng vấn hạ nhất cấp võng hiệt liên tiếp, trực đáo bất năng tái thâm nhập vi chỉ. Ba trùng tại hoàn thành nhất cá ba hành phân chi hậu phản hồi đáo thượng nhất liên tiếp tiết điểm tiến nhất bộ sưu tác kỳ tha liên tiếp. Đương sở hữu liên tiếp biến lịch hoàn hậu, ba hành nhậm vụ kết thúc. Giá chủng sách lược bỉ giác thích hợpThùy trực sưu tácHoặcTrạm nội sưu tác,Đãn ba hành hiệt diện nội dung tằng thứ giác thâm đích trạm điểm thời hội tạo thành tư nguyên đích cự đại lãng phí.
( 2 ) quảng độ ưu tiên sách lược: Thử sách lược án chiếu võng hiệt nội dung mục lục tằng thứ thâm thiển lai ba hành hiệt diện, xử vu giác thiển mục lục tằng thứ đích hiệt diện thủ tiên bị ba hành. Đương đồng nhất tằng thứ trung đích hiệt diện ba hành hoàn tất hậu, ba trùng tái thâm nhập hạ nhất tằng kế tục ba hành. Giá chủng sách lược năng cúHữu hiệu khống chếHiệt diện đích ba hành thâm độ, tị miễn ngộ đáo nhất cá vô cùng thâm tằng phân chi thời vô pháp kết thúc ba hành đích vấn đề, thật hiện phương tiện, vô nhu tồn trữ đại lượng trung gian tiết điểm,Bất túc chi xửTại vu nhu giác trường thời gian tài năng ba hành đáo mục lục tằng thứ giác thâm đích hiệt diện.
Tụ tiêu võng lạc ba trùng
Tụ tiêu võng lạc ba trùng ( Focused Crawler ), hựu xưng chủ đề võng lạc ba trùng ( Topical Crawler ), thị chỉ tuyển trạch tính địa ba hành na ta dữ dự tiên định nghĩa hảo đích chủ đề tương quan hiệt diện đích võng lạc ba trùng. Hòa thông dụng võng lạc ba trùng tương bỉ,Tụ tiêu ba trùngChỉ nhu yếu ba hành dữ chủ đề tương quan đích hiệt diện, cực đại địa tiết tỉnh liễu ngạnh kiện hòaVõng lạc tư nguyên,Bảo tồn đích hiệt diện dã do vu sổ lượng thiếu nhi canh tân khoái, hoàn khả dĩ ngận hảo địa mãn túc nhất ta đặc định nhân quần đối đặc định lĩnh vực tín tức đích nhu cầu.
Tụ tiêu võng lạc ba trùng hòa thông dụng võng lạc ba trùng tương bỉ, tăng gia liễu liên tiếp bình giới mô khối dĩ cập nội dung bình giới mô khối. Tụ tiêu ba trùng ba hành sách lược thật hiện đích quan kiện thị bình giới hiệt diện nội dung hòa liên tiếp đích trọng yếu tính, bất đồng đích phương pháp kế toán xuất đích trọng yếu tính bất đồng, do thử đạo trí liên tiếp đích phóng vấn thuận tự dã bất đồng.
( 1 ) cơ vu nội dung bình giới đích ba hành sách lược: DeBra tương văn bổn tương tự độ đích kế toán phương pháp dẫn nhập đáo võng lạc ba trùng trung, đề xuất liễu Fish Search toán pháp, tha tương dụng hộ thâu nhập đích tra tuân từ tác vi chủ đề,Bao hàm tra tuânTừ đích hiệt diện bị thị vi dữ chủ đề tương quan, kỳ cục hạn tính tại vu vô pháp bình giới hiệt diện dữ chủ đềTương quan độĐích cao đê. Herseovic đối Fish Search toán pháp tiến hành liễu cải tiến, đề xuất liễu Sharksearch toán pháp, lợi dụng không gian hướng lượng mô hình kế toán hiệt diện dữ chủ đề đích tương quan độ đại tiểu.
( 2 ) cơ vu liên tiếp kết cấu bình giới đích ba hành sách lược: Web hiệt diện tác vi nhất chủng bánKết cấu hóa văn đương,Bao hàm ngận đa kết cấu tín tức, khả dụng lai bình giới liên tiếp trọng yếu tính. PageRank toán pháp tối sơ dụng vu sưu tác dẫn kình tín tức kiểm tác trung đối tra tuân kết quả tiến hành bài tự, dã khả dụng vu bình giới liên tiếp trọng yếu tính, cụ thể tố pháp tựu thị mỗi thứ tuyển trạch PageRank trị giác đại hiệt diện trung đích liên tiếp lai phóng vấn. Lánh nhất cá lợi dụng Web kết cấu bình giới liên tiếp giới trị đích phương pháp thị HITS phương pháp, tha thông quá kế toán mỗi cá dĩ phóng vấn hiệt diện đích Authority quyền trọng hòa Hub quyền trọng, tịnh dĩ thử quyết định liên tiếp đích phóng vấn thuận tự.
( 3 ) cơ vu tăng cường học tập đích ba hành sách lược: Rennie hòa McCallum tương tăng cường học tập dẫn nhập tụ tiêu ba trùng, lợi dụngBối diệp tư phân loại khí,Căn cư chỉnh cá võng hiệt văn bổn hòa liên tiếp văn bổn đốiSiêu liên tiếpTiến hành phân loại, vi mỗi cá liên tiếp kế toán xuất trọng yếu tính, tòng nhi quyết định liên tiếp đích phóng vấn thuận tự.
( 4 ) cơ vu ngữ cảnh đồ đích ba hành sách lược: Diligenti đẳng nhân đề xuất liễu nhất chủng thông quá kiến lập ngữ cảnh đồ ( Context Graphs ) học tập võng hiệt chi gian đích tương quan độ, huấn luyện nhất cá cơ khí học tập hệ thống, thông quá cai hệ thống khả kế toán đương tiền hiệt diện đáo tương quan Web hiệt diện đích cự ly, cự ly việt cận đích hiệt diện trung đích liên tiếpƯu tiên phóng vấn.Ấn độ lý công đại học(IIT) hòaIBMNghiên cứu trung tâm đích nghiên cứu nhân viên khai phát liễu nhất cá điển hình đích tụ tiêu võng lạc ba trùng. Cai ba trùng đối chủ đề đích định nghĩa kí bất thị thải dụng quan kiện từ dã bất thị gia quyền thỉ lượng, nhi thị nhất tổ cụ hữu tương đồng chủ đề đích võng hiệt. Tha bao hàm lưỡng cá trọng yếu mô khối: Nhất cá thịPhân loại khí,Dụng laiKế toán sởBa hành đích hiệt diện dữ chủ đề đích tương quan độ, xác định thị phủ dữ chủ đề tương quan; lánh nhất cá thịTịnh hóa khí,Dụng lai thức biệt thông quá giác thiếu liên tiếp liên tiếp đáo đại lượng tương quan hiệt diện đích trung tâm hiệt diện.
Tăng lượng thức võng lạc ba trùng
Tăng lượng thức võng lạc ba trùng ( Incremental Web Crawler ) thị chỉ đối dĩ hạ tái võng hiệt thải thủ tăng lượng thức canh tân hòa chỉ ba hành tân sản sinh đích hoặc giả dĩ kinh phát sinh biến hóa võng hiệt đích ba trùng, tha năng cú tại nhất định trình độ thượng bảo chứng sở ba hành đích hiệt diện thị tẫn khả năng tân đích hiệt diện. Hòa chu kỳ tính ba hành hòa xoát tân hiệt diện đích võng lạc ba trùng tương bỉ, tăng lượng thức ba trùng chỉ hội tại nhu yếu đích thời hầu ba hành tân sản sinh hoặc phát sinh canh tân đích hiệt diện, tịnh bất trọng tân hạ tái một hữu phát sinh biến hóa đích hiệt diện, khả hữu hiệu giảm thiếu sổ cưHạ tái lượng,Cập thời canh tân dĩ ba hành đích võng hiệt, giảm tiểu thời gian hòa không gian thượng đích háo phí, đãn thị tăng gia liễu ba hành toán pháp đíchPhục tạp độHòa thật hiện nan độ. Tăng lượng thức võng lạc ba trùng đíchThể hệ kết cấu[ bao hàm ba hành mô khối, bài tự mô khối, canh tân mô khối, bổn địa hiệt diện tập, đãi ba hành URL tập dĩ cập bổn địa hiệt diện URL tập ].
Tăng lượng thức ba trùng hữu lưỡng cá mục tiêu: Bảo trì bổn địa hiệt diện tập trung tồn trữ đích hiệt diện vi tối tân hiệt diện hòa đề cao bổn địa hiệt diện tập trung hiệt diện đích chất lượng. Vi thật hiện đệ nhất cá mục tiêu, tăng lượng thức ba trùng nhu yếu thông quá trọng tân phóng vấn võng hiệt lai canh tân bổn địa hiệt diện tập trung hiệt diện nội dung, thường dụng đích phương pháp hữu: ( 1 ) thống nhất canh tân pháp: Ba trùng dĩ tương đồng đích tần suất phóng vấn sở hữu võng hiệt, bất khảo lự võng hiệt đích cải biến tần suất; ( 2 ) cá thể canh tân pháp: Ba trùng căn cư cá thể võng hiệt đích cải biến tần suất lai trọng tân phóng vấn các hiệt diện; ( 3 ) cơ vu phân loại đích canh tân pháp: Ba trùng căn cư võng hiệt cải biến tần suất tương kỳ phân vi canh tân giác khoái võng hiệt tử tập hòa canh tân giác mạn võng hiệt tử tập lưỡng loại, nhiên hậu dĩ bất đồng đích tần suất phóng vấn giá lưỡng loại võng hiệt.
Vi thật hiện đệ nhị cá mục tiêu, tăng lượng thức ba trùng nhu yếu đối võng hiệt đích trọng yếu tính bài tự, thường dụng đích sách lược hữu: Quảng độ ưu tiên sách lược, PageRank ưu tiên sách lược đẳng. IBM khai phát đích WebFountain thị nhất cá công năng cường đại đích tăng lượng thức võng lạc ba trùng, tha thải dụng nhất cá ưu hóaMô hình khống chếBa hành quá trình, tịnh một hữu đối hiệt diện biến hóa quá trình tố nhậm hà thống kế giả thiết, nhi thị thải dụng nhất chủng tự thích ứng đích phương pháp căn cư tiên tiền ba hành chu kỳ lí ba hành kết quả hòa võng hiệt thật tế biến hóa tốc độ đối hiệt diện canh tân tần suất tiến hành điều chỉnh.Bắc kinh đại họcĐích thiên võng tăng lượng ba hành hệ thống chỉ tại ba hành quốc nội Web, tương võng hiệt phân vi biến hóa võng hiệt hòa tân võng hiệt lưỡng loại, phân biệt thải dụng bất đồng ba hành sách lược. Vi hoãn giải đối đại lượng võng hiệt biến hóa lịch sử duy hộ đạo trí đíchTính năng bình cảnh,Tha căn cư võng hiệt biến hóaThời gian cục bộ tínhQuy luật, tại đoản thời kỳ nội trực tiếp ba hành đa thứ biến hóa đích võng hiệt, vi tẫn khoái hoạch thủ tân võng hiệt, tha lợi dụng tác dẫn hình võng hiệt cân tung tân xuất hiện võng hiệt.
Deep Web ba trùng
Web hiệt diện án tồn tại phương thức khả dĩ phân vi biểu tằng võng hiệt ( Surface Web ) hòa thâm tằng võng hiệt ( Deep Web, dã xưng Invisible Web Pages hoặc Hidden Web ). Biểu tằng võng hiệt thị chỉ truyện thống sưu tác dẫn kình khả dĩ tác dẫn đích hiệt diện, dĩ siêu liên tiếp khả dĩ đáo đạt đíchTĩnh thái võng hiệtVi chủ cấu thành đích Web hiệt diện. Deep Web thị na ta đại bộ phân nội dung bất năng thông quáTĩnh thái liên tiếpHoạch thủ đích, ẩn tàng tại sưu tác biểu đan hậu đích, chỉ hữu dụng hộ đề giao nhất ta quan kiện từ tài năng hoạch đắc đích Web hiệt diện. Lệ như na ta dụng hộ chú sách hậu nội dung tài khả kiến đích võng hiệt tựu chúc vu Deep Web. 2000 niên Bright Planet chỉ xuất: Deep Web trung khả phóng vấnTín tức dung lượngThị Surface Web đích kỉ bách bội, thị hỗ liên võng thượng tối đại, phát triển tối khoái đích tân hình tín tức tư nguyên.
Deep Web ba trùng thể hệ kết cấu bao hàm lục cá cơ bổnCông năng mô khối( ba hànhKhống chế khí,Giải tích khí,Biểu đan phân tích khí, biểu đan xử lý khí, hưởng ứng phân tích khí,LVSKhống chế khí ) hòa lưỡng cá ba trùng nội bộSổ cư kết cấu( URL liệt biểu, LVS biểu ). Kỳ trung LVS ( Label Value Set ) biểu kỳ tiêu thiêm / sổ trị tập hợp, dụng lai biểu kỳ điền sung biểu đan đíchSổ cư nguyên.
Deep Web ba trùng ba hành quá trình trung tối trọng yếu bộ phân tựu thị biểu đan điền tả, bao hàm lưỡng chủng loại hình:
( 1 ) cơ vuLĩnh vực tri thứcĐích biểu đan điền tả: Thử phương pháp nhất bàn hội duy trì nhất cá bổn thể khố, thông quáNgữ nghĩa phân tíchLai tuyển thủ hợp thích đích quan kiện từ điền tả biểu đan. Yiyao Lu đẳng nhân đề xuất nhất chủng hoạch thủ Form biểu đan tín tức đích đa chú giải phương pháp, tương sổ cư biểu đan án ngữ nghĩa phân phối đáo các cá tổ trung, đối mỗi tổ tòng đa phương diện chú giải, kết hợp các chủng chú giải kết quả lai dự trắc nhất cá tối chung đích chú giải tiêu thiêm; trịnh đông đông đẳng nhân lợi dụng nhất cá dự định nghĩa đíchLĩnh vực bổn thểTri thức khốLai thức biệt Deep Web hiệt diện nội dung, đồng thời lợi dụng nhất ta lai tự Web trạm điểm đạo hàng mô thức lai thức biệt tự động điền tả biểu đan thời sở nhu tiến hành đích lộ kính đạo hàng.
( 2 ) cơ vu võng hiệtKết cấu phân tíchĐích biểu đan điền tả: Thử phương pháp nhất bàn vô lĩnh vực tri thức hoặc cận hữu hữu hạn đích lĩnh vực tri thức, tương võng hiệt biểu đan biểu kỳ thànhDOMThụ, tòng trung đề thủ biểu đan các tự đoạn trị. Desouky đẳng nhân đề xuất nhất chủng LEHW phương pháp, cai phương pháp tươngHTMLVõng hiệt biểu kỳ vi DOM thụ hình thức, tương biểu đan khu phân vi đan chúc tính biểu đan hòa đa chúc tính biểu đan, phân biệt tiến hành xử lý; tôn bân đẳng nhân đề xuất nhất chủng cơ vuXQueryĐích sưu tác hệ thống, tha năng cú mô nghĩ biểu đan hòa đặc thù hiệt diện tiêu ký thiết hoán, bả võng hiệt quan kiện tự thiết hoán tín tức miêu thuật viTam nguyên tổĐan nguyên, án chiếu nhất định quy tắc bài trừ vô hiệu biểu đan, tương Web văn đương cấu tạo thành DOM thụ, lợi dụng XQuery tương văn tự chúc tính ánh xạ đáo biểu đan tự đoạn.
Raghavan đẳng nhân đề xuất đích HIWE hệ thống trung, ba hành quản lý khí phụ trách quản lý chỉnh cá ba hành quá trình, phân tích hạ tái đích hiệt diện, tương bao hàm biểu đan đích hiệt diện đề giao biểu đan xử lý khí xử lý, biểu đan xử lý khí tiên tòng hiệt diện trung đề thủ biểu đan, tòng dự tiên chuẩn bị hảo đích sổ cư tập trung tuyển trạch sổ cư tự động điền sung tịnh đề giao biểu đan, do ba hành khống chế khí hạ tái tương ứng đích kết quả hiệt diện.

Trảo thủ mục tiêu phân loại

Bá báo
Biên tập
Trảo thủ mục tiêu đích miêu thuật hòa định nghĩa thị quyết địnhVõng hiệt phân tích toán phápDữ URLSưu tác sách lượcNhư hà chế đính đích cơ sở. Nhi võng hiệt phân tích toán pháp hòa hầu tuyển URL bài tự toán pháp thị quyết định sưu tác dẫn kình sở đề cung đích phục vụ hình thức hòa ba trùngVõng hiệt trảo thủHành vi đích quan kiện sở tại. Giá lưỡng cá bộ phân đích toán pháp hựu thị khẩn mật tương quan đích.
Hiện hữu tụ tiêu ba trùng đối trảo thủ mục tiêu đích miêu thuật khả phân vi cơ vu mục tiêu võng hiệt đặc chinh, cơ vu mục tiêuSổ cư mô thứcHòa cơ vu lĩnh vực khái niệm 3 chủng.
Cơ vu mục tiêu võng hiệt đặc chinh
Cơ vu mục tiêu võng hiệt đặc chinh đích ba trùng sở trảo thủ, tồn trữ tịnh tác dẫn đích đối tượng nhất bàn vi võng trạm hoặc võng hiệt. Căn cư chủng tử dạng bổn hoạch thủ phương thức khả phân vi:
( 1 ) dự tiên cấp định đích sơ thủy trảo thủ chủng tử dạng bổn;
( 2 ) dự tiên cấp định đích võng hiệtPhân loại mục lụcHòa dữ phân loại mục lục đối ứng đích chủng tử dạng bổn, như Yahoo! Phân loại kết cấu đẳng;
( 3 ) thông quáDụng hộ hành viXác định đích trảo thủ mục tiêu dạng lệ, phân vi: ( a ) dụng hộ lưu lãm quá trình trung hiển kỳ tiêu chú đích trảo thủ dạng bổn; ( b ) thông quá dụng hộ nhật chí oạt quật đắc đáo phóng vấn mô thức cậpTương quan dạng bổn.
Kỳ trung, võng hiệt đặc chinh khả dĩ thị võng hiệt đích nội dung đặc chinh, dã khả dĩ thị võng hiệt đích liên tiếp kết cấu đặc chinh, đẳng đẳng.
Cơ vu mục tiêu sổ cư mô thức
Cơ vu mục tiêu sổ cư mô thức đích ba trùng châm đối đích thị võng hiệt thượng đích sổ cư, sở trảo thủ đích sổ cư nhất bàn yếu phù hợp nhất định đích mô thức, hoặc giả khả dĩ chuyển hóa hoặc ánh xạ vi mục tiêu sổ cư mô thức.
Cơ vu lĩnh vực khái niệm
Lánh nhất chủng miêu thuật phương thức thị kiến lập mục tiêu lĩnh vực đích bổn thể hoặc từ điển, dụng vu tòng ngữ nghĩa giác độ phân tích bất đồng đặc chinh tại mỗ nhất chủ đề trung đích trọng yếu trình độ.

Võng hiệt sưu tác sách lược

Bá báo
Biên tập
Võng hiệt đích trảo thủ sách lược khả dĩ phân vi thâm độ ưu tiên, quảng độ ưu tiên hòa tối giai ưu tiên tam chủng. Thâm độ ưu tiên tại ngận đa tình huống hạ hội đạo trí ba trùng đích hãm nhập ( trapped ) vấn đề, mục tiền thường kiến đích thị quảng độ ưu tiên hòa tối giaiƯu tiên phương pháp.

Quảng độ ưu tiên sưu tác

Quảng độ ưu tiên sưu tácSách lược thị chỉ tại trảo thủ quá trình trung, tại hoàn thành đương tiền tằng thứ đích sưu tác hậu, tài tiến hành hạ nhất tằng thứ đích sưu tác. Cai toán pháp đích thiết kế hòa thật hiện tương đối giản đan. Tại mục tiền vi phúc cái tẫn khả năng đa đích võng hiệt, nhất bàn sử dụng quảng độ ưu tiênSưu tác phương pháp.Dã hữu ngận đa nghiên cứu tương quảng độ ưu tiên sưu tác sách lược ứng dụng vu tụ tiêu ba trùng trung. Kỳ cơ bổn tư tưởng thị nhận vi dữ sơ thủy URL tại nhất định liên tiếp cự ly nội đích võng hiệt cụ hữu chủ đềTương quan tínhĐích khái suất ngận đại. Lánh ngoại nhất chủng phương pháp thị tương quảng độ ưu tiên sưu tác dữ võng hiệtQuá lự kỹ thuậtKết hợp sử dụng, tiên dụng quảng độ ưu tiên sách lược trảo thủ võng hiệt, tái tương kỳ trung vô quan đích võng hiệt quá lự điệu. Giá ta phương pháp đích khuyết điểm tại vu, tùy trứ trảo thủ võng hiệt đích tăng đa, đại lượng đích vô quan võng hiệt tương bị hạ tái tịnh quá lự, toán pháp đích hiệu suất tương biến đê.

Tối giai ưu tiên sưu tác

Tối giai ưu tiên sưu tác sách lược án chiếu nhất định đích võng hiệt phân tích toán pháp, dự trắc hầu tuyển URL dữ mục tiêu võng hiệt đích tương tự độ, hoặc dữ chủ đề đích tương quan tính, tịnh tuyển thủ bình giới tối hảo đích nhất cá hoặc kỉ cá URL tiến hành trảo thủ. Tha chỉ phóng vấn kinh quá võng hiệt phân tích toán pháp dự trắc vi “Hữu dụng” đích võng hiệt. Tồn tại đích nhất cá vấn đề thị, tại ba trùng trảo thủ lộ kính thượng đích ngận đa tương quan võng hiệt khả năng bị hốt lược, nhân vi tối giai ưu tiên sách lược thị nhất chủngCục bộ tối ưuSưu tác toán pháp.Nhân thử nhu yếu tương tối giai ưu tiên kết hợp cụ thể đích ứng dụng tiến hành cải tiến, dĩ khiêu xuất cục bộ tối ưu điểm. Tương tại đệ 4 tiết trung kết hợp võng hiệt phân tích toán pháp tác cụ thể đích thảo luận. Nghiên cứu biểu minh, giá dạng đích bế hoàn điều chỉnh khả dĩ tương vô quan võng hiệt sổ lượng hàng đê 30%~90%.

Thâm độ ưu tiên sưu tác

Thâm độ ưu tiên sưu tácSách lược tòng khởi thủy võng hiệt khai thủy, tuyển trạch nhất cá URL tiến nhập, phân tích giá cá võng hiệt trung đích URL, tuyển trạch nhất cá tái tiến nhập. Như thử nhất cá liên tiếp nhất cá liên tiếp địa trảo thủ hạ khứ, trực đáo xử lý hoàn nhất điều lộ tuyến chi hậuTái xử lýHạ nhất điều lộ tuyến. Thâm độ ưu tiên sách lược thiết kế giác vi giản đan. Nhiên nhi môn hộ võng trạm đề cung đích liên tiếp vãng vãng tối cụ giới trị, PageRank dã ngận cao, đãn mỗi thâm nhập nhất tằng, võng hiệt giới trị hòa PageRank đô hội tương ứng địa hữu sở hạ hàng. Giá ám kỳ liễu trọng yếu võng hiệt thông thường cự ly chủng tử giác cận, nhi quá độ thâm nhập trảo thủ đáo đích võng hiệt khước giới trị ngận đê. Đồng thời, giá chủng sách lược trảo thủ thâm độ trực tiếp ảnh hưởng trứ trảo thủMệnh trung suấtDĩ cập trảo thủ hiệu suất, đối trảo thủ thâm độ thị cai chủng sách lược đích quan kiện. Tương đối vu kỳ tha lưỡng chủng sách lược nhi ngôn. Thử chủng sách lược ngận thiếu bị sử dụng.

Võng hiệt phân tích toán pháp

Bá báo
Biên tập
Võng hiệt phân tích toán pháp khả dĩ quy nạp vi cơ vuVõng lạc thác phác,Cơ vu võng hiệt nội dung hòa cơ vu dụng hộ phóng vấn hành vi tam chủng loại hình.

Thác phác phân tích toán pháp

Cơ vu võng hiệt chi gian đích liên tiếp, thông quá dĩ tri đích võng hiệt hoặc sổ cư, lai đối dữ kỳ hữu trực tiếp hoặc gian tiếp liên tiếp quan hệ đích đối tượng ( khả dĩ thị võng hiệt hoặc võng trạm đẳng ) tác xuất bình giới đích toán pháp. Hựu phân vi võng hiệt lạp độ, võng trạm lạp độ hòa võng hiệt khối lạp độ giá tam chủng.
( 1 ) võng hiệt ( Webpage ) lạp độ đích phân tích toán pháp
PageRank hòaHITS toán phápThị tối thường kiến đíchLiên tiếp phân tíchToán pháp, lưỡng giả đô thị thông quá đối võng hiệt gian liên tiếp độ đíchĐệ quyHòa quy phạm hóa kế toán, đắc đáo mỗi cá võng hiệt đích trọng yếu độ bình giới. PageRank toán pháp tuy nhiên khảo lự liễu dụng hộ phóng vấn hành vi đíchTùy cơ tínhHòa Sink võng hiệt đích tồn tại, đãn hốt lược liễu tuyệt đại đa sổ dụng hộ phóng vấn thời đái hữuMục đích tính,Tức võng hiệt hòa liên tiếp dữ tra tuân chủ đề đíchTương quan tính.Châm đối giá cá vấn đề,HITS toán phápĐề xuất liễuLưỡng cá quan kiệnĐích khái niệm: Quyền uy hình võng hiệt ( authority ) hòa trung tâm hình võng hiệt ( hub ).
Cơ vu liên tiếp đích trảo thủ đích vấn đề thị tương quan hiệt diện chủ đề đoàn chi gian đíchToại đạo hiện tượng,Tức ngận đa tại trảo thủ lộ kính thượng thiên ly chủ đề đích võng hiệt dã chỉ hướng mục tiêu võng hiệt, cục bộ bình giới sách lược trung đoạn liễu tại đương tiền lộ kính thượng đích trảo thủ hành vi. Văn hiến đề xuất liễu nhất chủng cơ vuPhản hướng liên tiếp( BackLink ) đích phân tằng thứcThượng hạ vănMô hình ( Context Model ), dụng vu miêu thuật chỉ hướng mục tiêu võng hiệt nhất định vật lýKhiêu sổBán kính nội đích võng hiệtThác phác đồĐích trung tâm Layer0 vi mục tiêu võng hiệt, tương võng hiệt y cư chỉ hướng mục tiêu võng hiệt đích vật lý khiêu sổ tiến hành tằng thứ hoa phân, tòng ngoại tằng võng hiệt chỉ hướng nội tằng võng hiệt đích liên tiếp xưng vi phản hướng liên tiếp.
( 2 ) võng trạm lạp độ đích phân tích toán pháp
Võng trạm lạp độ đíchTư nguyên phát hiệnHòaQuản lý sách lượcDã bỉ võng hiệt lạp độ đích canh giản đan hữu hiệu. Võng trạm lạp độ đích ba trùng trảo thủ đích quan kiện chi xử tại vu trạm điểm đích hoa phân hòa trạm điểm đẳng cấp ( SiteRank ) đích kế toán. SiteRank đích kế toán phương pháp dữ PageRank loại tự, đãn thị nhu yếu đối võng trạm chi gian đích liên tiếp tác nhất định trình độ trừu tượng, tịnh tại nhất định đích mô hình hạ kế toán liên tiếp đích quyền trọng.
Võng trạm hoa phân tình huống phân vi án vực danh hoa phân hòa ánIP địa chỉHoa phân lưỡng chủng. Văn hiến thảo luận liễu tại phân bố thức tình huống hạ, thông quá đối đồng nhất cá vực danh hạ bất đồng chủ cơ, phục vụ khí đích IP địa chỉ tiến hành trạm điểm hoa phân, cấu tạo trạm điểm đồ, lợi dụng loại tự PageRank đích phương pháp bình giới SiteRank. Đồng thời, căn cư bất đồng văn kiện tại các cá trạm điểm thượng đích phân bố tình huống, cấu tạo văn đương đồ, kết hợp SiteRank phân bố thức kế toán đắc đáo DocRank. Văn hiến chứng minh, lợi dụng phân bố thức đích SiteRank kế toán, bất cận đại đại hàng đê liễu đan cơ trạm điểm đích toán pháp đại giới, nhi thả khắc phục liễu đan độc trạm điểm đối chỉnh cá võng lạcPhúc cái suấtHữu hạn đích khuyết điểm. Phụ đái đích nhất cá ưu điểm thị, thường kiến PageRank tạo giả nan dĩ đối SiteRank tiến hành khi phiến.
( 3 ) võng hiệt khối lạp độ đích phân tích toán pháp
Tại nhất cá hiệt diện trung, vãng vãng hàm hữu đa cá chỉ hướng kỳ tha hiệt diện đích liên tiếp, giá ta liên tiếp trung chỉ hữu nhất bộ phân thị chỉ hướng chủ đề tương quan võng hiệt đích, hoặc căn cư võng hiệt đích liên tiếpMiêu văn bổnBiểu minh kỳ cụ hữu giác cao trọng yếu tính. Đãn thị, tại PageRank hòa HITS toán pháp trung, một hữu đối giá ta liên tiếp tác khu phân, nhân thử thường thường cấp võng hiệt phân tích đái lai quảng cáo đẳng táo thanh liên tiếp đích càn nhiễu. Tại võng hiệt khối cấp biệt ( Block level ) tiến hành liên tiếp phân tích đích toán pháp đích cơ bổn tư tưởng thị thông quá VIPS võng hiệt phân cát toán pháp tương võng hiệt phân vi bất đồng đích võng hiệt khối ( page block ), nhiên hậu đối giá ta võng hiệt khối kiến lập page to block hòa block to page đích liên tiếp củ trận, phân biệt ký vi Z hòa X. Vu thị, tại page to page đồ thượng đích võng hiệt khối cấp biệt đích PageRank vi W ( p ) =X×Z; tại block to block đồ thượng đích BlockRank vi W ( b ) =Z×X. Dĩ kinh hữu nhân thật hiện liễu khối cấp biệt đích PageRank hòa HITS toán pháp, tịnh thông quá thật nghiệm chứng minh, hiệu suất hòaChuẩn xác suấtĐô bỉ truyện thống đích đối ứng toán pháp yếu hảo.

Võng hiệt nội dung phân tích toán pháp

Cơ vu võng hiệt nội dung đích phân tích toán pháp chỉ đích thị lợi dụng võng hiệt nội dung ( văn bổn, sổ cư đẳng tư nguyên ) đặc chinh tiến hành đích võng hiệt bình giới. Võng hiệt đích nội dung tòng nguyên lai đích dĩSiêu văn bổnVi chủ, phát triển đáo hậu lai động thái hiệt diện ( hoặc xưng vi Hidden Web ) sổ cư vi chủ, hậu giả đích sổ cư lượng ước vi trực tiếp khả kiến hiệt diện sổ cư ( PIW, Publicly Indexable Web ) đích 400~500 bội. Lánh nhất phương diện, đa môi thể sổ cư,Web ServiceĐẳng các chủng võng lạc tư nguyên hình thức dã nhật ích phong phú. Nhân thử, cơ vu võng hiệt nội dung đích phân tích toán pháp dã tòng nguyên lai đích giác vi đan thuần đích văn bổnKiểm tác phương pháp,Phát triển vi hàm cái võng hiệtSổ cư trừu thủ,Cơ khí học tập,Sổ cư oạt quật,Ngữ nghĩa lý giải đẳng đa chủng phương pháp đích tổng hợp ứng dụng. Bổn tiết căn cư võng hiệt sổ cư hình thức đích bất đồng, tương cơ vu võng hiệt nội dung đích phân tích toán pháp, quy nạp dĩ hạ tam loại: Đệ nhất chủng châm đối dĩ văn bổn hòa siêu liên tiếp vi chủ đích vô kết cấu hoặc kết cấu ngận giản đan đích võng hiệt; đệ nhị chủng châm đối tòng kết cấu hóa đích sổ cư nguyên ( nhưRDBMS) động thái sinh thành đích hiệt diện, kỳ sổ cư bất năng trực tiếp phê lượng phóng vấn; đệ tam chủng châm đối đích sổ cư giới vu đệ nhất hòa đệ nhị loại sổ cư chi gian, cụ hữu giác hảo đích kết cấu, hiển kỳ tuân tuần nhất định mô thức hoặc phong cách, thả khả dĩTrực tiếp phóng vấn.

Cơ vu văn bổn đích võng hiệt phân tích toán pháp

Ngận đại trình độ thượng tá dụng liễuVăn bổn kiểm tácĐích kỹ thuật.Văn bổn phân tíchToán pháp khả dĩ khoái tốc hữu hiệu đích đối võng hiệt tiến hành phân loại hòaTụ loại,Đãn thị do vu hốt lược liễu võng hiệt gian hòa võng hiệt nội bộ đích kết cấu tín tức, ngận thiếu đan độc sử dụng.
( 2 ) siêu văn bổn phân loại hòa tụ loại toán pháp
Căn cư võng hiệt liên tiếp võng hiệt đích tương quan loại hình đối võng hiệt tiến hành phân loại, y kháo tương quan liên đích võng hiệt thôi trắc cai võng hiệt đích loại hình.

Bổ sung

Bá báo
Biên tập
Giá ta xử lý bị xưng vi võng lạc trảo thủ hoặc giả tri chu ba hành. Ngận đa trạm điểm, vưu kỳ thị sưu tác dẫn kình, đô sử dụng ba trùng đề cung tối tân đích sổ cư, tha chủ yếu dụng vu đề cung tha phóng vấn quá hiệt diện đích nhất cá phó bổn, nhiên hậu, sưu tác dẫn kình tựu khả dĩ đối đắc đáo đích hiệt diện tiến hành tác dẫn, dĩ đề cung khoái tốc đích phóng vấn. Tri chu dã khả dĩ tại web thượng dụng lai tự động chấp hành nhất ta nhậm vụ, lệ như kiểm tra liên tiếp, xác nhậnhtml đại mã;Dã khả dĩ dụng lai trảo thủ võng hiệt thượng mỗ chủng đặc định loại hình tín tức, lệ như trảo thủĐiện tử bưu kiện địa chỉ( thông thường dụng vuLạp ngập bưu kiện).
Nhất cá võng lạc tri chu tựu thị nhất chủng cơ khí nhân, hoặc giảNhuyễn kiện đại lý.Đại thể thượng, tha tòng nhất tổ yếu phóng vấn đích URL liên tiếp khai thủy, khả dĩ xưng giá ta URL vi chủng tử. Ba trùng phóng vấn giá ta liên tiếp, tha biện nhận xuất giá ta hiệt diện đích sở hữu siêu liên tiếp, nhiên hậu thiêm gia đáo giá cá URL liệt biểu, khả dĩ xưng tác kiểm tác tiền duyên. Giá ta URL án chiếu nhất định đích sách lược phản phục phóng vấn.
Võng lạc ba trùng kỳ lệ
1. Ba hành sách lược
Hạ thuật đích tam chủng võng lạc đặc chinh, tạo thành liễu thiết kế võng hiệt ba trùng trảo thủ sách lược biến đắc ngận nan:
Tha cự đại đích sổ cư lượng;
Tha khoái tốc đích canh tân tần suất;
Động thái hiệt diện đích sản sinh.
Tha môn tam cá đặc chinh nhất khởi sản sinh liễu ngận đa chủng loại đích ba trùng trảo thủ liên tiếp.
Cự đại đích sổ cư lượng ám kỳ liễu ba trùng, tại cấp định đích thời gian nội, chỉ khả dĩ trảo thủ sở hạ tái võng lạc đích nhất bộ phân, sở dĩ, tha nhu yếu đối tha đích trảo thủHiệt diện thiết tríƯu tiên cấp;Khoái tốc đích canh tân tần suất thuyết minh tại ba trùng trảo thủ hạ tái mỗ võng trạm nhất cá võng hiệt đích thời hầu, ngận hữu khả năng tại giá cá trạm điểm hựu hữu tân đích võng hiệt bị thiêm gia tiến lai, hoặc giả giá cá hiệt diện bị canh tân hoặc giả san trừ liễu.
Tối cận tân tăng đích ngận đa hiệt diện đô thị thông quá phục vụ khí đoan cước bổn ngữ ngôn sản sinh đích, vô cùng đích tham sổ tổ hợp dã tăng gia liễu ba trùng trảo thủ đích nan độ, chỉ hữu nhất tiểu bộ phân giá chủng tổ hợp hội phản hồi nhất ta độc đặc đích nội dung. Lệ như, nhất cá ngận tiểu chiếu phiếnTồn trữ khốCận cận thông quá get phương thức khả năng đề cung tựu cấp dụng hộ tam chủng thao tác phương thức. Như quả giá lí tồn trứ tứ chủng phân loại phương thức, tam chủngSúc lược đồPhương thức, lưỡng chủngVăn kiện cách thức,Hòa nhất cá cấm chỉ dụng hộ đề cung nội dung đích tuyển hạng, na ma, đồng dạng đích nội dung tựu khả dĩ thông quá 48 chủng phương thức phóng vấn. Giá chủng sổ học tổ hợp cấp võng lạc ba trùng sang tạo đích nan xử tựu thị, vi liễu hoạch thủ bất đồng đích nội dung, tha môn tất tu si tuyển vô cùng cận hữu vi tiểu biến hóa đích tổ hợp.
Chính như ái đức hoa đẳng nhân sở thuyết đích: “Dụng vu kiểm tác đích đái khoan bất thị vô hạn đích, dã bất thị miễn phí đích; sở dĩ, như quả dẫn nhập hành lượng ba trùng trảo thủ chất lượng hoặc giả tân tiên độ đích hữu hiệu chỉ tiêu đích thoại, bất đãnThân súc tính,LiênHữu hiệu tínhĐô tương biến đắc thập phân tất yếu” ( ái đức hoa đẳng nhân, 2001 niên ). Nhất cá ba trùng tựu tất tu tiểu tâm đích tuyển trạch hạ nhất bộ yếu phóng vấn thập ma hiệt diện. Võng hiệt ba trùng đích hành vi thông thường thị tứ chủng sách lược tổ hợp đích kết quả.
♦ tuyển trạch sách lược, quyết định sở yếu hạ tái đích hiệt diện;
♦ trọng tân phóng vấn sách lược, quyết định thập ma thời hầu kiểm tra hiệt diện đích canh tân biến hóa;
♦ bình hànhLễ mạo sách lược,Chỉ xuất chẩm dạng tị miễn trạm điểm siêu tái;
♦ tịnh hành sách lược, chỉ xuất chẩm ma hiệp đồng đạt đáo phân bố thức trảo thủ đích hiệu quả;
1.1 tuyển trạch sách lược:
Tựu hiện hữu võng lạc tư nguyên đích đại tiểu nhi ngôn, tức sử ngận đại đích sưu tác dẫn kình dã chỉ năng hoạch thủ võng lạc thượng khả đắc đáo tư nguyên đích nhất tiểu bộ phân. Do lao luân tư hà cái nhĩ tư cộng đồng tố đích nhất hạng nghiên cứu chỉ xuất, một hữu nhất cá sưu tác dẫn kình trảo thủ đích nội dung đạt đáo võng lạc đích 16% ( lao luân tư hà cái nhĩ tư, 2001 ). Võng lạc ba trùng thông thường cận cận hạ tái võng hiệt nội dung đích nhất bộ phân, đãn thị đại gia đô hoàn thị cường liệt yếu cầu hạ tái đích bộ phân bao quát tối đa đích tương quan hiệt diện, nhi bất cận cận thị nhất cá tùy cơ đích giản đan đích trạm điểm.
Giá tựu yếu cầu nhất cá công cộng tiêu chuẩn lai khu phân võng hiệt đích trọng yếu trình độ, nhất cá hiệt diện đích trọng yếu trình độ dữ tha tự thân đích chất lượng hữu quan, dữ án chiếu liên tiếp sổ, phóng vấn sổ đắc xuất đích thụ hoan nghênh trình độ hữu quan, thậm chí dữ tha bổn thân đích võng chỉ ( hậu lai xuất hiện đích bả sưu tác phóng tại nhất cá đỉnh cấp vực danh hoặc giả nhất cá cố định hiệt diện thượng đích thùy trực sưu tác ) hữu quan. Thiết kế nhất cá hảo đích sưu tác sách lược hoàn hữu ngạch ngoại đích khốn nan, tha tất tu tạiBất hoàn toàn tín tứcHạ công tác, nhân vi chỉnh cá hiệt diện đích tập hợp tại trảo thủ thời thị vị tri đích.
Cho đẳng nhân ( Cho et al, 1998 ) tố liễu đệ nhất phân trảo thủ sách lược đích nghiên cứu. Tha môn đích sổ cư thịTư thản phúc đại họcVõng trạm trung đích 18 vạn cá hiệt diện, sử dụng bất đồng đích sách lược phân biệt mô phảng trảo thủ. Bài tự đích phương pháp sử dụng liễu quảng độ ưu tiên, hậu liên kế sổ, hòa bộ phânpagerankToán pháp. Kế toán hiển kỳ, như quả nhĩ tưởng yếu ưu tiên hạ tái pagerank cao đích hiệt diện, na ma, bộ phân PageRank sách lược thị bỉ giác hảo đích, kỳ thứ thị quảng độ ưu tiên hòa hậu liên kế sổ. Tịnh thả, giá dạng đích kết quả cận cận thị châm đối nhất cá trạm điểm đích.
Najork hòa Wiener ( Najork and Wiener, 2001 ) thải dụng thật tế đích ba trùng, đối 3.28 ức cá võng hiệt, thải dụng quảng độ ưu tiên nghiên cứu. Tha môn phát hiện quảng độ ưu tiên hội giác tảo đích trảo đáo PageRank cao đích hiệt diện ( đãn thị tha môn một hữu thải dụng kỳ tha sách lược tiến hành nghiên cứu ). Tác giả cấp xuất đích giải thích thị: “Tối trọng yếu đích hiệt diện hội hữu ngận đa đích chủ cơ liên tiếp đáo tha môn, tịnh thả na ta liên tiếp hội giác tảo đích phát hiện, nhi bất dụng khảo lự tòng na nhất cá chủ cơ khai thủy.”
Abiteboul ( Abiteboul đẳng nhân, 2003 ), thiết kế liễu nhất chủng cơ vu OPIC ( tại tuyến hiệt diện trọng yếu chỉ sổ ) đích trảo thủ chiến lược. Tại OPIC trung, mỗi nhất cá hiệt diện đô hữu nhất cá tương đẳng đích sơ thủy quyền trị, tịnh bả giá ta quyền trị bình quân phân cấp tha sở chỉ hướng đích hiệt diện. Giá chủng toán pháp dữ Pagerank tương tự, đãn thị tha đích tốc độ ngận khoái, tịnh thả khả dĩ nhất thứ hoàn thành. OPIC đích trình tự thủ tiên trảo thủ hoạch thủ quyền trị tối đại đích hiệt diện, thật nghiệm tại 10 vạn cá mịch chỉ phân bố đích mô nghĩ hiệt diện trung tiến hành. Tịnh thả, thật nghiệm một hữu hòa kỳ tha sách lược tiến hành bỉ giác, dã một hữu tại chân chính đích WEB hiệt diện trắc thí.
Boldi đẳng nhân ( Boldi et al., 2004 ) đích mô nghĩ kiểm tác thật nghiệm tiến hành, tại tòng.it võng lạc thượng thủ hạ đích 4000 vạn cá hiệt diện hòa tòng webbase đắc đáo đích 1 ức cá hiệt diện thượng, trắc thí quảng độ ưu tiên hòa thâm độ ưu tiên,Tùy cơ tự liệtHòa hữu tự tự liệt. Bỉ giác đích cơ sở thị chân thật hiệt diện pageRank trị hòa kế toán xuất lai đích pageRank trị đích tiếp cận trình độ. Lệnh nhân kinh kỳ đích thị, nhất ta kế toán pageRank ngận khoái đích hiệt diện ( đặc biệt minh hiển đích thị quảng độ ưu tiên sách lược hòa hữu tự tự liệt ) cận cận khả dĩ đạt đáo ngận tiểu đích tiếp cận trình độ.
Baeza-Yates đẳng nhân ( Baeza-Yates et al., 2005 ) tại tòng.gr vực danh hòa.cl vực danh tử võng trạm thượng hoạch thủ đích 300 vạn cá hiệt diện thượngMô nghĩ thật nghiệm,Bỉ giác nhược càn cá trảo thủ sách lược. Kết quả hiển kỳ OPIC sách lược hòa trạm điểmĐội liệt trường độ,Đô bỉ quảng độ ưu tiên yếu hảo; tịnh thả như quả khả hành đích thoại, sử dụng chi tiền đích ba hành trảo thủ kết quả lai chỉ đạo giá thứ trảo thủ, tổng thị thập phân hữu hiệu đích.
Daneshpajouh đẳng nhân ( Daneshpajouh et al., 2008 ) thiết kế liễu nhất cá dụng vu tầm trảo hảo chủng tử đích xã khu. Tha môn tòng lai tự bất đồng xã khu đích cao PageRank hiệt diện khai thủy kiểm tác đích phương pháp,Điệt đại thứ sổMinh hiển tiểu vu sử dụngTùy cơ chủng tửĐích kiểm tác. Sử dụng giá chủng phương thức, khả dĩ tòng dĩ tiền trảo thủ hiệt diện chi trung trảo đáo hảo đích chủng tử, sử dụng giá ta chủng tử thị thập phân hữu hiệu đích.
1.1.1 hạn định phóng vấn liên tiếp
Nhất cá ba trùng khả năng cận cận tưởng trảo đáo html hiệt diện đích chủng tử nhi tị miễn kỳ tha đíchVăn kiện loại hình.Vi liễu cận cận đắc đáo html đích tư nguyên, nhất cá ba trùng khả dĩ thủ tiên tố nhất cá httpheadĐích thỉnh cầu, dĩ tại sử dụng request phương pháp hoạch thủ sở hữu đích tư nguyên chi tiền, quyết định giá cá võng lạc văn kiện đích loại hình. Vi liễu tị miễn yếu phát tống quá đa đích head thỉnh cầu, ba trùng khả dĩ giao thế đích kiểm traurlTịnh thả cận cận đối dĩ html, htm hòa phản tà giang kết vĩ đích văn kiện phát tống tư nguyên thỉnh cầu. Giá chủng sách lược hội đạo trí ngận đa đích html tư nguyên tại vô ý trung thác quá, nhất chủng tương tự đích sách lược thị tương võng lạc tư nguyên đíchKhoách triển danhĐồng dĩ tri thị html văn kiện loại hình đích nhất tổ khoách triển danh ( như.html,.htm,.asp,.php,.aspx,Phản tà giang ) tiến hành bỉ giác.
Nhất ta ba trùng dã hội hạn chế đối nhậm hà hàm hữu “?” Đích tư nguyên ( giá ta thị động thái sinh thành đích ) tiến hành hoạch thủ thỉnh cầu, dĩ tị miễn tri chu ba hành tại mỗ nhất cá trạm điểm trung hãm nhập hạ tái vô cùng vô tẫn đích URL đích khốn cảnh.
1.1.2 lộ kính kiểm tác
Nhất ta ba trùng hội tẫn khả năng đa đích thường thí hạ tái nhất cá đặc định trạm điểm đích tư nguyên. Cothey ( Cothey, 2004 ) dẫn nhập liễu nhất chủng lộ kính kiểm tác đích ba trùng, tha hội thường thí trảo thủ nhu yếu kiểm tác tư nguyên đích sở hữu URL. Lệ như, cấp định nhất cá chủng tử địa chỉ: Tha tương hội thường thí kiểm tác /hamster/menkey/, /hamster/ hòa /. Cothey phát hiện lộ kính kiểm tác đối phát hiện độc lập tư nguyên, hoặc giả nhất ta thông thường ba trùng kiểm tác bất đáo đích đích liên tiếp thị phi thường hữu hiệu đích.
Nhất ta lộ kính kiểm tác đích ba trùng dã bị xưng viThu cát cơNhuyễn kiện, nhân vi tha môn thông thường dụng vu thu cát hoặc giả thu tập sở hữu đích nội dung, khả năng thị tòng đặc định đích hiệt diện hoặc giả chủ cơ thu tập tương sách đích chiếu phiến.
Ba trùng sở trảo thủ hiệt diện đích trọng yếu trình độ dã khả dĩ biểu thuật thành tha dữ cấp định tra tuân chi gian tương tự trình độ đích hàm sổ. Võng lạc ba trùng thường thí hạ tái tương tự hiệt diện, khả dĩ xưng viTụ tiêu kiểm tácHoặc giảChủ đề kiểm tác.Quan vu chủ đề kiểm tác hòa tụ tiêu kiểm tác đích khái niệm, tối tảo thị do Menczer ( Menczer 1997; Menczer and Belew, 1998 ) hòa Chakrabarti đẳng nhân thủ tiên đề xuất lai đích ( Chakrabarti et al., 1999 ).
Tụ tiêu kiểm tác đích chủ yếu vấn đề thị võng hiệt ba trùng đíchSử dụng hoàn cảnh,Ngã môn hi vọng tại thật tế hạ tái hiệt diện chi tiền, tựu khả dĩ tri đạo cấp định hiệt diện hòa tra tuân chi gian đích tương tự độ. Nhất cá khả năng đích phương pháp tựu thị tại liên tiếp chi trung thiết tríMiêu điểm,Giá tựu thị tại tảo kỳ thời hầu,Pinkerton( Pinkerton, 1994 ) tằng kinh tại nhất cá ba trùng trung thải dụng đích sách lược. Diligenti đẳng nhân ( Diligenti đẳng nhân, 2000 ) kiến nghị sử dụng dĩ kinh trảo thủ hiệt diện đích nội dung khứ thôi trắc tra tuân hòa vị phóng vấn hiệt đích tương tự độ. Nhất cá tụ tiêu tra tuân đích biểu hiện đích hảo phôi chủ yếu y lại vu tra tuân chủ đề nội dung đích phong phú trình độ, thông thường hoàn hội y lại hiệt diện tra tuân dẫn kình đề cung đích tra tuân khởi điểm.
1.1.4 trảo thủ thâm tằng đích võng hiệt
Ngận đa đích hiệt diện ẩn tàng đích ngận thâm hoặc ẩn tàng tại tại khán bất đáo đích võng lạc chi trung. Giá ta hiệt diện thông thường chỉ hữu tại hướng sổ cư khố đề giao tra tuân đích thời hầu tài khả dĩ phóng vấn đáo, như quả một hữu liên tiếp chỉ hướng tha môn đích thoại, nhất bàn đích ba trùng thị bất năng phóng vấn đáo giá ta hiệt diện đích.Cốc caTrạm điểm địa đồHiệp nghị hòa mod oai ( Nelson đẳng nhân, 2005 ) thường thí duẫn hứa phát hiện giá ta thâm tằng thứ đích tư nguyên.
Thâm tằng hiệt diện trảo thủ khí tăng gia liễu trảo thủ võng hiệt đích liên tiếp sổ. Nhất ta ba trùng cận cận trảo thủ hình nhưSiêu văn bổnSở bao hàm đích nội dung, tiêu thiêm hòa văn bổn.
1.1.5 WEB3.0 kiểm tác
Web3.0 vi hạ nhất đạiSưu tác kỹ thuậtĐịnh nghĩa liễu canh tiên tiến đích kỹ thuật hòa tân đích chuẩn tắc, khả dĩ khái quát viNgữ nghĩa võng lạcHòaVõng trạm mô bảnGiải tích đích khái niệm. Đệ tam đạiKiểm tác kỹ thuậtTương kiến lập tại nhân cơ xảo diệu đích liên hệ đích cơ sở thượng.
1.2 trọng tân phóng vấn sách lược
Võng lạc cụ hữuĐộng thái tínhNgận cường đích đặc tính. Trảo thủ võng lạc thượng đích nhất tiểu bộ phân nội dung khả năng hội hoa phí chân đích ngận trường đích thời gian, thông thường dụng chu hoặc giả nguyệt lai hành lượng. Đương ba trùng hoàn thành tha đích trảo thủ đích nhậm vụ dĩ hậu, ngận đa thao tác thị khả năng hội phát sinh đích, giá ta thao tác bao quát tân kiến, canh tân hòa san trừ.
Tòng sưu tác dẫn kình đích giác độ lai khán, bất kiểm trắc giá ta sự kiện thị hữu thành bổn đích, thành bổn tựu thị ngã môn cận cận ủng hữu nhất phân quá thời đích tư nguyên. Tối thường sử dụng đích thành bổn hàm sổ, thị tân tiên độ hòa quá thời tính ( 2000 niên, Cho hòa Garcia-Molina )
Tân tiên độ: Giá thị nhất cá hành lượng trảo thủ nội dung thị bất thị chuẩn xác đích nhị nguyên trị. Tại thời gian t nội, thương khố trung hiệt diện p đích tân tiên độ thị giá dạng định nghĩa đích:
Quá thời tính: Giá thị nhất cá hành lượng bổn địa dĩ trảo thủ đích nội dung quá thời trình độ đích chỉ tiêu. Tại thời gian t thời, thương khố trung hiệt diện p đíchThời hiệu tínhĐích định nghĩa như hạ:
Tân tiên độ
Quá thời tính
Tại hiệt diện trảo thủ trung, tân tiên độ hòa quá thời tính đích phát triển
Coffman đẳng nhân ( Edward G.Coffman, 1998 ) thị tòng sự ba trùng đối tượng định nghĩa đích, tha môn đề xuất liễu nhất cá tương đương vu tân tiên độ đích khái niệm, đãn thị sử dụng liễu bất đồng đích thố từ: Tha môn kiến nghị ba trùng tất tu tối tiểu hóa quá thời hiệt diện bộ phân. Tha môn chỉ xuất võng lạc ba hành đích vấn đề tựu tương đương vu đa cá đội liệt, nhất cá đầu phiếu hệ thống; giá lí, ba trùng thị phục vụ khí, bất đồng đích trạm điểm thị đội liệt. Hiệt diện tu cải thị đáo đạt đích cố khách, hiệt diện thiết hoán đích thời gian thị hiệt diện tiến nhập nhất cá đan nhất trạm điểm đích gian cách. Tại giá cá mô hình hạ, mỗi nhất cá cố khách tại đầu phiếu hệ thống đíchBình quân thời gian,Tương đương vu ba trùng đích bình quân quá thời tính.
Ba trùng đích mục tiêu thị tẫn khả năng cao đích đề cao hiệt diện đích tân tiên độ, đồng thời hàng đê hiệt diện đích quá thời tính. Giá nhất mục tiêu tịnh bất thị hoàn toàn nhất dạng đích, đệ nhất chủng tình huống, ba trùng quan tâm đích thị hữu đa thiếu hiệt diện thời quá thời đích; tại đệ nhị chủng tình huống, ba trùng quan tâm đích hiệt diện quá thời liễu đa thiếu.
Lưỡng chủng tối giản đan đích trọng tân phóng vấn sách lược thị do Cho hòa Garcia-Molina nghiên cứu đích ( Cho hòa Garcia-Molina, 2003 ):
Thống nhất sách lược: Sử dụng tương đồng đích tần suất, trọng tân phóng vấn thu tàng trung đích sở hữu đích liên tiếp, nhi bất khảo lự tha môn canh tân tần suất.
Chính bỉ sách lược: Đối biến hóa việt đa đích võng hiệt, trọng tân phóng vấn đích tần suất dã việt cao. Võng hiệt phóng vấn đích tần suất hòa võng hiệt biến hóa đích tần suất trực tiếp tương quan.
( lưỡng chủng tình huống hạ, ba trùng đích trọng tân trảo thủ đô khả dĩ thải dụng tùy cơ phương thức, hoặc giả cố định đích thuận tự )
Cho hòa Garcia-Molina chứng minh liễu nhất cá xuất nhân ý liêu đích kết quả. Dĩ bình quân tân tiên độ phương thức hành lượng, thống nhất sách lược tại mô nghĩ hiệt diện hòa chân thật đích võng lạc trảo thủ trung đô bỉ chính bỉ sách lược xuất sắc. Đối vu giá chủng kết quả đích giải thích thị: Đương nhất cá hiệt diện biến hóa thái khoái đích thời hầu, ba trùng tương hội tương hội tại bất đoạn đích thường thí trọng tân trảo thủ nhi lãng phí ngận đa thời gian, đãn thị khước hoàn thị bất năng bảo chứng hiệt diện đích tân tiên độ.
Vi liễu đề cao hiệt diện đích tân tiên độ, ngã môn ứng cai tuyên phán biến hóa thái khoái đích hiệt diện tử tội ( Cho hòa Garcia-Molina, 2003a ). Tối giai đích trọng tân phóng vấn sách lược kí bất thị thống nhất sách lược, dã bất thị chính bỉ sách lược; bảo trì bình quân hiệt diện tân tiên độ cao đích tối giai phương pháp sách lược bao quát hốt lược na ta biến hóa thái khoái đích hiệt diện, nhi bảo trì hiệt diện bình quân quá thời tính đê đích phương pháp tắc thị đối mỗi nhất hiệt án chiếu hiệt diện biến hóa suất đan điều biến hóa đích sách lược phóng vấn. Lưỡng chủng tình huống hạ, tối giai đích sách lược giác chính bỉ sách lược, đô canh tiếp cận thống nhất sách lược. Chính như Coffman đẳng nhân ( Edward G.Coffman, 1998 ) sở chú ý đáo đích: “Vi liễu tối tiểu hóa hiệt diện quá thời đích thời gian, đối nhậm nhất cá hiệt diện đích phóng vấn đô ứng cai tẫn khả năng đích quân quân gian cách địa phóng vấn.” Đối vu trọng tân phóng vấn đích tường tẫn đích sách lược tại đại thể thượng thị bất khả dĩ đạt đáo đích, đãn thị tha môn khả dĩ tòng sổ học thượng đắc đáo, nhân vi tha môn y lại vu hiệt diện đích biến hóa. ( Cho hòa Garcia-Molina, 2003a ) chỉ xuất chỉ sổ biến hóa thị miêu thuật hiệt diện biến hóa đích hảo phương pháp, đồng thời ( Ipeirotis đẳng nhân, 2005 ) chỉ xuất liễu chẩm ma sử dụng thống kế công cụ khứ phát hiện thích hợp giá ta biến hóa đích tham sổ. Chú ý tại giá lí đích trọng tân phóng vấn sách lược nhận vi mỗi nhất cá hiệt diện đô thị tương đồng đích ( võng lạc thượng sở hữu đích hiệt diện giới trị đô thị nhất dạng đích ) giá bất thị hiện thật đích tình huống, sở dĩ, vi liễu hoạch thủ canh hảo đích trảo thủ sách lược, canh đa hữu quan võng hiệt chất lượng đích tín tức ứng cai khảo lự tiến khứ.
1.3 bình hành lễ mạo sách lược
Ba trùng tương bỉ vu nhân, khả dĩ hữu canh khoái đíchKiểm tác tốc độHòa canh thâm đích tằng thứ, sở dĩ, tha môn khả năng sử nhất cá trạm điểm than hoán. Bất nhu yếu thuyết nhất cá đan độc đích ba trùng nhất miểu chung yếu chấp hành đa điều thỉnh cầu, hạ tái đại đích văn kiện. Nhất cá phục vụ khí dã hội ngận nan hưởng ứngĐa tuyến trìnhBa trùng đích thỉnh cầu.
Tựu tượng Koster ( Koster, 1995 ) sở chú ý đích na dạng, ba trùng đích sử dụng đối ngận đa công tác đô thị ngận hữu dụng đích, đãn thị đối nhất bàn đích xã khu, dã nhu yếu phó xuất đại giới. Sử dụng ba trùng đích đại giới bao quát:
Võng lạc tư nguyên: Tại ngận trường nhất đoạn thời gian, ba trùng sử dụng tương đương đích đái khoan cao độ tịnh hành địa công tác.
Phục vụ khí siêu tái: Vưu kỳ thị đối cấp định phục vụ khí đích phóng vấn quá cao thời.
Chất lượng tao cao đích ba trùng, khả năng đạo trí phục vụ khí hoặc giả lộ do khí than hoán, hoặc giả hội thường thí hạ tái tự kỷ vô pháp xử lý đích hiệt diện.
Cá nhân ba trùng, như quả quá đa đích nhân sử dụng, khả năng đạo trí võng lạc hoặc giả phục vụ khí trở tắc.
Đối giá ta vấn đề đích nhất cá bộ phânGiải quyết phương phápThị mạn du khí bài trừ hiệp nghị ( Robots exclusion protocol ), dã bị xưng virobots.txtNghị định thư ( Koster, 1996 ), giá phân hiệp nghị đối vu quản lý viên chỉ minhVõng lạc phục vụ khíĐích na nhất bộ phân bất năng đáo đạt thị nhất cá tiêu chuẩn. Giá cá tiêu chuẩn một hữu bao quát trọng tân phóng vấn nhất đài phục vụ khí đích gian cách đích kiến nghị, tuy nhiên phóng vấn gian cách thị tị miễn phục vụ khí siêu tái đích tối hữu hiệu đích bạn pháp. Tối cận đíchThương nghiệp sưu tácNhuyễn kiện, như Ask Jeeves, MSN hòa Yahoo khả dĩ tại robots.txt trung sử dụng nhất cá ngạch ngoại đích “Crawl-delay”Tham sổ lai chỉ minh thỉnh cầu chi gian đích diên trì.
Đối liên tiếp gian cách thời gian đích đệ nhất cá kiến nghị do Koster 1993 niên cấp xuất, thời gian thị 60 miểu. Án chiếu giá cá tốc độ, như quả nhất cá trạm điểm hữu siêu quá 10 vạn đích hiệt diện, tức sử ngã môn ủng hữu linh diên trì hòa vô cùng đái khoan đích hoàn mỹ liên tiếp, tha dã hội nhu yếu lưỡng cá nguyệt đích thời gian lai hạ tái chỉnh cá trạm điểm, tịnh thả, giá cá phục vụ khí trung đích tư nguyên, chỉ hữu nhất tiểu bộ phân khả dĩ sử dụng. Giá tự hồ thị bất khả dĩ tiếp thụ đích.
Cho ( Cho hòa Garcia-Molina, 2003 ) sử dụng 10 miểu tác vi phóng vấn đích gian cách thời gian, WIRE ba trùng ( Baeza-Yates and Castillo, 2002 ) sử dụng 15 miểu tác vi mặc nhận gian cách. MercatorWeb ( Heydon hòa Najork, 1999 ) ba trùng sử dụng liễu nhất chủng tự thích ứng đích bình hành sách lược: Như quả tòng mỗ nhất phục vụ khí hạ tái nhất cá văn đương nhu yếu t miểu chung, ba trùng tựu đẳng đãi 10t miểu đích thời gian, nhiên hậu khai thủy hạ nhất cá hiệt diện. Dill đẳng nhân ( Dill et al., 2002 ) sử dụng 1 miểu.
Đối vu na ta sử dụng ba trùng dụng vu nghiên cứu mục đích đích, nhất cá canh tường tế đích thành bổn -Hiệu ích phân tíchThị tất yếu đích, đương quyết định khứ na nhất cá trạm điểm trảo thủ, sử dụng đa khoái đích tốc độ trảo thủ đích thời hầu, luân lý đích nhân tố dã nhu yếu khảo lự tiến lai.
Phóng vấn ký lục hiển kỳ dĩ tri ba trùng đích phóng vấn gian cách tòng 20 miểu chung đáo 3-4 phân chung bất đẳng. Nhu yếu chú ý đích thị tức sử ngận lễ mạo, thải thủ liễu sở hữu đíchAn toàn thố thiLai tị miễn phục vụ khí siêu tái, hoàn thị hội dẫn lai nhất ta võng lạc phục vụ khí quản lý viên đích bão oán đích. Brin hòa Page chú ý đáo: Vận hành nhất cá châm đối siêu quá 50 vạn phục vụ khí đích ba trùng, hội sản sinh ngận đa đích bưu kiện hòa điện thoại. Giá thị nhân vi hữu vô sổ đích nhân tại thượng võng, nhi giá ta nhân bất tri đạo ba trùng thị thập ma, nhân vi giá thị tha môn đệ nhất thứ kiến đáo. ( Brin hòa Page, 1998 )
1.4 tịnh hành sách lược
Nhất cá tịnh hành ba trùng thị tịnh hành vận hành đa cá tiến trình đích ba trùng. Tha đích mục tiêu thị tối đại hóa hạ tái đích tốc độ, đồng thời tẫn lượng giảm thiếu tịnh hành đích khai tiêu hòa hạ tái trọng phục đích hiệt diện. Vi liễu tị miễn hạ tái nhất cá hiệt diện lưỡng thứ, ba trùng hệ thống nhu yếu sách lược lai xử lý ba trùng vận hành thời tân phát hiện đích URL, nhân vi đồng nhất cá URL địa chỉ, khả năng bị bất đồng đích ba trùng tiến trình trảo đáo.
2. Võng lạc ba trùng thể hệ kết cấu
Võng hiệt ba trùng đíchCao tằng thể hệ kết cấu
Nhất cá ba trùng bất năng tượng thượng diện sở thuyết đích, cận cận chỉ hữu nhất cá hảo đích trảo thủ sách lược, hoàn nhu yếu hữu nhất cá cao độ ưu hóa đích kết cấu.
Shkapenyuk hòa Suel ( Shkapenyuk hòa Suel, 2002 ) chỉ xuất: Thiết kế nhất cá đoản thời gian nội, nhất miểu hạ tái kỉ cá hiệt diện đích pha mạn đích ba trùng thị nhất kiện ngận dung dịch đích sự tình, nhi yếu thiết kế nhất cá sử dụng kỉ chu khả dĩ hạ tái bách vạn cấp hiệt diện đích cao tính năng đích ba trùng, tương hội tạiHệ thống thiết kế,I/O hòa võng lạc hiệu suất,Kiện tráng tínhHòa dịch dụng tính phương diện ngộ đáo chúng đa thiêu chiến.
Võng lộ ba trùng thị sưu tác dẫn kình đích hạch tâm, tha môn toán pháp hòa kết cấu thượng đích tế tiết bị đương tácThương nghiệp cơ mật.Đương ba trùng đích thiết kế phát bố thời, tổng hội hữu nhất ta vi liễu trở chỉ biệt nhân phục chế công tác nhi khuyết thất đích tế tiết. Nhân môn dã khai thủy quan chú chủ yếu dụng vu trở chỉ chủ yếu sưu tác dẫn kình phát bố tha môn đíchBài tự toán phápĐích “Sưu tác dẫn kình lạp ngậpBưu kiện”.
2.1 URL nhất bàn hóa
Ba trùng thông thường hội chấp hành kỉ chủng loại hình đích URL quy phạm hóa lai tị miễn trọng phục trảo thủ mỗ ta tư nguyên. URL nhất bàn hóa dã bị xưng vi URL tiêu chuẩn hóa, chỉ đích thị tu chính URL tịnh thả sử kỳ tiền hậu nhất trí đích quá trình. Giá lí hữu kỉ chủng nhất bàn hóa phương pháp, bao quát chuyển hóa URL viTiểu tảĐích, khứ trừ đậu hào ( như ‘.’, ‘..’ đẳng ), đối phi không đích lộ kính, tại mạt vĩ gia phản tà giang.
3. Ba trùng thân phân thức biệt
Võng lạc ba trùng thông quá sử dụng http thỉnh cầu đíchDụng hộ đại lý( User Agent ) tự đoạn lai hướng võng lạc phục vụ khí biểu minh tha môn đích thân phân.Võng lạc quản lý viênTắc thông quá kiểm tra võng lạc phục vụ khí đích nhật chí, sử dụng dụng hộ đại lý tự đoạn lai biện nhận na nhất cá ba trùng tằng kinh phóng vấn quá dĩ cập tha phóng vấn đích tần suất. Dụng hộ đại lý tự đoạn khả năng hội bao hàm nhất cá khả dĩ nhượng quản lý viên hoạch thủ ba trùng canh đa tín tức đích URL. Bưu kiện trảo thủ khí hòa kỳ tha hoài hữu ác ý đích võng lạc ba trùng thông thường bất hội lưu nhậm hà đích dụng hộ đại lý tự đoạn nội dung, hoặc giả tha môn dã hội tương tha môn đích thân phân ngụy trang thành lưu lãm khí hoặc giả kỳ tha đích tri danh ba trùng.
Đối vu võng lộ ba trùng, lưu hạ dụng hộ tiêu chí tín tức thị thập phân trọng yếu đích; giá dạng, võng lạc quản lý viên tại nhu yếu đích thời hầu tựu khả dĩ liên hệ ba trùng đích chủ nhân. Hữu thời, ba trùng khả năng hội hãm nhập ba trùng hãm tịnh hoặc giả sử nhất cá phục vụ khí siêu phụ hà, giá thời, ba trùng chủ nhân nhu yếu sử ba trùng đình chỉ. Đối na ta hữu hưng thú liễu giải đặc định ba trùng phóng vấn thời gian võng lạc quản lý viên lai giảng,Dụng hộ tiêu thứcTín tức thị thập phân trọng yếu đích.
4. Dụng hộ ba trùng đích lệ tử
Dĩ hạ thị nhất hệ liệt dĩ kinh phát bố đích nhất bàn dụng đồ đích võng lạc ba trùng ( trừ liễu chủ đề kiểm tác đích ba trùng ) đích thể hệ kết cấu, bao quát liễu đối bất đồng tổ kiện mệnh danh hòa đột xuất đặc điểm đích giản đoản đích miêu thuật.
RBSE ( Eichmann, 1994 ) thị đệ nhất cá phát bố đích ba trùng. Tha hữu lưỡng cá cơ sở trình tự. Đệ nhất cá thị “spider”, trảo thủ đội liệt trung đích nội dung đáo nhất cáQuan hệ sổ cư khốTrung, đệ nhị cá trình tự thị “mite”, thị nhất cá tu cải hậu đích www đíchASCIILưu lãm khí, phụ trách tòng võng lạc thượng hạ tái hiệt diện.
WebCrawler ( Pinkerton, 1994 ) thị đệ nhất cá công khai khả dụng đích, dụng lai kiến lậpToàn văn tác dẫnĐích nhất cáTử trình tự,Tha sử dụng khố www lai hạ tái hiệt diện; lánh ngoại nhất cá trình tự sử dụng quảng độ ưu tiên lai giải tích hoạch thủ URL tịnh đối kỳ bài tự; tha hoàn bao quát nhất cá căn cư tuyển định văn bổn hòa tra tuân tương tự trình độ ba hành đích thật thời ba trùng.
World Wide Web Worm ( McBryan, 1994 ) thị nhất cá dụng lai vi văn kiện kiến lập bao quát tiêu đề hòa URL giản đan tác dẫn đích ba trùng. Tác dẫn khả dĩ thông quá grep thức đích Unix mệnh lệnh lai sưu tác.
Google Crawler ( Brin and Page, 1998 ) dụng liễu nhất ta tế tiết lai miêu thuật, đãn thị giá ta tế tiết cận cận thị quan vu sử dụng C++ hòaPythonBiên tả đích, nhất cá tảo kỳ bản bổn đích thể hệ kết cấu. Nhân vi văn bổn giải tích tựu thịToàn văn kiểm tácHòa URL trừu thủ đích quá trình, sở dĩ ba trùng tập thành liễu tác dẫn xử lý. Giá lí ủng hữu nhất cá URL phục vụ khí, dụng lai cấp kỉ cá ba trùng trình tự phát tống yếu trảo thủ đích URL liệt biểu. Tại văn bổn giải tích đích thời hầu, tân phát hiện đích URL truyện tống cấp URL phục vụ khí tịnh kiểm trắc giá cá URL thị bất thị dĩ kinh tồn tại, như quả bất tồn tại đích thoại, cai URL tựu gia nhập đáo URL phục vụ khí trung.
CobWeb ( da Silva et al., 1999 ) sử dụng liễu nhất cá trung ương “Điều độ giả” hòa nhất hệ liệt đích “Phân bố thức đích sưu tập giả”. Sưu tập giả giải tích hạ tái đích hiệt diện tịnh bả trảo đáo đích URL phát tống cấp điều độ giả, nhiên hậu điều độ giả phản quá lai phân phối cấp sưu tập giả. Điều độ giả sử dụng thâm độ ưu tiên sách lược, tịnh thả sử dụng bình hành lễ mạo sách lược lai tị miễn phục vụ khí siêu tái. Ba trùng thị sử dụngPerl ngữ ngônBiên tả đích.
Mercator ( Heydon and Najork, 1999; Najork and Heydon, 2001 ) thị nhất cá phân bố thức đích, mô khối hóa đích sử dụng java biên tả đích võng lạc ba trùng. Tha đích mô khối hóa nguyên tự vu sử dụng khả hỗ hoán đích đích “Hiệp nghị mô khối” hòa “Xử lý mô khối”. Hiệp nghị mô khối phụ trách chẩm dạng hoạch thủ võng hiệt ( lệ như sử dụngHTTP), xử lý mô khối phụ trách chẩm dạng xử lý hiệt diện. Tiêu chuẩn xử lý mô khối cận cận bao quát liễu giải tích hiệt diện hòa trừu thủ URL, kỳ tha xử lý mô khối khả dĩ dụng lai kiểm tác văn bổn hiệt diện, hoặc giả sưu tậpVõng lạc sổ cư.
WebFountain ( Edwards et al., 2001 ) thị nhất cá dữ Mercator loại tự đích phân bố thức đích mô khối hóa đích ba trùng, đãn thị sử dụng C++ biên tả đích. Tha đích đặc điểm thị nhất cá quản lý viên cơ khí khống chế nhất hệ liệt đích mã nghĩ cơ khí. Kinh quá đa thứ hạ tái hiệt diện hậu, hiệt diện đích biến hóa suất khả dĩ thôi trắc xuất lai, giá thời, nhất cá phi tuyến tính đích phương pháp tất tu dụng vu cầu giải phương trình dĩ hoạch đắc nhất cá tối đại đích tân tiên độ đích phóng vấn sách lược. Tác giả thôi tiến tại tảo kỳ kiểm tác giai đoạn sử dụng giá cá ba trùng, nhiên hậu dụng thống nhất sách lược kiểm tác, tựu thị sở hữu đích hiệt diện đô sử dụng tương đồng đích tần suất phóng vấn.
PolyBot ( Shkapenyuk and Suel, 2002 ) thị nhất cá sử dụng C++ hòa Python biên tả đích phân bố thức võng lạc ba trùng. Tha do nhất cá ba trùng quản lý giả, nhất cá hoặc đa cáHạ tái giả,Nhất cá hoặc đa cá DNS giải tích giả tổ thành. Trừu thủ đáo đích URL bị thiêm gia đáo ngạnh bàn đích nhất cá đội liệt lí diện, nhiên hậu sử dụngPhê xử lýĐích mô thức xử lý giá ta URL. Bình hành lễ mạo phương diện khảo lự đáo liễu đệ nhị, tam cấpVõng vực,Nhân vi đệ tam cấp võng vực thông thường dã hội bảo tồn tại đồng nhất cá võng lạc phục vụ khí thượng.
WebRACE ( Zeinalipour-Yazti and Dikaiakos, 2002 ) thị nhất cá sử dụng java thật hiện đích, ủng hữu kiểm tác mô khối hòa hoãn tồn mô khối đích ba trùng, tha thị nhất cá ngận thông dụng đích xưng tác eRACE đích hệ thống đích nhất bộ phân. Hệ thống tòng dụng hộ đắc đáo hạ tái hiệt diện đích thỉnh cầu, ba trùng đích hành vi hữu điểm tượng nhất cá thông minh đíchĐại lý phục vụ khí.Hệ thống hoàn giam thị đính duyệt võng hiệt đích thỉnh cầu, đương võng hiệt phát sinh cải biến đích thời hầu, tha tất tu sử ba trùng hạ tái canh tân giá cá hiệt diện tịnh thả thông tri đính duyệt giả. WebRACE tối đại đích đặc sắc thị, đương đại đa sổ đích ba trùng đô tòng nhất tổ URL khai thủy đích thời hầu, WebRACE khả dĩ liên tục địa đích tiếp thu trảo thủ khai thủy đích URL địa chỉ.
Ubicrawer ( Boldi et al., 2004 ) thị nhất cá sử dụng java biên tả đích phân bố thức ba trùng. Tha một hữu trung ương trình tự. Tha do nhất tổ hoàn toàn tương đồng đích đại lý tổ thành, phân phối công năng thông quá chủ cơ tiền hậu nhất trí đích tán liệt kế toán tiến hành. Giá lí một hữu trọng phục đích hiệt diện, trừ phi ba trùng băng hội liễu ( nhiên hậu, lánh ngoại nhất cá đại lý tựu hội tiếp thế băng hội đích đại lý trọng tân khai thủy trảo thủ ). Ba trùng thiết kế vi cao thân súc tính hòa duẫn hứa thất bại đích.
FAST Crawler ( Risvik and Michelsen, 2002 ) thị nhất cá phân bố thức đích ba trùng, tại Fast Search&Transfer trung sử dụng, quan vu kỳ thể hệ kết cấu đích nhất cá đại trí đích miêu thuật khả dĩ tại [citation needed] trảo đáo.
Labrador, nhất cá công tác tạiKhai nguyên hạng mụcTerrierSearch EngineThượng đích phi khai nguyên đích ba trùng.
TeezirCrawler thị nhất cá phi khai nguyên đích khả thân súc đích võng hiệt trảo thủ khí, tại Teezir thượng sử dụng. Cai trình tự bị thiết kế vi nhất cá hoàn chỉnh đích khả dĩ xử lý các chủng loại hình võng hiệt đích ba trùng, bao quát các chủngJavaScriptHòa HTML văn đương. Ba trùng kí chi trì chủ đề kiểm tác dã chi trì phi chủ đề kiểm tác.
Spinn3r, nhất cá thông quá bác khách cấu kiếnPhản quỹ tín tứcĐích ba trùng. Spinn3r thị cơ vu java đích, tha đích đại bộ phân đích thể hệ kết cấu đô thị khai nguyên đích.
HotCrawler, nhất cá sử dụngc ngữ ngônHòa php biên tả đích ba trùng.
ViREL Microformats Crawler, sưu tácCông chúng tín tứcTác vi khảm nhập đáo võng hiệt đích nhất tiểu bộ phân.
Trừ liễu thượng diện liệt xuất đích kỉ cá đặc định đích ba trùng kết cấu dĩ ngoại, hoàn hữu Cho ( Cho and Garcia-Molina, 2002 ) hòa Chakrabarti ( Chakrabarti, 2003 ) phát bố đích nhất bàn đích ba trùng thể hệ kết cấu.
4.1 khai nguyên ba trùng
DataparkSearch thị nhất cá tạiGNU GPLHứa khả hạ phát bố đích ba trùng sưu tác dẫn kình.
GNU Wget thị nhất cá tạiGPLHứa khả hạ, sử dụng C ngữ ngôn biên tả đích mệnh lệnh hành thức đích ba trùng. Tha chủ yếu dụng vu võng lạc phục vụ khí hòaFTP phục vụ khíĐích kính tượng.
Heritrix thị nhất cáHỗ liên võng đương án quánCấp đích ba trùng, thiết kế đích mục tiêu vi đối đại hình võng lạc đích đại bộ phân nội dung đích định kỳ tồn đương khoái chiếu, thị sử dụng java biên tả đích.
Ht: //Dig tại tha hòa tác dẫn dẫn kình trung bao quát liễu nhất cá võng hiệt ba trùng.
HTTrack dụng võng lạc ba trùng sang kiến võng lạc trạm điểm kính tượng, dĩ tiệnLy tuyến quan khán.Tha sử dụng C ngữ ngôn biên tả, tại GPL hứa khả hạ phát hành.
ICDL Crawler thị nhất cá dụng C++ biên tả, khóa bình đài đích võng lạc ba trùng. Tha cận cận sử dụng không nhàn đíchCPUTư nguyên, tại ICDL tiêu chuẩn thượng trảo thủ chỉnh cá trạm điểm.
JSpider thị nhất cá tại GPL hứa khả hạ phát hành đích, cao độ khả phối trí đích, khả định chế đích võng lạc ba trùng dẫn kình.
LLarbin do Sebastien Ailleret khai phát;
Webtools4larbin do Andreas Beder khai phát;
Methabot thị nhất cá sử dụng C ngữ ngôn biên tả đích cao tốc ưu hóa đích, sử dụngMệnh lệnh hànhPhương thức vận hành đích, tại 2-clause BSD hứa khả hạ phát bố đích võng hiệt kiểm tác khí. Tha đích chủ yếu đích đặc tính thị caoKhả phối trí tính,Mô khối hóa; tha kiểm tác đích mục tiêu khả dĩ thị bổn địaVăn kiện hệ thống,HTTP hoặc giảFTP.
Nutch thị nhất cá sử dụng java biên tả, tại Apache hứa khả hạ phát hành đích ba trùng. Tha khả dĩ dụng lai liên tiếpLuceneĐích toàn văn kiểm tác sáo kiện;
Pavuk thị nhất cá tại GPL hứa khả hạ phát hành đích, sử dụng mệnh lệnh hành đích WEB trạm điểmKính tượngCông cụ, khả dĩ tuyển trạch sử dụngX11ĐíchĐồ hình giới diện.DữwgetHòa httprack tương bỉ, tha hữu nhất hệ liệt tiên tiến đích đặc tính, như dĩChính tắc biểu đạt thứcVi cơ sở đích văn kiện quá lự quy tắc hòaVăn kiện sang kiếnQuy tắc.
WebVac thị tư thản phúc WebBase hạng mục sử dụng đích nhất cá ba trùng.
WebSPHINX( Miller and Bharat, 1998 ) thị nhất cá do javaLoại khốCấu thành đích, cơ vu văn bổn đích sưu tác dẫn kình. Tha sử dụng đa tuyến trình tiến hành võng hiệt kiểm tác, html giải tích, ủng hữu nhất cáĐồ hình dụng hộ giới diệnDụng lai thiết trí khai thủy đích chủng tử URL hòa trừu thủ hạ tái đích sổ cư;
WIRE- võng lạcTín tức kiểm tácHoàn cảnh ( Baeza-Yates hòa Castillo, 2002 ) thị nhất cá sử dụng C++ biên tả, tại GPL hứa khả hạ phát hành đích ba trùng, nội trí liễu kỉ chủng hiệt diện hạ tái an bài đích sách lược, hoàn hữu nhất cá sinh thành báo cáo hòaThống kế tư liêuĐích mô khối, sở dĩ, tha chủ yếu dụng vu võng lạc đặc chinh đích miêu thuật;
LWP: RobotUA ( Langheinrich, 2004 ) thị nhất cá tại Perl5 hứa khả hạ phát hành đích, khả dĩ ưu dị đích hoàn thành tịnh hành nhậm vụ đích Perl loại khố cấu thành đích cơ khí nhân.
Web Crawler thị nhất cá vi.net chuẩn bị đíchKhai phóng nguyên đại mãĐích võng lạc kiểm tác khí ( C# biên tả ).
Sherlock Holmes thu tập hòa kiểm tác bổn địa hòa võng lạc thượng đích văn bổn loại sổ cư (Văn bổn văn kiện,Võng hiệt ), cai hạng mục doTiệp khắcMôn hộ võng trạm trung xu ( Czech web portal Centrum ) tán trợ tịnh thả chủ dụng thương dụng vu giá lí; tha đồng thời dã sử dụng tại.
YaCyThị nhất cá cơ vu P2P võng lạc đích miễn phí đíchPhân bố thức sưu tác dẫn kình( tại GPL hứa khả hạ phát hành );
Ruya thị nhất cá tại quảng độ ưu tiên phương diện biểu hiện ưu tú, cơ vu đẳng cấp trảo thủ đích khai phóng nguyên đại mã đích võng lạc ba trùng. Tại anh ngữ hòa nhật ngữ hiệt diện đích trảo thủ biểu hiện lương hảo, tha tại GPL hứa khả hạ phát hành, tịnh thả hoàn toàn sử dụng Python biên tả. Án chiếu robots.txt hữu nhất cá diên thời đích đan võng vực diên thời ba trùng.
Universal Information Crawler khoái tốc phát triển đích võng lạc ba trùng, dụng vu kiểm tác tồn trữ hòa phân tích sổ cư;
Agent Kernel, đương nhất cá ba trùng trảo thủ thời, dụng lai tiến hành an bài, tịnh phát hòa tồn trữ đích java khuông giá.
Thị nhất cá sử dụng C# biên tả, nhu yếu SQL Server 2005 chi trì đích, tại GPL hứa khả hạ phát hành đích đa công năng đích khai nguyên đích cơ khí nhân. Tha khả dĩ dụng lai hạ tái, kiểm tác, tồn trữ bao quát điện tử bưu kiện địa chỉ, văn kiện, siêu liên tiếp, đồ phiến hòa võng hiệt tại nội đích các chủng sổ cư.
Dine thị nhất cá đa tuyến trình đích java đích http khách hộ đoan. Tha khả dĩ tạiLGPLHứa khả hạ tiến hànhNhị thứ khai phát.
Võng lạc ba trùng đích tổ thành
Tại võng lạc ba trùng đích hệ thống khuông giá trung, chủ quá trình do khống chế khí, giải tích khí,Tư nguyên khốTam bộ phân tổ thành. Khống chế khí đích chủ yếu công tác thị phụ trách cấp đa tuyến trình trung đích các cá ba trùng tuyến trình phân phốiCông tác nhậm vụ.Giải tích khí đích chủ yếu công tác thị hạ tái võng hiệt, tiến hành hiệt diện đích xử lý, chủ yếu thị tương nhất taJS cước bổnTiêu thiêm,CSSĐại mã nội dung, không cách tự phù, HTML tiêu thiêm đẳng nội dung xử lý điệu, ba trùng đích cơ bổn công tác thị do giải tích khí hoàn thành. Tư nguyên khố thị dụng lai tồn phóng hạ tái đáo đích võng hiệt tư nguyên, nhất bàn đô thải dụng đại hình đích sổ cư khố tồn trữ, nhưOracle sổ cư khố,Tịnh đối kỳ kiến lập tác dẫn.
Khống chế khí
Khống chế khí thị võng lạc ba trùng đíchTrung ương khống chế khí,Tha chủ yếu thị phụ trách căn cư hệ thống truyện quá lai đích URL liên tiếp, phân phối nhất tuyến trình, nhiên hậu khải động tuyến trình điều dụng ba trùngBa thủVõng hiệt đích quá trình.
Giải tích khí
Giải tích khí thị phụ trách võng lạc ba trùng đích chủ yếu bộ phân, kỳ phụ trách đích công tác chủ yếu hữu: Hạ tái võng hiệt đích công năng, đối võng hiệt đích văn bổn tiến hành xử lý, như quá lự công năng, trừu thủ đặc thù HTML tiêu thiêm đích công năng, phân tích sổ cư công năng.
Tư nguyên khố
Chủ yếu thị dụng lai tồn trữ võng hiệt trung hạ tái hạ lai đíchSổ cư ký lụcĐích dung khí, tịnh đề cung sinh thành tác dẫn đích mục tiêu nguyên. Trung đại hình đích sổ cư khố sản phẩm hữu:Oracle,Sql Server đẳng.