Số liệu áp súc

Máy tính công năng
Cất chứa
0Hữu dụng +1
0
Số liệu áp súc ( tiếng Anh: Data Compression[2]), là dùng càng thiếu không gian đối vốn có số liệu tiến hành mã hóa quá trình[2],Chỉ ở không mất đi hữu dụng tin tức tiền đề hạ, giảm bớt số liệu lượng lấy giảm bớtTồn trữ không gian,Đề cao này truyền, tồn trữ cùng xử lý hiệu suất, hoặc dựa theo nhất định thuật toán đối số liệu tiến hành một lần nữa tổ chức, giảm bớt số liệu nhũng dư cùng tồn trữ không gian một loại kỹ thuật phương pháp. Số liệu áp súc bao gồm có tổn hại áp súc cùngKhông tổn hao gì áp súc.
Máy tính khoa họcCùngLý thuyết thông tinTrung, số liệu áp súc hoặc là nguyên mã hóa là dựa theo riêng mã hóa cơ chế dùng so chưa kinh mã hóa thiếu số liệu vị nguyên ( hoặc là cái khác tin tức tương quan đơn vị ) tỏ vẻ tin tức quá trình. Tỷ như, nếu chúng ta đem “compression” mã hóa vì “comp” như vậy áng văn chương này có thể dùng ítSố liệu vịTỏ vẻ. Một loại lưu hành áp súc ví dụ thực tế là rất nhiều máy tính đều ở sử dụng ZIPVăn kiện cách thức,Nó không chỉ có cung cấp áp súc công năng, lại còn có làm đệ đơn công cụ ( Archiver ) sử dụng, có thể đem rất nhiều văn kiện tồn trữ đến cùng cái văn kiện trung.
Tiếng Trung danh
Số liệu áp súc
Ngoại văn danh
Data Compression
Học khoa
Máy tính khoa học kỹ thuật _ cơ sở dữ liệu _ cơ sở dữ liệu tân kỹ thuật

Điểm chính

Bá báo
Biên tập
Đối với bất luận cái gì hình thức thông tín tới nói, chỉ có đương tin tức gửi đi phương cùng tiếp thu phương đều có thể đủ lý giải mã hóa cơ chế thời điểm áp súcSố liệu thông tínMới có thể đủ công tác. Tỷ như, chỉ có đương tiếp thu mới biết áng văn chương này yêu cầu dùng tiếng AnhTự phùGiải thích thời điểm áng văn chương này mới có ý nghĩa. Đồng dạng, chỉ có đương tiếp thu mới biết mã hóa phương pháp thời điểm hắn mới có thể đủ lýGiải áp súcSố liệu. Một ít áp súc thuật toán lợi dụng cái này đặc tính, ở áp súc trong quá trình đối số liệu tiến hành mã hóa, tỷ như lợi dụng mật mã mã hóa, lấy bảo đảm chỉ có được đến trao quyền một phương mới có thể chính xác mà được đến số liệu.
Số liệu áp súc có thể thực hiện là bởi vì đa số thế giới hiện thực số liệu đều có thống kê nhũng dư. Tỷ như, chữ cái “e” ở tiếng Anh trung so chữ cái “z” càng thêm thường dùng, chữ cái “q” mặt sau là “z” khả năng tính phi thường tiểu. Không tổn hao gì áp súc thuật toán thông thường lợi dụng thống kê nhũng dư, như vậy là có thể càng thêm ngắn gọn mà, nhưng vẫn cứ là hoàn chỉnh mà tỏ vẻ gửi đi phương số liệu.
Nếu cho phép trình độ nhất định sự chính xác tổn thất, như vậy còn có thể thực hiện tiến thêm một bước áp súc. Tỷ như, mọi người xem tranh vẽ hoặc là màn hình TV thời điểm khả năng cũng không sẽ chú ý tới một ít chi tiết cũng không hoàn thiện. Đồng dạng, hai cái âm tần ghi âm thu thập mẫu danh sách khả năng nghe tới giống nhau, nhưng trên thực tế cũng không hoàn toàn giống nhau. Có tổn hại áp súc thuật toán ở mang đến nhỏ bé khác nhau dưới tình huống sử dụng ít vị số tỏ vẻ hình ảnh, video hoặc là âm tần.
Bởi vì có thể trợ giúp giảm bớt như ổ cứng không gian cùng liên tiếp giải thông như vậy sang quý tài nguyên tiêu hao, cho nên áp súc trọng yếu phi thường, nhưng mà áp súc yêu cầu tiêu hao tin tức xử lý tài nguyên, này cũng có thể là phí dụng sang quý. Cho nên số liệu máy nén chế thiết kế yêu cầu ở áp súc năng lực, sai lệch độ, sở cần tính toán tài nguyên cùng với cái khác yêu cầu suy xét bất đồng nhân tố chi gian tiến hành chiết trung.
Một ít cơ chế là đảo ngược, như vậy liền có thể khôi phục nguyên thủy số liệu, loại này cơ chế xưng làKhông tổn hao gì số liệu áp súc;Mặt khác một ít cơ chế vì thực hiện càng caoÁp súc suấtCho phép trình độ nhất định số liệu tổn thất, loại này cơ chế xưng làCó tổn hại số liệu áp súc.
Nhưng mà, thường xuyên có một ít văn kiện không thể bịKhông tổn hao gì số liệu áp súcThuật toán áp súc, trên thực tế đối với không chứa có thể phân rõ hình thức số liệu bất luận cái gì áp súc thuật toán đều không thể áp súc. Ý đồ áp súc đã trải qua áp súc số liệu thông thường được đến kết quả trên thực tế là mở rộng số liệu, ý đồ áp súc trải qua mã hóa số liệu thông thường cũng sẽ được đến loại kết quả này.
Trên thực tế,Có tổn hại số liệu áp súcCũng sẽ cuối cùng đạt tới không thể công tác nông nỗi. Chúng ta tới cử một cái cực đoan ví dụ, áp súc thuật toán mỗi lần xóa văn kiện cuối cùng một chữ tiết, như vậy trải qua cái này thuật toán không ngừng áp súc cho đến văn kiện biến không, áp súc thuật toán đem không thể tiếp tục công tác.

Phân loại

Bá báo
Biên tập
Số liệu áp súc phương thức rất nhiều, bất đồng đặc điểm số liệu có bất đồng số liệu áp súc phương thức ( cũng chính là mã hóa phương thức ), phía dưới từ mấy cái phương diện đối này tiến hành phân loại.[1]
( 1 ) tức thời áp súc cùng phi tức thời áp súc
Tỷ như đánh IP điện thoại, chính là đem giọng nói tín hiệu chuyển hóa số lượng tự tín hiệu, đồng thời tiến hành áp súc, sau đó thông qua Internet truyền tống đi ra ngoài, cái này số liệu áp súc quá trình là tức thời tiến hành. Tức thời áp súc giống nhau ứng dụng ở hình ảnh, thanh âm số liệu truyền tống trung. Tức thời áp súc thường dùng đến chuyên môn phần cứng thiết bị, như áp súc tạp chờ.
Phi tức thời áp súc là máy tính người dùng thường xuyên dùng đến, loại này áp súc ở yêu cầu dưới tình huống mới tiến hành, không có tức thời tính. Tỷ như áp súc một tấm hình, một thiên văn chương, một đoạn âm nhạc chờ. Phi tức thời áp súc giống nhau không cần chuyên môn thiết bị, trực tiếp ở máy tính trung trang bị cũng sử dụng tương ứng áp súc phần mềm là được.
( 2 ) số liệu áp súc cùng văn kiện áp súc
Kỳ thật số liệu áp súc bao hàm văn kiện áp súc, số liệu vốn là nói về bất luận cái gì con số hóa tin tức, bao gồm máy tính có ích đến các loại văn kiện, nhưng có khi, số liệu là chuyên chỉ một ít có tính thời gian số liệu, này đó số liệu thường thường là tức thời thu thập, tức thời xử lý hoặc truyền. Mà văn kiện áp súc chính là chuyên chỉ đối sắp sửa bảo tồn ở ổ đĩa từ chờ vật lý chất môi giới số liệu tiến hành áp súc, như một thiên văn chương số liệu, một đoạn âm nhạc số liệu, một đoạn trình tự mã hóa số liệu chờ áp súc.
( 3 ) không tổn hao gì áp súc cùng có tổn hại áp súc
Không tổn hao gì áp súc lợi dụng số liệu thống kê nhũng dư tiến hành áp súc. Số liệu thống kê nhũng dư độ lý luận hạn chế vì 2: 1 đến 5: 1, cho nên không tổn hao gì áp súc áp súc so giống nhau tương đối thấp. Loại này phương pháp rộng khắp ứng dụng với văn bản số liệu, trình tự cùng đặc thù ứng dụng trường hợp hình ảnh số liệu chờ yêu cầu chính xác tồn trữ số liệu áp súc. Có tổn hại áp súc phương pháp lợi dụng nhân loại thị giác, thính giác đối hình ảnh, trong thanh âm nào đó tần suất thành phần không mẫn cảm đặc tính, cho phép áp súc trong quá trình tổn thất nhất định tin tức. Tuy rằng không thể hoàn toàn khôi phục nguyên thủy số liệu, nhưng là sở tổn thất bộ phận đối lý giải nguyên thủy hình ảnh ảnh hưởng nhỏ lại, lại đổi lấy khá lớn áp súc so. Có tổn hại áp súc rộng khắp ứng dụng với giọng nói, hình ảnh cùng video số liệu áp súc.

Nguyên lý

Bá báo
Biên tập
Trên thực tế,Nhiều truyền thông tin tứcTồn tại rất nhiều số liệu nhũng dư. Tỷ như, một bức hình ảnh trung yên lặng kiến trúc bối cảnh, trời xanh cùng xanh hoá, trong đó rất nhiều độ phân giải là tương đồng nếu trục điểm tồn trữ, liền sẽ lãng phí rất nhiều không gian, này xưng là không gian nhũng dư. Lại như, ở TV cùng động họa liền nhau danh sách trung, chỉ có vận động vật thể có một chút biến hóa, cận tồn trữ sai biệt bộ phận có thể, này xưng là thời gian nhũng dư. Ngoài ra còn có kết cấu nhũng dư, thị giác nhũng dư chờ, này liền vì số liệu áp súc cung cấp điều kiện.
Tóm lại, áp súc lý luận cơ sở làLý thuyết thông tin.Từ tin tức góc độ tới xem, áp súc chính là đi diệt trừ tin tức trung nhũng dư, tức đi diệt trừ xác định hoặc nhưng suy ra tin tức, mà giữ lại không xác định tin tức, cũng chính là dùng một loại càng tiếp cận tin tức bản chất miêu tả tới thay thế vốn có nhũng dư miêu tả, cái này bản chất đồ vật chính là tin tức lượng.

Ứng dụng

Bá báo
Biên tập
Một loại phi thường đơn giản áp súc phương pháp làHành trình chiều dài mã hóa,Loại này phương pháp sử dụng số liệu cập số liệu chiều dài như vậy đơn giản mã hóa thay thế đồng dạng liên tục số liệu, đây làKhông tổn hao gì số liệu áp súcMột cái ví dụ thực tế. Loại này phương pháp thường xuyên dùng cho làm công máy tính lấy càng tốt mà lợi dụng ổ đĩa từ không gian, hoặc là càng tốt mà lợi dụng máy tính internet trung giải thông. Đối vớiĐiện tử bảng biểu,Văn bản,Nhưng chấp hành văn kiệnChờ như vậy ký hiệu số liệu tới nói, không tổn hao gì là một cái phi thường mấu chốt yêu cầu, bởi vì trừ bỏ một ít hữu hạn tình huống, đại đa số dưới tình huống cho dù là một cáiSố liệu vịBiến hóa đều là vô pháp tiếp thu.
Đối với video cùng âm tần số liệu, chỉ cần không tổn thất số liệu quan trọng bộ phận trình độ nhất định chất lượng giảm xuống là có thể tiếp thu. Thông qua lợi dụng nhân loại cảm giác hệ thống cực hạn, có thể đại biên độ đến tiết kiệmTồn trữ không gianHơn nữa được đến kết quả chất lượng cùng nguyên thủy số liệu chất lượng so sánh với cũng không có rõ ràng khác biệt. Này đóCó tổn hại số liệu áp súcPhương pháp thông thường yêu cầu ở áp súc tốc độ, áp súc số liệu lớn nhỏ cùng với chất lượng tổn thất này ba người chi gian tiến hành chiết trung.
Có tổn hạiHình ảnh áp súcDùng cho máy ảnh kỹ thuật số trung, đại biên độ mà đề cao tồn trữ năng lực, đồng thời hình ảnh chất lượng cơ hồ không có hạ thấp. Dùng cho DVD có tổn hạiMPEG-2Biên giải mã video áp súc cũng thực hiện cùng loại công năng.
Ở có tổn hại âm tần áp súc trung, tâm lý thanh học phương pháp dùng để đi trừ tín hiệu xuôi tai không thấy hoặc là rất khó nghe thấy thành phần. Nhân loại giọng nói áp súc thường xuyên sử dụng càng thêm chuyên nghiệp kỹ thuật, bởi vậy mọi người có khi cũng đem “Giọng nói áp súc” hoặc là “Giọng nói mã hóa” làm một cái độc lập nghiên cứu lĩnh vực cùng “Âm tần áp súc” phân chia ra. Bất đồng âm tần cùng giọng nói áp súc tiêu chuẩn đều thuộc về âm tần biên giải mã phạm trù. Tỷ như giọng nói áp súc dùng choInternetĐiện thoại, mà âm tần áp súc bị dùng cho CD thu băng lại hơn nữa sử dụng MP3 máy chiếu giải mã.

Lý luận

Bá báo
Biên tập
Áp súc lý luận cơ sở làLý thuyết thông tin( nó cùng thuật toán lý thuyết thông tin chặt chẽ tương quan ) cùng với suất sai lệch lý luận, cái này lĩnh vực nghiên cứu công tác chủ yếu là từ Claude Shannon đặt, hắn ở hai mươi thế kỷ 40 niên đại thời kì cuối cập 50 niên đại lúc đầu phát biểu phương diện này cơ sở tính luận văn. Doyle cùng Carlson ở 2000 năm viết nói số liệu áp súc “Có tất cả công trình lĩnh vực đơn giản nhất, tối ưu mỹ thiết kế lý luận chi nhất”. Mật mã học cùngMã hóa lý luậnCũng là chặt chẽ tương quan ngành học, số liệu áp súc tư tưởng cùng thống kê suy đoán cũng có rất sâu sâu xa.
Rất nhiềuKhông tổn hao gì số liệu áp súcHệ thống đều có thể coi như là bốn bước mô hình,Có tổn hại số liệu áp súcHệ thống thông thường bao hàm càng nhiều bước đi, tỷ như nó bao gồm đoán trước, tần suất biến hóa cùng với lượng hóa.

Lưu hành thuật toán

Bá báo
Biên tập
Lempel-Ziv ( LZ ) áp súc phương pháp là nhất lưu hành không tổn hao gì tồn trữ thuật toán chi nhất. DEFLATE là LZ một cái biến thể, nó nhằm vàoGiải áp tốc độCùngÁp súc suấtTiến hành rồi ưu hoá, tuy rằng nó áp súc tốc độ khả năng phi thường thong thả, PKZIP, gzip cùng với PNG đều ở sử dụng DEFLATE. LZW ( Lempel-Ziv-Welch ) là Unisys độc quyền, thẳng đến 2003 năm 6 nguyệt độc quyền đến kỳ hạn, loại này phương pháp dùng cho GIF hình ảnh. Mặt khác đáng giá nhắc tới chính là LZR (LZ-Renau) phương pháp, nó là Zip phương pháp cơ sở. LZ phương pháp sử dụng căn cứ vàoBảng biểuÁp súc mô hình, trong đó bảng biểu trung điều mục dùng lặp lại số liệu xuyến thay đổi. Đối với đại đa số LZ phương pháp tới nói, cái nàyBảng biểuLà từ lúc ban đầu đưa vào số liệu động thái sinh thành. Cái nàyBảng biểuThường xuyên chọn dùngHoffmann mã hóaGiữ gìn ( tỷ như, SHRI, LZX ). Một cái tính năng tốt đẹp căn cứ vào LZ mã hóa cơ chế là LZX, nó dùng choHơi mềm công tyCAB cách thức.

Thuật toán mã hóa

Bá báo
Biên tập
Tốt nhất áp súc công cụ đem xác suất mô hình đoán trước kết quả dùng choSố học mã hóa.Số học mã hóaTừ Jorma Rissanen phát minh, hơn nữa từ Witten, Neal cùng với Cleary đem nó chuyển biến thành một cái thực dụng phương pháp. Loại này phương pháp có thể thực hiện so mọi người đều biết Huffman thuật toán càng tốt áp súc, hơn nữa nó bản thân phi thường thích hợp với thanh thản ứng số liệu áp súc, thanh thản ứng số liệu áp súc đoán trước cùng trên dưới văn chặt chẽ tương quan.Số học mã hóaĐã dùng cho nhị giá trịHình ảnh áp súcTiêu chuẩn JBIG, hồ sơ áp súc tiêu chuẩn DejaVu. Văn bản đưa vào hệ thống Dasher là một cái nghịch số học mã hóa khí.

Loại hình

Bá báo
Biên tập
Số liệu áp súc nhưng phân thành hai loại loại hình, một loại gọi làKhông tổn hao gì áp súc,Một loại khác gọi làCó tổn hại áp súc.
Không tổn hao gì áp súcLà chỉ sử dụng áp súc sau số liệu tiến hành trọng cấu ( hoặc là gọi là hoàn nguyên,Giải áp súc), trọng cấu sau số liệu cùng nguyên lai số liệu hoàn toàn tương đồng; không tổn hao gì áp súc dùng cho yêu cầu trọng cấu tín hiệu cùng nguyên thủy tín hiệu hoàn toàn nhất trí trường hợp. Một cái thực thường thấy ví dụ là ổ đĩa từ văn kiện áp súc. Không tổn hao gì áp súc thuật toán giống nhau có thể đem bình thường văn kiện số liệu áp súc đến nguyên lai 1/2~1/4. Một ít thường dùng không tổn hao gì áp súc thuật toán cóHoffmann(Huffman) thuật toán cùng LZW(Lenpel-Ziv & Welch) áp súc thuật toán.
Có tổn hại áp súc là chỉ sử dụng áp súc sau số liệu tiến hành trọng cấu, trọng cấu sau số liệu cùng nguyên lai số liệu có điều bất đồng, nhưng không ảnh hưởng người đối nguyên thủy tư liệu biểu đạt tin tức tạo thành hiểu lầm.Có tổn hại áp súcÁp dụng với trọng cấu tín hiệu không nhất định một hai phải cùng nguyên thủy tín hiệu hoàn toàn tương đồng trường hợp. Tỷ như, hình ảnh cùng thanh âm áp súc liền có thể chọn dùngCó tổn hại áp súc,Bởi vì trong đó bao hàm số liệu thường thường nhiều hơn chúng ta thị giác hệ thống cùng thính giác hệ thống có khả năng tiếp thu tin tức, vứt bỏ một ít số liệu mà không đến mức đối thanh âm hoặc là hình ảnh sở biểu đạt ý tứ sinh ra hiểu lầm, nhưng nhưng đại đại đề cao áp súc so.

Kéo dài đọc

Bá báo
Biên tập
Ở trên mạng, chúng ta sở dĩ có thể thoải mái mà gửi đi hình ảnh cùng âm tần số liệu, phương tiện mà chia sẻ video, không chỉ có đến ích với internet giải thông biến đại, tốc độ biến mau, cũng đến ích với số liệu áp súc kỹ thuật tiến bộ. Có thể không khoa trương mà nói, chúng ta thường dùng các loại số liệu đều sử dụng số liệu áp súc.
Số liệu áp súc có thể thô sơ giản lược chia làm hai loại: Một loại là có thể đem số liệu hoàn toàn khôi phục đến nguyên thủy trạng thái không tổn hao gì số liệu áp súc, một loại khác là vô pháp đem số liệu hoàn toàn khôi phục đến nguyên thủy trạng thái có tổn hại số liệu áp súc.
Không tổn hao gì số liệu áp súc trung, đơn giản nhất phương pháp chính là hành trình chiều dài áp súc. Giả thiết mỗ tự phù xuyến trung có tương đồng tự phù liên tục sắp hàng bộ phận, liền có thể đem liên tục lặp lại tự phù đổi thành con số, đạt tới ngắn lại số liệu mục đích. Tỷ như aaaabbbcccccc cái này tự phù xuyến, là từ 4 cái a, 3 cái b cùng 6 cái c liên tục cấu thành, cho nên có thể dùng “4a3b6c” tới tỏ vẻ, đem nguyên bản có 13 cái tự phù số liệu áp súc vì 6 cái tự phù. Phương pháp này còn có thể ứng dụng đến hình ảnh thượng, tỷ như, nếu hình ảnh số liệu có 12 cái độ phân giải liên tục vì màu đỏ, 10 cái độ phân giải liên tục vì màu vàng, liền có thể dùng “12 hồng 10 hoàng” tới tỏ vẻ. Nhưng là ở thực tế số liệu trung, đại lượng tự phù tương đồng hoặc là nhan sắc liên tục tình huống rất ít.
Không tổn hao gì số liệu áp súc trung, có khác một cái trứ danh thuật toán là Huffman mã hóa, đây là một cái ứng dụng phạm vi càng quảng áp súc kỹ thuật. Ở máy tính, đối mỗi một chữ phù ( tỷ như tiếng Anh chữ cái ) đều chọn dùng 8 so đặc ( bit ) tới tỏ vẻ. Ở Huffman mã hóa, sẽ tạm thời hủy bỏ nguyên bản phân phối cấp các tự phù 8 so đặc số, đem số liệu trung xuất hiện số lần rất nhiều tự phù dùng đoản so đặc số tới tỏ vẻ, mà xuất hiện số lần không nhiều lắm tự phù tắc dùng trường so đặc số tới tỏ vẻ. Thông qua như vậy biến hóa, là có thể càng có hiệu suất mà tỏ vẻ số liệu. Huffman mã hóa áp súc suất tương đối cao hơn nữa không tồn tại độc quyền vấn đề, cho nên bị dùng cho zip chờ áp súc thuật toán trung.
Có tổn hại số liệu áp súc thường bị sử dụng đến hình ảnh, âm tần cùng video chờ số liệu trung. Trên thực tế, áp súc phía trước loại này số liệu, bao hàm rất nhiều người tri giác vô pháp cảm giác đến tin tức. Chỉ cần xóa bỏ này đó tin tức, là có thể làm số liệu thu nhỏ. Bất quá, tiêu trừ số liệu là vô pháp khôi phục. Tỷ như, hình ảnh số liệu trung bao hàm độ sáng cùng sắc tướng ( nhan sắc thành phần ). Người thị giác đối độ sáng biến hóa thực mẫn cảm, mà ở phân biệt sắc tướng phương diện lại không quá nhanh nhạy. Bởi vậy, có thể xảo diệu mà thu nhỏ lại tỏ vẻ sắc tướng số liệu. Lúc này dùng đến chính là xưng là Fourier biến hóa toán học phương pháp.
Một ít máy ảnh kỹ thuật số có thể đồng thời tồn trữ chưa áp súc nguyên thủy số liệu ( raw data ) cùng áp súc lúc sau JPEG số liệu. Đối cùng cái vật thể quay chụp hình ảnh, nguyên thủy số liệu có thể đạt tới mấy chục triệu byte ( MB ), JPEG số liệu tắc nhưng áp súc đến này một phần mười tả hữu[2].