Technologia DVB-S

» MPEG1

» MPEG2

» MPEG4/AVC

Standardy kodowania - MPEG2

Standard MPEG-2 jest pierwszym standardem cyfrowym opracowanym pod kątem zastosowania w telewizji programowej. Określa on metodę kompresji i kodowania sygnału wizyjnego, fonii i danych dodatkowych.

W standardzie MPEG można transmitować zarówno obrazy wytwarzane w standardzie europejskim 625 linii / 50 Hz jak i w amerykańskim 525 linii / 60 Hz, dopuszczalne są również różne formaty obrazu w tym 4:3 i 16:9, wybieranie może być międzyliniowe lub kolejno liniowe.

Standardy MPEG należą do metod nieodwracalnych tzn. takich, których część informacji nieistotnych w odtwarzanym obrazie jest bezpowrotnie tracona w procesie kodowania.

Metoda kompresji stosowana w standardzie wykorzystuje:

korelację przestrzenną (wewnątrz obrazową),
korelację czasową,
właściwości ludzkiego oka,
właściwości statystyczne programu.

Metoda jest oparta na kodowaniu hybrydowym, opartym na wewnątrzpolowej transformacji kosinusowej (DCT) i międzypolowym kodowaniu z prognozowaniem i kompensacją ruchu.

W podlegający kompresji sygnale analogowym wykorzystując właściwości oka ludzkiego stosuje się ponad dwukrotne ograniczenie pasma chrominancji w stosunku do pasma luminancji. Możliwe są też trzy przypadki położenia próbek sygnałów różnicowych w stosunku do próbek sygnału luminancji: 4 : 2 : 0; 4 : 2 : 2; 4 : 4 : 4.

Dla przypadku: 4 : 2 : 0 - częstotliwość próbkowania sygnałów różnicowych, w obu kierunkach poziomym i pionowym, jest dwukrotnie mniejsza od częstotliwości próbkowania sygnału luminancji, a linie zawierające próbki chrominancji znajdują się pomiędzy liniami próbek luminancji.

W przypadku: 4 : 2 : 2 - częstotliwość próbkowania sygnałów różnicowych w kierunku poziomym jest dwukrotnie mniejsza od częstotliwości próbkowania sygnału luminancji, a w kierunku pionowym częstotliwość próbkowania luminancji i chrominancji są jednakowe.

W przypadku: 4 : 4 : 4 - częstotliwości próbkowania sygnałów luminancji i chrominancji w obu kierunkach są jednakowe.

Korelacje przestrzenną (wewnątrzobrazową) wykorzystuje się dzięki zastosowaniu dyskretnej transformacji kosinusowej DCT.

Dyskretna transformacja kosinusowa (DTC - Discrete Cosine Transform) jest linearną transformacją dwuwymiarową, mającą następujące zalety:

wykorzystywanie w bardzo dużym stopniu korelacji pomiędzy elementami obrazu,
zgrupowanie współczynników o znaczących amplitudach w ograniczonej części transformowanej płaszczyzny ,
transformacja jest rzeczywista, a jej podstawowymi funkcjami są funkcje sinusoidalne,
proces odrzucania współczynników lub modyfikacji i kwantowania ich amplitud jest bardzo podobny do procesu filtracji linearnej w obecności szumu.

Podstawowe procesy zachodzące przy dyskretnej transformacji kosinusowe (DCT) są następujące. Przesyłany obraz jest podzielony na małe podobrazy o wymiarach 8 × 8 elementów zależnie od zastosowania. Elementy podobrazu są następnie próbkowane i przesyłane do kodera dyskretnej transformacji kosinusowej kolejno dla wszystkich podobrazów. Transformacja jest przeprowadzana dla każdego bloku indywidualnie. Podobraz 8 × 8 próbek jest więc przetransformowany na blok 8 × 8 współczynników (transformant). Współczynniki w bloku transformant 8 × 8 reprezentują oryginalny podobraz 8 × 8 elementów obrazu w dziedzinie częstotliwości. Proces transformacji powoduje zgromadzenie większości informacji z obrazu oryginalnego w jednym współczynniku transformacji kosinusowej. Poziom tego współczynnika jest duży, natomiast poziomy pozostałych są małe.

Po transformacji współczynniki (transformanty) podlegają procesowi kwantowania. Dla poszczególnych współczynników są stosowane inne sposoby kwantowania w zależności od położenia danego współczynnika w podobrazie (tj. w zależności od tego jaką częstotliwość przestrzenną on reprezentuje). Kwantowanie może być linearne lub nielinearne. W przypadku współczynników odpowiadających większym częstotliwościom są tolerowane większe zniekształcenia kwantowania, a więc większe przedziały kwantowania, ponieważ zniekształcenia o tych częstotliwościach są mniej widoczne od zniekształceń o małych częstotliwościach (np. w podobrazach zawierających duże powierzchnie). Podobnie zniekształcenia kwantowania sygnału chrominancji są mniej przykre dla oka niż zniekształcenia sygnału luminancji. Zauważalność zniekształceń kwantowania zależy więc od rodzaju kodowanego podobrazu.

Przed kwantowaniem współczynniki mogą być znormalizowane przez ich wariancję. W celu zmniejszenia zniekształceń współczynniki przed procesem kwantowania są podzielone przez odpowiednie funkcje wagowe. Szczególnie szeroki przedział kwantowania wprowadza się w pobliżu zera, co powoduje w rezultacie zwiększenie liczby współczynników, którym zostaje przypisana wartość zero.

Dla większości transformowanych podobrazów tylko niewielka część współczynników jest znacząco różna od zera i jedynie te współczynniki muszą być kodowane i przesyłane. W przypadku typowych obrazów telewizyjnych amplitudy współczynników dotyczących wyższych częstotliwości przestrzennych są zwykle równe w przybliżeniu zeru. Liczba ich, podobnie jak liczba znaczących współczynników zależy od treści podobrazów. Po kwantowaniu współczynniki są grupowane w strumień danych. Stosuje się wówczas specjalne metody wyboru współczynników, zwane metodami klasyfikacji podobrazów (blok classification), polegające na wybieraniu współczynników wzdłuż linii ukośnych tzw. zigzag scanning.

Wykorzystując właściwości statystyczne sygnału współczynniki dyskretnej transformacji kosinusowej są kodowane ze zmienną długością słowa. Kody o zmiennej długości słowa (VLC) przypisują słowa o różnej długości sygnałom wytworzonym w koderze, czyli w ródle sygnału cyfrowego, zwanym alfabetem ródła (source alphabet). Ogólna zasada kodowania o zmiennej długości słowa (VLC) polega na przypisaniu każdemu symbolowi słowa kodowanego liczby bitów odwrotnie proporcjonalnej do prawdopodobieństwa jego występowania. Wówczas symbole występujące częściej są kodowane z mniejszą liczbą bitów, a symbole występujące rzadziej - z większą. Pozwala to na zmniejszenie średniej liczby bitów na symbol. Dekoder musi w tym przypadku prawidłowo dekodować zakodowane symbole. W związku z tym kod musi spełniać tzw. regułę przedrostka (prefix rule) tzn. żadne ze słów kodowych nie może być równe przedrostkowi drugiego. Przykładem kodu o zmiennej długości słowa jest kod Huffmana, stosowany bardzo często w technice wizyjnej.

Korelację czasową sygnału wykorzystuje się przez zastosowanie zasady prognozowania z kompensacją ruchu, która polega na oszacowaniu ruchu różnych obiektów pomiędzy jednym polem i drugim (lub pomiędzy kolejnymi obrazami) i tworzenia prognozy w kierunku ruchu. Podstawowym elementem tej metody jest sposób oszacowania przemieszczania się elementów (ruchu). Oszacowanie to jest najczęściej oparte na informacjach kodowanych poprzednio.

Stosowana metoda, tzw. dopasowywanie bloków, polega na określeniu zależności pomiędzy ruchomymi częściami obrazu i obrazu nadawanego poprzednio. Obraz jest podzielony na bloki, a kompresję ruchu przeprowadza się dwuetapowo. W pierwszym etapie następuje oszacowanie ruchu, tj. przeszukiwanie poprzednio nadawanego obrazu, znalezienie bloku odpowiadającego danemu blokowi i wykonanie ortogonalnego rzutu na ten obraz analizowanego bloku. W drugim etapie jest przeprowadzana kompensacja ruchu tj. obliczenie wektora przemieszczenia analizowanego bloku (pomiędzy poprzednim jego położeniem i jego rzutem ortogonalnym) i wykorzystanie go do tworzenia prognozy. Metoda ta wymaga przesyłania informacji o wektorze przemieszczenia dla każdego bloku pociąga więc za sobą zwiększenie prędkości bitowej przesyłanego sygnału. Nie jest natomiast konieczne przeprowadzenie w dekoderze dodatkowych obliczeń kompensacji ruchu.

W standardzie MPEG - 2 obrazy są połączone w grupy o ustalonej strukturze dla całej sekwencji. Grupy zawierają określoną liczbę obrazów. Dopuszczalne są trzy sposoby kodowania sygnałów poszczególnych obrazów w grupie:

Obrazy typu I (kodowane wewnątrzobrazowo), w których prognozę tworzy się tylko z wykorzystaniem zawartych w nich informacji, tj. położonych na tych samych lub sąsiednich liniach wybierania. Obrazy typu I muszą wystąpić na początku grupy obrazów; zapewniają jednak stosunkowo niewielki stopień kompresji.
Obrazy typu P (kodowane z prognozowaniem międzyobrazowym), w których prognozę tworzy się z wykorzystaniem informacji zawartych we wcześniejszym obrazie (może to być, ale nie musi, poprzedzający obraz) i informacji o przemieszczeniu elementów danego obrazu w stosunku do elementów wcześniejszego obrazu (wektorze ruchu). Zapewniają one większy stopień kompresji niż typu I. Obrazy typu P mogą być odniesieniem dla innych obrazów typu P lub obrazów typu B.
Obrazy typu B (kodowane z prognozowaniem dwukierunkowym) w których prognozę tworzy się podobnie jak w przypadku obrazów typu P, z tym, że odniesieniem dla nich są dwa obrazy - obraz wcześniejszy i obraz póniejszy. Zapewniają one największy stopień kompresji, ale nie mogą być odniesieniem dla żadnego innego obrazu.

Standard MPEG - 2 nie narzuca konkretnej struktury sygnału wizyjnego; liczba obrazów poszczególnych typów w grupie obrazów zależy od konkretnej realizacji kodera.

Kodek MPEG2 charakteryzuje sę nastepującymi własciwościami:

jest stosowany do kompresji obrazów o różnych proporcjach, takich jak 4x3, 16x9 i inne,
dopuszcza ramki o rozmiarze 16 K x 16 K
posiada mozliwośc rejestracji 5 kanałów dwiekowych i kilku ściezek zawierajacych napisy w róznych wersjach językowych,
obejmuje sygnał zarejestrowany w trybie progresywnym lub z przeplotem,
rejeestruje szczegółowo charakterystyki kompresowanego obrazu,
definiuje 2 formaty strumieni dla mediów transmisyjnych o róznych właściwościach: Transport Streams i Program Streams

Tabela 4 Profile i poziomy w standardzie MPEG2 oraz odpowiadające im parametry kodowania sygnału wizyjnego

Profil
		Simple	Main	SNR spatial	High	profil 4:2:2
	Typ ramki	I,P	I,P,B	I,P,B	I,P,B	I,P,B
Level	Rozdzielczość chrmoinacji	4:2:0	4:2:0	4:2:0	4:2:2	4:2:2
High	Max. strumień		80 Mb/s		100 Mb/s
	kolumn/wierszy		1920/1152		1920/1152
	ramek/sek.		60			60
High1440	Max. strumień		60 Mb/s	60 Mb/s	80
	kolumn/wierszy		1440/1152	1440/1152	1440/1152
	ramek/sek.		60	60	60
Main	Max. strumień	15 Mb/s	15 Mb/s	15 Mb/s	20 Mb/s	50 Mb/s
	kolumn/wierszy	720/576	720/576	720/576	720/576	720/608
	ramek/sek.	30	30	30	30	30
Low	Max. strumień		4 Mb/s	4 Mb/s
	kolumn/wierszy		352/288	352/288
	ramek/sek.		30	30

Aby ułatwić stosowanie standardu wprowadzono pięć takzwanych profili (profile), które w przyblizeniu wyznaczają obszary zastosowań (tabela). Każdy profil wykorzystuje podzbiór pełnej składni strumienia bitowego MPEG2, co umozliwia budowę koderów i dekoderów z przeznaczeniem do konkretnych zastosowań, bez potrzeby implementowania całego standardu. Dla poszczególnych profili wprowadzono tak zwane poziomy (level). Okreslają one dopuszczalne szybkosci bitowe strumieni MPEG2, nakładając tym samym wymagania na moc obliczeniową kodera. Pozwala to różnicować produkty pod względem zaawansowania technologicznego, a więc i ceny. W zależności od stosowanego profilu i poziomu, uzyskuje się strumienie o różnych szybkościach bitowych.

Standard MPEG-2 znalazł zastosowanie w wielu dziedzinach transmisji, przetwarzania i przechowywania treści telewizyjnych:

telewizja programowa satelitarna DVB-S, kablowa DVB-C i naziemna DVB-T
telewizja wysokiej rozdzielczości HDTV w ograniczonym zakresie
telewizja płatna
zapis na nośnikach DVD.

Źródła: [6][9]