Co to jest lista częstotliwości?

Lista częstotliwości to narzędzie do ilościowej analizy lingwistycznej, czyli zestawienie wszystkiego, co pojawia się w wybranym bloku tekstu i częstotliwości jego występowania. Analiza językowa to interdyscyplinarna dziedzina, która bada strukturę języka i sposób jego używania. Łącząc elementy antropologii, matematyki, informatyki i logiki, analiza lingwistyczna jest wykorzystywana w projektach takich jak tłumaczenie mechaniczne, kryptografia i odszyfrowywanie starożytnych pism.

Listy częstotliwości mogą być listami słów lub liter. Częstotliwości liter są zwykle używane w kryptografii. Jednym z najprostszych kodów jest szyfr podstawieniowy, w którym każda litera jest zastępowana inną literą lub symbolem. Na przykład wiadomość „atak o świcie” może być zakodowana jako „zoozhl zo azqp”. Zaletą szyfrów podstawieniowych jest to, że nie wymagają książki kodów, ale słabością jest to, że można je złamać, porównując częstotliwość liter i kombinacji liter w wiadomości z listą częstości użycia.

W „Przygodzie tańczących ludzi” Arthura Conan Doyle’a fikcyjny detektyw Sherlock Holmes wykorzystuje analizę częstotliwości, aby złamać szyfr podstawieniowy. W przeszłości twórcy kodów próbowali różnych sztuczek, aby utrudnić ich złamanie za pomocą listy częstotliwości: szyfry kroczące, w których stosowane podstawienie zależały od pozycji litery w wiadomości, eliminowanie lub kodowanie spacji, aby nie można było użyć częstotliwości słów, utrzymywanie wiadomości krótkie i unikające oczekiwanych słów, aby łamacze kodów nie mieli wystarczającej ilości próbki do wykorzystania w analizie częstotliwości. Ostatecznie każdy szyfr można złamać za pomocą wystarczająco dużej próbki, dlatego bardziej wyrafinowane protokoły szyfrowania stały się standardem.

Listy częstotliwości słów i typów słów są również używane w badaniach nad językiem starożytnym. Kiedy Jean-Francois Champollion przetłumaczył Kamień z Rosetty w latach 1820. XIX wieku, w jego procesie wykorzystano mieszankę porównywania częstotliwości i transliteracji, aby złożyć razem język hieroglifów. Badania wykazały, że w przypadku języków starożytnych, podobnie jak w przypadku współczesnego angielskiego, podstawowe słownictwo składające się z 1,500 do 2,000 słów obejmuje 85-90% popularnych tekstów, co pozwala czytelnikowi poszerzyć swoje słownictwo z kontekstu.

Prawo Zipfa, nazwane na cześć profesora lingwistyki z Harvardu, George’a Kingsleya Zipfa, jest empiryczną obserwacją dotyczącą zachowania wskaźników częstotliwości. Stwierdza, że ​​częstotliwość zdarzenia jest odwrotnie proporcjonalna do rankingu zdarzenia. Zdarzeniem jest zazwyczaj słowo lub litera z listy częstotliwości językowych, ale prawo Zipfa zostało uogólnione, aby objąć inne zjawiska, takie jak populacja miast i dochody przedsiębiorstw.

Lista częstotliwości jest ważnym narzędziem w projektach, które pomaga komputerom zrozumieć język mówiony i pisany. Tłumaczenie mechaniczne — wykorzystanie komputerów do tłumaczenia dokumentów z jednego języka na inny — to jeden z przykładów. Innym przykładem jest Watson, superkomputer języka naturalnego, który został zaprezentowany jako uczestnik telewizyjnego teleturnieju Jeopardy! w lutym 2011 r. Częstotliwości zarówno słów, jak i typów użycia są włączone do ich programowania jako narzędzie do znajdowania znaczenia.