Тема 2. Представление информации (2 часа)

Дидактические единицы: Язык. Классификация языков. Функции естественных языков. Недостатки естественных языков. Объектные языки и метаязыки. Кодирование информации. Виды знаков. Буквы, алфавиты. Кодирование и декодирование. Представление в компьютере текстовой информации.

Вопросы к изучению:1. Язык как способ представления информации. Классификация языков.
2. Кодирование информации. Виды знаков. Алфавиты, буквы.
3. Представление в компьютере текстовой информации.
4. Внутреннее представление символа в компьютере. Дополнительные сведения

1. Язык как способ представления информации. Классификация языков.

Существует множество определений языка. Язык определяется как

"важнейшее средство человеческого общения"
"вся система знаков"
"только человеческая речь"

Под "языком" будем при дальнейшем изложении понимать материальную (звуковую по преимуществу) оболочку мысли.

Слово, являющееся единицей естественного языка, выступает в виде движущихся материальных слоёв воздуха, в виде звуков. Слово - материальное образование, языковой знак.

С точки зрения происхождения языки делятся на естественные (далее - ЕЯ) и искусственные (далее - ИЯ). У ЕЯ нет автора, автор - народ в целом. ИЯ всегда созданы кем-то, автор ИЯ чаще всего известен.

Языки
Естественные языки	Искусственные языки (языки науки)
Естественные языки (ЕЯ) суть особые знаковые системы, с них началось формирование человеческого сознания. Все другие знаковые системы являются производными от ЕЯ. ЕЯ являются универсальными знаковыми системами. По-латыни universum - Вселенная, поэтому, во-первых, ЕЯ, способен отобразить в себе весь известный человеку мир, а во-вторых, способен описать (опознать) вещи ещё неизвестные [в этом выражается прогностическая сторона ЕЯ].	Содержательные ИЯ (СИЯ) представляют собой фрагмент естественного языка (тексты в учебниках литературы, русского языка, географии, истории) с уточнённым значением употребляемых слов.	Формализованные ИЯ (ФИЯ) построены по определённым правилам, используют формулы и специальные символы (язык физики, математики, химии etс.)

Функции естественного языка
Коммуникативная	Познавательная (когнитивная)	Выразительная (экспрессивная)
Communis (лат.) общий. Это функция общения с помощью языка, совместного узнавания, знания (СО-знания)	До 3-4 лет ребёнок овладевает устной речью, которая открывает ему доступ к богатствам, накопленным национальной культурой. Овладев письменностью, ребёнок получает доступ к богатствам, накопленным всей человеческой цивилизацией.	Называется ещё модальной. Это самая древняя функция языка. С её помощью говорящий выражает своё отношение к внеязыковой действительности.

Недостатки естественных языков
Многозначность	Экспрессивность	Многословность	Эмотивность
В ЕЯ многозначность слов обычно не доставляет неудобств, так как значение употребляемого слова определяется участниками общения контекстуально. В ИЯ (особенно в ФИЯ) слово используется только в одном, определённом значении. В таких случаях слова становятся терминами. Попробуйте нарисовать картинку к предложению: "Девушка с косой стояла на косе, держа в руках косу". В зависимости от того, в каком значении Вы употребили слово "коса" на 1-м, 2-м, 3-м местах, у Вас могут получиться разные картинки (представления о сказанном).	Модальная функция языка, обычно характерная для устной повседневной речи, вносит субъективный элемент в процесс обмена информацией, чаще всего препятствует нахождению истины. В СИЯ, а особенно в ФИЯ, элементы субъективного отношения к внеязыковой действительности практически отсутствуют. В научных дискуссиях или в официальных выступлениях должностных лиц отрицательное отношение к противоположной точке зрения выражается лишь с помощью эвфемизмов.	Лектор, выступающий перед неподготовленной аудиторией, вынужден тратить время на определение основных понятий, используемых им для раскрытия темы выступления. В ФИЯ термины чаще уже определены, поэтому тексты научной тематики короче устных пояснений лектора. Прочтите следующий диалог: Жена (мужу): "Водку, сок, мясо - возьми и пожарь на сковороде". Муж (удивлённо): "А водку-то зачем жарить?" Жена: "Ты оглох, что ли? Вот кусок мяса - возьми и пожарь на сковороде". Из-за чего возникло непонимание между супругами?	Язык используется чаще всего как средство общения. Общение обычно предназначено для СО-знания общающихся, для построения программ поведения людей, продуктивных или контрпродуктивных. Но бывает общение и без обмена смыслами (разговор людей, вкладывающих разные смыслы в используемые слова (логомахии), ритуалы, прикосновения, поглаживания и т.п.). Такое общение выражает чувство общности, сопричастности к ней, симпатии или антипатии, участия (соучастия).

В лингвистике различают также
Метаязык	Объектный язык
μετα (греч.)- вне, за пределами - язык, известный носителю, чаще национальный ЕЯ, на основе которого изучается новый язык, ещё неизвестный.	Язык, изучаемый на основе метаязыка. Для француза, приехавшего пожить в Китай, объектным языком будет китайский, метаязыком - французский.

2. Кодирование информации. Виды знаков. Алфавиты, буквы.

Информация передаётся в виде сообщений с помощью некоторых знаков.

Род "знаки" делится на виды:
знаки-копии(иконические)	знаки-сигналы	языковые знаки	знаки-символы
Наглядные или звуковые изображения обозначаемых предметов (фотография человека, скульптура, карта местности, чертёж); сходство с объектом у этого вида знаков является обязательным.	Носят конвенциальный характер (соглашения между людьми); возникли спонтанно или намеренно, но обязательно согласованы и общеприняты (дорожные, денежные, знаки приветствия, форменная одежда, флажковая сигнализация, азбука Морзе и т.п. ).	Все слова и выражения нашего языка суть знаки. Каждый народ пользуется своим национальным языком. Большинство языковых знаков непохожи на замещаемый знаком (словом) предмет.	Знаки "в чистом виде": символики, коды искусственных языков (формулы в математике, структурные формулы в химии, язык формальной логики, физики, геральдики).

Информация подразделяют на два вида: аналоговую (непрерывную, континуальную) и дискретную (прерывную, прерывистую). Примером аналоговой информации может служить запись звука на магнитофонную ленту или колебаний температуры на ленту или диск самописца. Примером дискретной записи служит этот самый текст, который Вы сейчас читаете. Вычислительные машины (компьютеры) тоже обрабатывают и аналоговую, и дискретную информацию. Компьютеры, обрабатывающие непрерывный сигнал, называются аналоговыми вычислительными машинами (АВМ). Персональные компьютеры (электронные, цифровые вычислительные машины, ЭВМ), с которыми мы уже привыкли работать, обрабатывают дискретную информацию. Дискретная информация записывается с помощью некоторого конечного набора знаков, которые будем называть буквами.

Буква (в её расширенном понимании) - любой из знаков, которые некоторым соглашением установлены для общения. Вообще буквой будем называть элемент некоторого конечного множества (набора) отличных друг от друга знаков.

Множество знаков, на котором определён их порядок, назовём АЛФАВИТОМ. Вот названия некоторых алфавитов: латиница, кириллица, армянский, грузинский, алфавит арабских цифр, латинских цифр, византийских цифр, блок-схем изображения алгоритмов). Отдельную группу составляют двузначные (двоичные) алфавиты: [0 1]; [× —]; [• —].

Кодировки слова ''компьютер'' в разных алфавитах

В канале связи сообщение, составленное из букв (символов) одного алфавита, может преобразовываться в сообщение из букв (символов) другого алфавита.

Правило, описывающее однозначное соответствие букв алфавита при таком преобразовании, называется кодом. Саму процедуру преобразования сообщения называют перекодировкой.

Сообщения должно быть преобразовано в момент его поступления от источника в канал связи (кодирование), и в момент приёма сообщения получателем (декодирование). Люди или технические устройства, обеспечивающие кодирование (шифрование) и декодирование (дешифровку), называются соответ-ственно кодировщиком и декодировщиком (шифратором и дешифратором).

Люди шифруют свои сообщения для того, чтобы не допустить к важным знаниям профанов, для защиты от сведений, составляющих важную государственную тайну и пр. Так возникают всяческие тайнописи, арго субкультур, профессиональные жаргоны, которые отражают какую-то сферу реальной действительности и обслуживают потребность данной социальной группы в быстрой и адекватной передаче актуальной информации. Например, каменщики различают в кирпиче "тычок", "бочок" и "ложок" (грани кирпичного параллелепипеда). Полинезийцы называют коралловые рифы в зависимости от того, выступают или не выступают они над поверхностью океана, позволяют или не позволяют провести каноэ в данном месте. Вперёдсмотрящий матрос, произнеся всего одно слово, даёт возможность рулевому быстро принять решение, как и куда вести судно. Чем короче сигнал опасности, тем больше шансов выжить у владельцев-пользователей кода.

Создавая объектные языки субкультур, люди используют словарный состав метаязыка (чаще всего национального, иногда национального и иностранного), часто употребляя слова родного языка в неожиданном или непривычном для окружающих значении.

3. Представление в компьютере текстовой информации.

Когда возникла нужда давать техническим устройствам команды, люди вынуждены были преобразовать буквы национального алфавита в последовательности простых сигналов и стали использовать для этого двоичные алфавиты (см. выше). Так как техническое устройство в целом или отдельные его части можно либо включить, либо выключить, люди стали кодировать такие состояния двумя буквами. Телеграфисты применяли для передачи сообщений точку и тире, физики и электрики обозначали положительный и отрицательный заряды как + и -. Математики, исследуя недесятичные позиционные системы счисления, использовали для двоичного счёта 0 и 1. Для этого сначала приходилось составлять кодировочные таблицы.

Много ли символов можно зашифровать, используя две буквы? Можно попробовать составлять из двух букв слова разной длины и смотреть результат.

Двоичное слово	Кодируемый символ

Получается, что если в кодовом слове будет всего одна двоичная буква, то таким словом можно закодировать две буквы какого-нибудь алфавита (для примера взята латиница). Теперь попробуем записать все возможные двухбуквенные двоичные слова (см. таблицу ниже).

Двоичное слово	Кодируемый символ

С помощью двухбуквенных двоичных слов оказалось возможным закодировать четыре символа алфавита. Увеличим длину двоичного слова до трёх букв.

Двоичное слово	Кодируемый символ

С помощью трёхбуквенных двоичных слов можно закодировать 8 символов некоторого алфавита. Это увлекательное исследование можно продолжать, но и сейчас уже можно сделать некоторые выводы.

2¹=2, 2²=4, 2³=8 и т.д. Когда кодовое слово n прирастает на одну букву (арифметическая прогрессия), число кодируемых символов M растёт в геометрической прогрессии (степени двойки). Это можно выразить формулой 2ⁿ=M, где n=1, 2, 3, 4 ...

В универсальном преобразователе информации (компьютере) должны находиться все символы, необходимые человеку в быту и профессиональной деятельности. Оказалось, чтобы отразить это необходимое многообразие на экране монитора и выводимых текстах документов, достаточно закодировать с помощью двоичных кодов 256 различных символов, использовав для этого 8 двоичных разрядов (2⁸=256).

В микроЭВМ (персональных компьютерах) чаще всего используется кодовая таблица ASCII (American Standart Code for Information Interchange), созданная в 1963 году. К достоинствам такой кодировки букв латиницы и кириллицы относится их естественное упорядочение, что важно при решении задач обработки текстов.

Поскольку производить персональные компьютеры для продажи частным лицам первыми стали американцы, в основу кодовой таблицы символов для знакогенератора видеоконтроллера компьютера IMB PC положили действовавшую тогда кодовую таблицу американских телеграфистов. В ней для кодирования 128 символов использовалось 7 двоичных разрядов (бит). Символы с кодами с 0-го по 127-й стали общей частью ASCII-таблицы для всех персональных компьютеров, выпускаемых в дальнейшем. В ASCII символы с 0-го по 31-й связаны с управляющими клавишами клавиатуры, символы с 32-го по 127-й - c алфавитно-цифровыми.

Благодаря общей части ASCII-таблицы, фактически ставшей стандартом кодировки текстовых символов в ЭВМ, персональные компьютеры на всей планете могут "понимать" друг друга. У любого из них коды текстовых символов с 0-го по 127-й совпадают. При передаче сообщений с компьютера на компьютер из страны в страну один символ национальной части кодовой таблицы кодируется двумя символами общей части кодовой таблицы. Именно поэтому SMS, написанные кириллицей, которые посылает абонент мобильной телефонной сети, приблизительно в два раза короче SMS, написанных латиницей.

У романо-германских стран в их национальных алфавитах, принятых на основе латиницы, более 26-и символов. Когда персональные компьютеры IBM PC стали экспортировать за пределы США, программистам IBM пришлось увеличивать на один бит кодировочную таблицу, и в ней стало возможным закодировать 256 символов. Следовавшая за общей частью кодовой таблицы символов её расширенная часть, предложенная IBM, включила в себя буквы алфавитов европейских народов, специфические знаки препинания испанского, математические символы, дроби, степени, греческие буквы, символы "псевдографики", употреблявшиеся для рисования таблиц и т.п. Кодировка стала однобайтной (восьмибитной). Это значит, что двоичное слово, кодировавшее один символ, состояло из восьми букв двоичного алфавита.

Однобайтная OEM-кодировка, предложенная IBM

Первой фирмой, выпустившей русифицированную операционную систему, была Apple. Русифицированные персональные компьютеры "Макинтош", появившиеся в конце 80-х, имели свою собственную, ни с чем не совместимую кодировку кириллицы для Mac OS (см. таблицу ниже). Её можно встретить в мировой паутине (WWW).

Однобайтная русифицированная кодировка от Apple для компьютеров Macintosh

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась ещё в советские времена на компьютерах серии ЕС ЭВМ, и когда в середине 80-х появились первые русифицированные версии операционной системы UNIX, они переняли эту кодировку у своих "старших братьев". Сеть Релком, с которой начинался российский Интернет в начале 90-х и которая поначалу состояла в основном из компьютеров с UNIX, также приняла кодировку КОИ8 в качестве стандартной. Сейчас КОИ8-Р является единственно допустимой кодировкой в русскоязычной электронной почте и телеконференциях. КОИ8-Р - одна из кодировок, которые обязательно должна поддерживать любая русская страница в WWW (см. таблицу ниже).

Алфавитно-цифровая часть кодировки KOI8-R

Кодировочные таблицы IBM-совместимых компьютеров, попавших в СССР, советские программисты заполняли символами кириллицы в разных местах расширенной части. Достаточно сказать, что существовали "основная кодировка ГОСТ" и "альтернативная кодировка ГОСТ". Властные органы рекомендовали пользоваться основной кодировкой, но подавляющее большинство пользователей очень скоро перешли на более практичную и удобную "модифицированную альтернативную кодировку ГОСТ". В ней некоторые математические символы и символы псевдографики совпадали с IBM-кодировкой, а русские буквы встали на те позиции, где у IBM-таблицы стоят греческие, французские, немецкие и т.п. Это давало возможность прямого использования англоязычных программ. Кодовая страница (code page), созданная IBM для России (её номер 866), позволяла работать на IBM-совместимом компьютере под управлением операционной системы MS-DOS. Эта кодировка русских символов CP866 для IBM-совместимых компьютеров, работавших под управлением ОС MS DOS, называется иногда OEM-кодировкой (см. таблицу ниже).

Алфавитно-цифровая часть кодировки CP 866 для IBM PC, работавших под управлением ОС MS DOS

После написания графической оболочки Windows символы "псевдографики" стали излишними - в Windows-приложениях линии или диаграммы можно нарисовать непосредственно. К тому же в OEM-кодировке, предложенной IBM для MS DOS, не хватало многих символов европейских языков. Поэтому корпорация Microsoft разработала для Windows новую кодовую таблицу, называемую однобайтной ANSI-кодировкой. Алфавитно-цифровая часть кодовой страницы от Microsoft для России (code page 1251) представлена ниже.

Алфавитно-цифровая часть кодировки CP 1251 для IBM PC, работающих под управлением ОС семейства Windows

Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка ещё одну кодировку под названием ISO 8859-5. Эта кодировка была принята лишь в очень ограниченном количестве программных и аппаратных продуктов (в основном тех, которые русифицировались на Западе людьми, незнакомыми с реальным положением дел в компьютерной кириллице). Поэтому ISO 8859-5 в компьютерном мире встречается крайне редко (см. таблицу ниже).

Алфавитно-цифровая часть кодовой таблицы ISO 8859-5

Выше описывались однобайтные кодировки. Считается, что на сегодняшний день существуют пять однобайтных кодировок русского кириллического восточнославянского алфавита (Mac, КОИ8-Р, OEM (cp866), ANSI (cp1251), ISO 8859-5).

В настоящее время всё большее распространение приобретает двубайтная кодировка Unicode, в ней коды символов могут принимать значения от 0 до 65535, что позволяет закодировать 65536 символов. Полная спецификация стандарта Unicode представляет собой довольно толстую книгу и включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов. Есть надежда, что для русского языка Unicode со временем сможет "вытеснить" все остальные кодировки. Чтобы составить представление о возможностях Unicode, достаточно в текстовом процессоре Word заняться вставкой символов шрифтами Winding, Webding или выбрать в списке шрифты с названиями, включающими в себя слово "Unicode".

4. Внутреннее представление символа в компьютере. Дополнительные сведения

Чтобы Вы могли представить себе, как коды букв существуют внутри компьютера, рассмотрите рисунок ниже. На нём отображён один из способов передачи данных внутри компьютера цепочкой импульсов. Так "представляется" компьютеру русская буква "Т" (код 210₁₀ = 11010010₂) - приблизительно так же, как и всякая иная буква или цифра кодировочной таблицы.

Цепочка из 10 импульсов, кодирующая русскую букву ''Т'' внутри компьютера

Рассмотрите общую часть кодовой таблицы символов ASCII на рисунке ниже. Верхняя строка, выделенная тёмным цветом, показывает нам служебные (командные) символы, связанные с управляющими клавишами клавиатуры компьютера.

Общая часть кодовой таблицы символов ASCII

Десятичный код	Шестнадцате- ричный код	Управляющая клавиша	Действие клавиши	Отображение
000	00_h	NUL	пустой символ
001	01_h	SOH	начало заголовка
002	02_h	STX	начало текста
003	03_h	ETX	конец текста	♥
004	04_h	EOT	конец передачи	♦
005	05_h	ENQ	запрос	♣
006	06_h	ACK	подтверждение	♠
007	07_h	BEL	звонок
008	08_h	BS	возврат на одну позицию
009	09_h	HT	горизонтальная табуляция
010	0A_h	LF	перевод строки
011	0B_h	VT	вертикальная табуляция
012	0C_h	FF	подача бланка (новый лист)
013	0D_h	CR	возврат каретки
014	0E_h	SO	переход на верхний регистр
015	0F_h	SI	переход на нижний регистр
016	10_h	DLE	переключение кода
017	11_h	DC1	управление 1-ым устройством
018	12_h	DC2	управление 2-м устройством
019	13_h	DC3	управление 3-м устройством	!!
020	14_h	DC4	управление 4-м устройством	¶
021	15_h	NAK	переспрос	§
022	16_h	SYN	режим синхронного ожидания
023	17_h	ETB	конец передачи блока
024	18_h	CAN	отмена	↑
025	19_h	EM	конец носителя	↓
026	1A_h	SUB	замена	→
027	1B_h	ESC	переход	←
028	1C_h	FS	разделитель файла
029	1D_h	GS	разделитель группы	↔
030	1E_h	RS	разделитель записи
031	1F_h	US	разделитель блока
127	7F_h	DEL	стирание

САЙТ
учителя информатики, музыки, труда и др.

ПЛОТНИКОВА СЕРГЕЯ НИКОЛАЕВИЧА

Теория

Тема 2. Представление информации (2 часа)

САЙТ учителя информатики, музыки, труда и др. ПЛОТНИКОВА СЕРГЕЯ НИКОЛАЕВИЧА

Теория

Тема 2. Представление информации (2 часа)

САЙТ
учителя информатики, музыки, труда и др.

ПЛОТНИКОВА СЕРГЕЯ НИКОЛАЕВИЧА