САЙТ
учителя информатики

ПЛОТНИКОВА СЕРГЕЯ НИКОЛАЕВИЧА

Участник Общероссийского рейтинга школьных сайтов

Теория

Тема 2. Представление информации (2 часа)

Дидактические единицы: Язык. Классификация языков. Функции естественных языков. Недостатки естественных языков. Объектные языки и метаязыки. Кодирование информации. Виды знаков. Буквы, алфавиты. Кодирование и декодирование. Представление в компьютере текстовой информации.

Вопросы к изучению:
1.
Язык как способ представления информации. Классификация языков.
2. Кодирование информации. Виды знаков. Алфавиты, буквы.
3. Представление в компьютере текстовой информации.
4. Внутреннее представление символа в компьютере. Дополнительные сведения

1. Язык как способ представления информации. Классификация языков.

Существует множество определений языка. Язык определяется как

  • "важнейшее средство человеческого общения"
  • "вся система знаков"
  • "только человеческая речь"

Под "языком" будем при дальнейшем изложении понимать материальную (звуковую по преимуществу) оболочку мысли.

Слово, являющееся единицей естественного языка, выступает в виде движущихся материальных слоёв воздуха, в виде звуков. Слово - материальное образование, языковой знак.

С точки зрения происхождения языки делятся на естественные (далее - ЕЯ) и искусственные (далее - ИЯ). У ЕЯ нет автора, автор - народ в целом. ИЯ всегда созданы кем-то, автор ИЯ чаще всего известен.

Языки
Естественные языки
Искусственные языки (языки науки)

Естественные языки (ЕЯ) суть особые знаковые системы, с них началось формирование человеческого сознания. Все другие знаковые системы являются производными от ЕЯ. ЕЯ являются универсальными знаковыми системами.
По-латыни universum - Вселенная, поэтому, во-первых, ЕЯ, способен отобразить в себе весь известный человеку мир, а во-вторых, способен описать (опознать) вещи ещё неизвестные [в этом выражается прогностическая сторона ЕЯ].

Содержательные ИЯ (СИЯ)

представляют собой фрагмент естественного языка (тексты в учебниках литературы, русского языка, географии, истории) с уточнённым значением употребляемых слов.

Формализованные ИЯ (ФИЯ)

построены по определённым правилам, используют формулы и специальные символы (язык физики, математики, химии etс.)

Функции естественного языка
Коммуникативная
Познавательная (когнитивная)
Выразительная (экспрессивная)

Communis (лат.) общий. Это функция общения с помощью языка, совместного узнавания, знания (СО-знания)

До 3-4 лет ребёнок овладевает устной речью, которая открывает ему доступ к богатствам, накопленным национальной культурой.
Овладев письменностью, ребёнок получает доступ к богатствам, накопленным всей человеческой цивилизацией.

Называется ещё модальной. Это самая древняя функция языка. С её помощью говорящий выражает своё отношение к внеязыковой действительности.


Недостатки естественных языков
Многозначность
Экспрессивность
Многословность
Эмотивность

В ЕЯ многозначность слов обычно не доставляет неудобств, так как значение употребляемого слова определяется участниками общения контекстуально.
В ИЯ (особенно в ФИЯ) слово используется только в одном, определённом значении. В таких случаях слова становятся терминами.
Попробуйте нарисовать картинку к предложению: "Девушка с косой стояла на косе, держа в руках косу".
В зависимости от того, в каком значении Вы употребили слово "коса" на 1-м, 2-м, 3-м местах, у Вас могут получиться разные картинки (представления о сказанном).

Модальная функция языка, обычно характерная для устной повседневной речи, вносит субъективный элемент в процесс обмена информацией, чаще всего препятствует нахождению истины. В СИЯ, а особенно в ФИЯ, элементы субъективного отношения к внеязыковой действительности практически отсутствуют. В научных дискуссиях или в официальных выступлениях должностных лиц отрицательное отношение к противоположной точке зрения выражается лишь с помощью эвфемизмов.

Лектор, выступающий перед неподготовленной аудиторией, вынужден тратить время на определение основных понятий, используемых им для раскрытия темы выступления. В ФИЯ термины чаще уже определены, поэтому тексты научной тематики короче устных пояснений лектора.
Прочтите следующий диалог:
Жена (мужу): "Водку, сок, мясо - возьми и пожарь на сковороде".
Муж (удивлённо): "А водку-то зачем жарить?"
Жена: "Ты оглох, что ли? Вот кусок мяса - возьми и пожарь на сковороде".
Из-за чего возникло непонимание между супругами?

Язык используется чаще всего как средство общения. Общение обычно предназначено для СО-знания общающихся, для построения программ поведения людей, продуктивных или контрпродуктивных. Но бывает общение и без обмена смыслами (разговор людей, вкладывающих разные смыслы в используемые слова (логомахии), ритуалы, прикосновения, поглаживания и т.п.). Такое общение выражает чувство общности, сопричастности к ней, симпатии или антипатии, участия (соучастия).


В лингвистике различают также
Метаязык
Объектный язык

μετα (греч.)- вне, за пределами - язык, известный носителю, чаще национальный ЕЯ, на основе которого изучается новый язык, ещё неизвестный.

Язык, изучаемый на основе метаязыка. Для француза, приехавшего пожить в Китай, объектным языком будет китайский, метаязыком - французский.


2. Кодирование информации. Виды знаков. Алфавиты, буквы.

Информация передаётся в виде сообщений с помощью некоторых знаков.

Род "знаки" делится на виды:
знаки-копии(иконические)
знаки-сигналы
языковые знаки
знаки-символы

Наглядные или звуковые изображения обозначаемых предметов (фотография человека, скульптура, карта местности, чертёж); сходство с объектом у этого вида знаков является обязательным.

Носят конвенциальный характер (соглашения между людьми); возникли спонтанно или намеренно, но обязательно согласованы и общеприняты (дорожные, денежные, знаки приветствия, форменная одежда, флажковая сигнализация, азбука Морзе и т.п. ).

Все слова и выражения нашего языка суть знаки. Каждый народ пользуется своим национальным языком. Большинство языковых знаков непохожи на замещаемый знаком (словом) предмет.

Знаки "в чистом виде": символики, коды искусственных языков (формулы в математике, структурные формулы в химии, язык формальной логики, физики, геральдики).


Информация подразделяют на два вида: аналоговую (непрерывную, континуальную) и дискретную (прерывную, прерывистую). Примером аналоговой информации может служить запись звука на магнитофонную ленту или колебаний температуры на ленту или диск самописца. Примером дискретной записи служит этот самый текст, который Вы сейчас читаете. Вычислительные машины (компьютеры) тоже обрабатывают и аналоговую, и дискретную информацию. Компьютеры, обрабатывающие непрерывный сигнал, называются аналоговыми вычислительными машинами (АВМ). Персональные компьютеры (электронные, цифровые вычислительные машины, ЭВМ), с которыми мы уже привыкли работать, обрабатывают дискретную информацию. Дискретная информация записывается с помощью некоторого конечного набора знаков, которые будем называть буквами.

Буква (в её расширенном понимании) - любой из знаков, которые некоторым соглашением установлены для общения. Вообще буквой будем называть элемент некоторого конечного множества (набора) отличных друг от друга знаков.

Множество знаков, на котором определён их порядок, назовём АЛФАВИТОМ. Вот названия некоторых алфавитов: латиница, кириллица, армянский, грузинский, алфавит арабских цифр, латинских цифр, византийских цифр, блок-схем изображения алгоритмов). Отдельную группу составляют двузначные (двоичные) алфавиты: [0 1]; [× —]; [• —].

Кодировки слова ''компьютер'' в разных алфавитах

В канале связи сообщение, составленное из букв (символов) одного алфавита, может преобразовываться в сообщение из букв (символов) другого алфавита.

Правило, описывающее однозначное соответствие букв алфавита при таком преобразовании, называется кодом. Саму процедуру преобразования сообщения называют перекодировкой.

Сообщения должно быть преобразовано в момент его поступления от источника в канал связи (кодирование), и в момент приёма сообщения получателем (декодирование). Люди или технические устройства, обеспечивающие кодирование (шифрование) и декодирование (дешифровку), называются соответ-ственно кодировщиком и декодировщиком (шифратором и дешифратором).

Люди шифруют свои сообщения для того, чтобы не допустить к важным знаниям профанов, для защиты от сведений, составляющих важную государственную тайну и пр. Так возникают всяческие тайнописи, арго субкультур, профессиональные жаргоны, которые отражают какую-то сферу реальной действительности и обслуживают потребность данной социальной группы в быстрой и адекватной передаче актуальной информации. Например, каменщики различают в кирпиче "тычок", "бочок" и "ложок" (грани кирпичного параллелепипеда). Полинезийцы называют коралловые рифы в зависимости от того, выступают или не выступают они над поверхностью океана, позволяют или не позволяют провести каноэ в данном месте. Вперёдсмотрящий матрос, произнеся всего одно слово, даёт возможность рулевому быстро принять решение, как и куда вести судно. Чем короче сигнал опасности, тем больше шансов выжить у владельцев-пользователей кода.

Создавая объектные языки субкультур, люди используют словарный состав метаязыка (чаще всего национального, иногда национального и иностранного), часто употребляя слова родного языка в неожиданном или непривычном для окружающих значении.

3. Представление в компьютере текстовой информации.

Когда возникла нужда давать техническим устройствам команды, люди вынуждены были преобразовать буквы национального алфавита в последовательности простых сигналов и стали использовать для этого двоичные алфавиты (см. выше). Так как техническое устройство в целом или отдельные его части можно либо включить, либо выключить, люди стали кодировать такие состояния двумя буквами. Телеграфисты применяли для передачи сообщений точку и тире, физики и электрики обозначали положительный и отрицательный заряды как + и -. Математики, исследуя недесятичные позиционные системы счисления, использовали для двоичного счёта 0 и 1. Для этого сначала приходилось составлять кодировочные таблицы.

Много ли символов можно зашифровать, используя две буквы? Можно попробовать составлять из двух букв слова разной длины и смотреть результат.

Двоичное слово Кодируемый символ

Получается, что если в кодовом слове будет всего одна двоичная буква, то таким словом можно закодировать две буквы какого-нибудь алфавита (для примера взята латиница). Теперь попробуем записать все возможные двухбуквенные двоичные слова (см. таблицу ниже).

Двоичное слово Кодируемый символ

С помощью двухбуквенных двоичных слов оказалось возможным закодировать четыре символа алфавита. Увеличим длину двоичного слова до трёх букв.

Двоичное слово Кодируемый символ

С помощью трёхбуквенных двоичных слов можно закодировать 8 символов некоторого алфавита. Это увлекательное исследование можно продолжать, но и сейчас уже можно сделать некоторые выводы.

21=2, 22=4, 23=8 и т.д. Когда кодовое слово n прирастает на одну букву (арифметическая прогрессия), число кодируемых символов M растёт в геометрической прогрессии (степени двойки). Это можно выразить формулой 2n=M, где n=1, 2, 3, 4 ...

В универсальном преобразователе информации (компьютере) должны находиться все символы, необходимые человеку в быту и профессиональной деятельности. Оказалось, чтобы отразить это необходимое многообразие на экране монитора и выводимых текстах документов, достаточно закодировать с помощью двоичных кодов 256 различных символов, использовав для этого 8 двоичных разрядов (28=256).

В микроЭВМ (персональных компьютерах) чаще всего используется кодовая таблица ASCII (American Standart Code for Information Interchange), созданная в 1963 году. К достоинствам такой кодировки букв латиницы и кириллицы относится их естественное упорядочение, что важно при решении задач обработки текстов.

Поскольку производить персональные компьютеры для продажи частным лицам первыми стали американцы, в основу кодовой таблицы символов для знакогенератора видеоконтроллера компьютера IMB PC положили действовавшую тогда кодовую таблицу американских телеграфистов. В ней для кодирования 128 символов использовалось 7 двоичных разрядов (бит). Символы с кодами с 0-го по 127-й стали общей частью ASCII-таблицы для всех персональных компьютеров, выпускаемых в дальнейшем. В ASCII символы с 0-го по 31-й связаны с управляющими клавишами клавиатуры, символы с 32-го по 127-й - c алфавитно-цифровыми.

Общая часть кодовой таблицы ASCII Общая часть кодовой таблицы ASCII

Благодаря общей части ASCII-таблицы, фактически ставшей стандартом кодировки текстовых символов в ЭВМ, персональные компьютеры на всей планете могут "понимать" друг друга. У любого из них коды текстовых символов с 0-го по 127-й совпадают. При передаче сообщений с компьютера на компьютер из страны в страну один символ национальной части кодовой таблицы кодируется двумя символами общей части кодовой таблицы. Именно поэтому SMS, написанные кириллицей, которые посылает абонент мобильной телефонной сети, приблизительно в два раза короче SMS, написанных латиницей.

У романо-германских стран в их национальных алфавитах, принятых на основе латиницы, более 26-и символов. Когда персональные компьютеры IBM PC стали экспортировать за пределы США, программистам IBM пришлось увеличивать на один бит кодировочную таблицу, и в ней стало возможным закодировать 256 символов. Следовавшая за общей частью кодовой таблицы символов её расширенная часть, предложенная IBM, включила в себя буквы алфавитов европейских народов, специфические знаки препинания испанского, математические символы, дроби, степени, греческие буквы, символы "псевдографики", употреблявшиеся для рисования таблиц и т.п. Кодировка стала однобайтной (восьмибитной). Это значит, что двоичное слово, кодировавшее один символ, состояло из восьми букв двоичного алфавита.

Однобайтная OEM-кодировка, предложенная IBM

Первой фирмой, выпустившей русифицированную операционную систему, была Apple. Русифицированные персональные компьютеры "Макинтош", появившиеся в конце 80-х, имели свою собственную, ни с чем не совместимую кодировку кириллицы для Mac OS (см. таблицу ниже). Её можно встретить в мировой паутине (WWW).

Однобайтная русифицированная кодировка от Apple для компьютеров Macintosh

Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 ("Код обмена информацией, 8-битный"). Эта кодировка применялась ещё в советские времена на компьютерах серии ЕС ЭВМ, и когда в середине 80-х появились первые русифицированные версии операционной системы UNIX, они переняли эту кодировку у своих "старших братьев". Сеть Релком, с которой начинался российский Интернет в начале 90-х и которая поначалу состояла в основном из компьютеров с UNIX, также приняла кодировку КОИ8 в качестве стандартной. Сейчас КОИ8-Р является единственно допустимой кодировкой в русскоязычной электронной почте и телеконференциях. КОИ8-Р - одна из кодировок, которые обязательно должна поддерживать любая русская страница в WWW (см. таблицу ниже).

Алфавитно-цифровая часть кодировки KOI8-R

Кодировочные таблицы IBM-совместимых компьютеров, попавших в СССР, советские программисты заполняли символами кириллицы в разных местах расширенной части. Достаточно сказать, что существовали "основная кодировка ГОСТ" и "альтернативная кодировка ГОСТ". Властные органы рекомендовали пользоваться основной кодировкой, но подавляющее большинство пользователей очень скоро перешли на более практичную и удобную "модифицированную альтернативную кодировку ГОСТ". В ней некоторые математические символы и символы псевдографики совпадали с IBM-кодировкой, а русские буквы встали на те позиции, где у IBM-таблицы стоят греческие, французские, немецкие и т.п. Это давало возможность прямого использования англоязычных программ. Кодовая страница (code page), созданная IBM для России (её номер 866), позволяла работать на IBM-совместимом компьютере под управлением операционной системы MS-DOS. Эта кодировка русских символов CP866 для IBM-совместимых компьютеров, работавших под управлением ОС MS DOS, называется иногда OEM-кодировкой (см. таблицу ниже).

Алфавитно-цифровая часть кодировки CP 866 для IBM PC, работавших под управлением ОС MS DOS

После написания графической оболочки Windows символы "псевдографики" стали излишними - в Windows-приложениях линии или диаграммы можно нарисовать непосредственно. К тому же в OEM-кодировке, предложенной IBM для MS DOS, не хватало многих символов европейских языков. Поэтому корпорация Microsoft разработала для Windows новую кодовую таблицу, называемую однобайтной ANSI-кодировкой. Алфавитно-цифровая часть кодовой страницы от Microsoft для России (code page 1251) представлена ниже.

Алфавитно-цифровая часть кодировки CP 1251 для IBM PC, работающих под управлением ОС семейства Windows

Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка ещё одну кодировку под названием ISO 8859-5. Эта кодировка была принята лишь в очень ограниченном количестве программных и аппаратных продуктов (в основном тех, которые русифицировались на Западе людьми, незнакомыми с реальным положением дел в компьютерной кириллице). Поэтому ISO 8859-5 в компьютерном мире встречается крайне редко (см. таблицу ниже).

Алфавитно-цифровая часть кодовой таблицы ISO 8859-5

Выше описывались однобайтные кодировки. Считается, что на сегодняшний день существуют пять однобайтных кодировок русского кириллического восточнославянского алфавита (Mac, КОИ8-Р, OEM (cp866), ANSI (cp1251), ISO 8859-5).

В настоящее время всё большее распространение приобретает двубайтная кодировка Unicode, в ней коды символов могут принимать значения от 0 до 65535, что позволяет закодировать 65536 символов. Полная спецификация стандарта Unicode представляет собой довольно толстую книгу и включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов. Есть надежда, что для русского языка Unicode со временем сможет "вытеснить" все остальные кодировки. Чтобы составить представление о возможностях Unicode, достаточно в текстовом процессоре Word заняться вставкой символов шрифтами Winding, Webding или выбрать в списке шрифты с названиями, включающими в себя слово "Unicode".


4. Внутреннее представление символа в компьютере. Дополнительные сведения

Чтобы Вы могли представить себе, как коды букв существуют внутри компьютера, рассмотрите рисунок ниже. На нём отображён один из способов передачи данных внутри компьютера цепочкой импульсов. Так "представляется" компьютеру русская буква "Т" (код 21010 = 110100102) - приблизительно так же, как и всякая иная буква или цифра кодировочной таблицы.

Цепочка из 10 импульсов, кодирующая русскую букву ''Т'' внутри компьютера

Рассмотрите общую часть кодовой таблицы символов ASCII на рисунке ниже. Верхняя строка, выделенная тёмным цветом, показывает нам служебные (командные) символы, связанные с управляющими клавишами клавиатуры компьютера.

Общая часть кодовой таблицы символов ASCII

Десятичный
код
Шестнадцате-
ричный код
Управляющая
клавиша
Действие
клавиши
Отображение
000 00h NUL пустой символ
001 01h SOH начало заголовка
002 02h STX начало текста
003 03h ETX конец текста
004 04h EOT конец передачи
005 05h ENQ запрос
006 06h ACK подтверждение
007 07h BEL звонок
008 08h BS возврат на одну позицию
009 09h HT горизонтальная табуляция
010 0Ah LF перевод строки
011 0Bh VT вертикальная табуляция
012 0Ch FF подача бланка (новый лист)
013 0Dh CR возврат каретки
014 0Eh SO переход на верхний регистр
015 0Fh SI переход на нижний регистр
016 10h DLE переключение кода
017 11h DC1 управление 1-ым устройством
018 12h DC2 управление 2-м устройством
019 13h DC3 управление 3-м устройством !!
020 14h DC4 управление 4-м устройством
021 15h NAK переспрос §
022 16h SYN режим синхронного ожидания
023 17h ETB конец передачи блока
024 18h CAN отмена
025 19h EM конец носителя
026 1Ah SUB замена
027 1Bh ESC переход
028 1Ch FS разделитель файла
029 1Dh GS разделитель группы
030 1Eh RS разделитель записи
031 1Fh US разделитель блока
127 7Fh DEL стирание

© Σταυρος Τεκτονος

Партнёры



©StavrosTektonos