Материал этой главы относится к интерфейсу между
С-программами и операционной системой UNIX. Так как
большинство пользователей языка "C" работают на системе UNIX, эта
глава окажется полезной для большинства читателей. даже если
Вы используете с-компилятор на другой машине, изучение
приводимых здесь примеров должно помочь вам глубже проникнуть в
методы программирования на языке "C".
    В операционной системе UNIX весь ввод и вывод
осуществляется посредством чтения файлов или их записи, потому что
все периферийные устройства, включая даже терминал
пользователя, являются файлами определенной файловой системы. Это
означает, что один однородный интерфейс управляет всеми
связями между программой и периферийными устройствами.
В наиболее общем случае перед чтением из файла или
записью в файл необходимо сообщить системе о вашем намерении;
этот процесс называется "открытием" файла. Система
выясняет,имеете ли Вы право поступать таким образом (существует ли
этот файл? имеется ли у Вас разрешение на обращение к
нему?), и если все в порядке, возвращает в программу небольшое
положительное целое число, называемое дескриптором файла.
всякий раз, когда этот файл используется для ввода или
вывода, для идентификации файла употребляется дескриптор файла,
а не его имя. (Здесь существует примерная аналогия с
использованием read (5,...) и write (6,...) в фортране). Вся
информация об открытом файле содержится в системе; программа
пользователя обращается к файлу только через дескриптор
файла.
    В этом случае интерпретатор команд shell изменит
присваивание по умолчанию дескрипторов файлов 0 и 1 с терминала
на указанные файлы. Нормально дескриптор файла 2 остается
связанным с терминалом, так что сообщения об ошибках могут
поступать туда. Подобные замечания справедливы и тогда,
когда ввод и вывод связан с каналом. Следует отметить, что во
всех случаях прикрепления файлов изменяются интерпретатором
shell, а не программой. Сама программа, пока она использует
файл 0 для ввода и файлы 1 и 2 для вывода, не знает ни
откуда приходит ее ввод, ни куда поступает ее выдача.
    Самый низкий уровень ввода/вывода в системе UNIX не
предусматривает ни какой-либо буферизации, ни какого-либо
другого сервиса; он по существу является непосредственным
входом в операционную систему. Весь ввод и вывод
осуществляется двумя функциями: read и write. Первым аргументом обеих
функций является дескриптор файла. Вторым аргументом
является буфер в вашей программе, откуда или куда должны поступать
данные. Третий аргумент - это число подлежащих пересылке
байтов. Обращения к этим функциям имеют вид:
    При каждом обращении возвращается счетчик байтов,
указывающий фактическое число переданных байтов. При чтении
возвращенное число байтов может оказаться меньше, чем
запрошенное число. Возвращенное нулевое число байтов означает
конец файла, а "-1" указывает на наличие какой-либо ошибки.
При записи возвращенное значение равно числу фактически
записанных байтов; несовпадение этого числа с числом байтов,
которое предполагалось записать, обычно свидетельствует об
ошибке.
    Если размер файла не будет кратен bufsize, то при
некотором обращении к read будет возвращено меньшее число
байтов, которые затем записываются с помощью write; при
следующем после этого обращении к read будет возвращен нуль.
Поучительно разобраться, как можно использовать функции
read и write для построения процедур более высокого уровня,
таких как getchar, putchar и т.д. Вот, например, вариант
функции getchar, осуществляющий ввод без использования
буфера.
    Переменная "C" должна быть описана как char, потому что
функция read принимает указатель на символы. Возвращаемый
символ должен быть маскирован числом 0377 для гарантии его
положительности; в противном случае знаковый разряд может
сделать его значение отрицательным. (Константа 0377 подходит
для ЭВМ PDP-11, но не обязательно для других машин).
Второй вариант функции getchar осуществляет ввод
большими порциями, а выдает символы по одному за обращение.
    Кроме случая, когда по умолчанию определены стандартные
файлы ввода, вывода и ошибок, Вы должны явно открывать
файлы, чтобы затем читать из них или писать в них. Для этой
цели существуют две точки входа: open и creat.
    Как и в случае fopen, аргумент name является символьной
строкой, соответствующей внешнему имени файла. Однако
аргумент, определяющий режим доступа, отличен: rwmode равно: 0
для чтения, 1 - для записи, 2 - для чтения и записи. Если
происходит какая-то ошибка, функция open возвращает "-1"; в
противном случае она возвращает действительный дескриптор
файла.
возвращает дескриптор файла, если оказалось возможным
создать файл с именем name, и "-1" в противном случае. Если
файл с таким именем уже существует, creat усечет его до
нулевой длины; создание файла, который уже существует, не
является ошибкой.
Существует ограничение (обычно 15 - 25) на количество
файлов, которые программа может иметь открытыми
одновременно. В соответствии с этим любая программа, собирающаяся
работать со многими файлами, должна быть подготовлена к
повторному использованию дескрипторов файлов. Процедура close
прерывает связь между дескриптором файла и открытым файлом и
освобождает дескриптор файла для использования с некоторым
другим файлом. Завершение выполнения программы через exit
или в результате возврата из ведущей программы приводит к
закрытию всех открытых файлов.     Упражнение 8-1.
    Нормально при работе с файлами ввод и вывод
осуществляется последовательно: при каждом обращении к функциям read и
write чтение или запись начинаются с позиции,
непосредственно следующей за предыдущей обработанной. Но при
необходимости файл может читаться или записываться в любом произвольном
порядке. Обращение к системе с помощью функции lseek
позволяет передвигаться по файлу, не производя фактического
чтения или записи. В результате обращения
текущая позиция в файле с дескриптором fd передвигается на
позицию offset (смещение), которая отсчитывается от места,
указываемого аргументом origin (начало отсчета). Последующее
чтение или запись будут теперь начинаться с этой позиции.
Аргумент offset имеет тип long; fd и origin имеют тип int.
Аргумент origin может принимать значения 0,1 или 2, указывая
на то, что величина offset должна отсчитываться
соответственно от начала файла, от текущей позиции или от конца
файла. Например, чтобы дополнить файл, следует перед записью
найти его конец:
чтобы вернуться к началу ("перемотать обратно"), можно
написать:
    Обратите внимание на аргумент 0l; его можно было бы
записать и в виде (long) 0.
    В более ранних редакциях, чем редакция 7 системы UNIX,
основная точка входа в систему ввода-вывода называется seek.
Функция seek идентична функции lseek, за исключением того,
что аргумент offset имеет тип int, а не long. в соответствии
с этим, поскольку на PDP-11 целые имеют только 16 битов,
аргумент offset, указываемый функции seek, ограничен величиной
65535; по этой причине аргумент origin может иметь значения
3, 4, 5, которые заставляют функцию seek умножить заданное
значение offset на 512 (количество байтов в одном физическом
блоке) и затем интерпретировать origin, как если это 0, 1
или 2 соответственно. Следовательно, чтобы достичь
произвольного места в большом файле, нужно два обращения к seek:
сначала одно, которое выделяет нужный блок, а затем второе,
где origin имеет значение 1 и которое осуществляет
передвижение на желаемый байт внутри блока.
    Упражнение 8-2.
    Давайте теперь на примере реализации функций fopen и
getc из стандартной библиотеки подпрограмм продемонстрируем,
как некоторые из описанных элементов об'единяются вместе.
Напомним, что в стандартной библиотеке файлы описыватся
посредством указателей файлов, а не дескрипторов. Указатель
файла является указателем на структуру, которая содержит
несколько элементов информации о файле: указатель буфера,
чтобы файл мог читаться большими порциями; счетчик числа
символов, оставшихся в буфере; указатель следующей позиции
символа в буфере; некоторые признаки, указывающие режим
чтения или записи и т.д.; дескриптор файла.
    В нормальном состоянии макрос getc просто уменьшает
счетчик, передвигает указатель и возвращает символ. (Если
определение #define слишком длинное, то оно продолжается с
помощью обратной косой черты). Если однако счетчик
становится отрицательным, то getc вызывает функцию _filebuf, которая
снова заполняет буфер, реинициализирует содержимое структуры
и возвращает символ. Функция может предоставлять переносимый
интерфейс и в то же время содержать непереносимые
конструкции: getc маскирует символ числом 0377, которое подавляет
знаковое расширение, осуществляемое на PDP-11, и тем самым
гарантирует положительность всех символов.
    Функция _filebuf несколько более сложная. Основная
трудность заключается в том, что _filebuf стремится
разрешить доступ к файлу и в том случае, когда может не оказаться
достаточно места в памяти для буферизации ввода или вывода.
если пространство для нового буфера может быть получено
обращением к функции calloc, то все отлично; если же нет, то
_filebuf осуществляет небуферизованный ввод/ вывод,
используя отдельный символ, помещенный в локальном массиве.
    При первом обращении к getc для конкретного файла
счетчик оказывается равным нулю, что приводит к обращению к
_filebuf. Если функция _filebuf найдет, что этот файл не
открыт для чтения, она немедленно возвращает EOF. В противном
случае она пытается выделить большой буфер, а если ей это не
удается, то буфер из одного символа. При этом она заносит в
_flag соответствующую информацию о буферизации.
    Из инициализации части _flag этого массива структур
видно, что файл stdin предназначен для чтения, файл stdout
для записи и файл stderr - для записи без использования
буфера.
    Упражнение 8-3.     Упражнение 8-4.
Эта глава делится на три основные части: ввод/вывод,
система файлов и распределение памяти. Первые две части
предполагают небольшое знакомство с внешними
характеристиками системы UNIX.
В главе 7 мы имели дело с системным интерфейсом,
который одинаков для всего многообразия операционных систем. На
каждой конкретной системе функции стандартной библиотеки
должны быть написаны в терминах ввода-вывода, доступных на
данной машине. В следующих нескольких разделах мы опишем
основную систему связанных с вводом и выводом точек входа
операционной системы UNIX и проиллюстрируем, как с их помощью
могут быть реализованы различные части стандартной
библиотеки.
8.1. Дескрипторы файлов
Для удобства выполнения обычных операций ввода и вывода
с помощью терминала пользователя существуют специальные
соглашения. Когда интерпретатор команд ("shell") прогоняет
программу, он открывает три файла, называемые стандартным
вводом, стандартным выводом и стандартным выводом ошибок,
которые имеют соответственно числа 0, 1 и 2 в качестве
дескрипторов этих файлов. В нормальном состоянии все они связаны
с терминалом, так что если программа читает с дескриптором
файла 0 и пишет с дескрипторами файлов 1 и 2, то она может
осуществлять ввод и вывод с помощью терминала, не заботясь
об открытии соответствующих файлов.
Пользователь программы может перенаправлять ввод и
вывод на файлы, используя операции командного интерпретатора
shell "<" и ">" :
prog <infile>outfile
8.2. Низкоуровневый ввод/вывод - операторы read и write.
n_read=read(fd,buf,n);
n_written=write(fd,buf,n);
Количество байтов, подлежащих чтению или записи, может
быть совершенно произвольным. Двумя самыми распространенными
величинами являются "1", которая означает передачу одного
символа за обращение (т.е. без использования буфера), и
"512", которая соответствует физическому размеру блока на
многих периферийных устройствах. Этот последний размер будет
наиболее эффективным, но даже ввод или вывод по одному
символу за обращение не будет необыкновенно дорогим.
Об'единив все эти факты, мы написали простую программу
для копирования ввода на вывод, эквивалентную программе
копировки файлов, написанной в главе 1. На системе UNIX эта
программа будет копировать что угодно куда угодно, потому
что ввод и вывод могут быть перенаправлены на любой файл или
устройство.
#define BUFSIZE 512 /*best size for PDP-11 UNIX*/
main() /*copy input to output*/
{
char buf[bufsize];
int n;
while((n=read(0,buf,bufsize))>0)
write(1,buf,n);
}
#define CMASK 0377 /*for making char's > 0*/
getchar() /*unbuffered single character input*/
{
char c;
return((read(0,&c,1)>0 7 & cmask : EOF);
}
#define CMASK 0377 /*for making char's>0*/
#define BUFSIZE 512
getchar() /*buffered version*/
{
static char buf[bufsize];
static char *bufp = buf;
static int n = 0;
if (n==0) { /*buffer is empty*/
n=read(0,buf,bufsize);
bufp = buf;
}
return((--n>=0) ? *bufp++ & cmask : EOF);
}
8.3. Открытие, создание, закрытие и расцепление (unlink).
Функция open весьма сходна с функцией fopen,
рассмотренной в главе 7, за исключением того, что вместо
возвращения указателя файла она возвращает дескриптор файла, который
является просто целым типа int.
int fd;
fd=open(name,rwmode);
Попытка открыть файл, который не существует, является
ошибкой. Точка входа creat предоставляет возможность
создания новых файлов или перезаписи старых. В результате
обращения
fd=creat(name,pmode);
Если файл является совершенно новым, то creat создает
его с определенным режимом защиты, специфицируемым
аргументом pmode. В системе файлов на UNIX с файлом связываются
девять битов защиты информации, которые управляют разрешением
на чтение, запись и выполнение для владельца файла, для
группы владельцев и для всех остальных пользователей. Таким
образом, трехзначное восьмеричное число наиболее удобно для
спецификации разрешений. Например, число 0755
свидетельствует о разрешении на чтение, запись и выполнение для владельца
и о разрешении на чтение и выполнение для группы и всех
остальных.
Для иллюстрации ниже приводится программа копирования
одного файла в другой, являющаяся упрощенным вариантом
утилиты cp системы UNIX. (Основное упрощение заключается в том,
что наш вариант копирует только один файл и что второй
аргумент не должен быть справочником).
#define NULL 0
#define BUFSIZE 512
#define PMODE 0644/*rw for owner,r for group,others*/
main(argc,argv) /*cp: copy f1 to f2*/
int argc;
char *argv[];
{
int f1, f2, n;
char buf[bufsize];
if (argc ! = 3)
error("usage:cp from to", NULL);
if ((f1=open(argv[1],0))== -1)
error("cp:can't open %s", argv[1]);
if ((f2=creat(argv[2],pmode))== -1)
error("cp: can't create %s", argv[2]);
while ((n=read(f1,buf,bufsize))>0)
if (write(f2,buf,n) !=n)
error("cp: write error", NULL);
exit(0);
}
error(s1,s2) /*print error message and die*/
char *s1, s2;
{
printf(s1,s2);
printf("\n");
exit(1);
}
Функция расцепления unlink (filename) удаляет из
системы файлов файл с именем filename ( из данного справочного
файла. Файл может быть сцеплен с другим справочником,
возможно, под другим именем - примеч.переводчика).
Перепишите программу cat из главы 7, используя функции read,
write, open и close вместо их эквивалентов из стандартной
библиотеки. Проведите эксперименты для определения
относительной скорости работы этих двух вариантов.
8.4. Произвольный доступ - seek и lseek.
lseek(fd,offset,origin);
lseek(fd,0l,2);
lseek(fd,0l,0);
Функция lseek позволяет обращаться с файлами примерно
так же, как с большими массивами, правда ценой более
медленного доступа. следующая простая функция, например, считывает
любое количество байтов, начиная с произвольного места в
файле.
get(fd,pos,buf,n) /*read n bytes from position pos*/
int fd, n;
long pos;
char *buf;
{
lseek(fd,pos,0); /*get to pos*/
return(read(fd,buf,n));
}
Очевидно, что seek может быть написана в терминалах lseek и
наоборот. напишите каждую функцию через другую.
8.5. Пример - реализация функций fopen и getc.
Описывающая файл структура данных содержится в файле
stdio.h, который должен включаться (посредством #include) в
любой исходный файл, в котором используются функции из
стандартной библиотеки. Он также включается функциями этой
библиотеки. В приводимой ниже выдержке из файла stdio.h имена,
предназначаемые только для использования функциями
библиотеки, начинаются с подчеркивания, с тем чтобы уменьшить
вероятность совпадения с именами в программе пользователя.
define _bufsize 512
define _nfile 20 /*files that can be handled*/
typedef struct _iobuf {
char *_ptr; /*next character position*/
int _cnt; /*number of characters left*/
char *_base; /*location of buffer*/
int _flag; /*mode of file access*/
int _fd; /*file descriptor*/
} file;
extern file _iob[_nfile];
define stdin (&_iob[0])
define stdout (&_iob[1])
define stderr (&_iob[2])
define _read 01 /* file open for reading */
define _write 02 /* file open for writing */
define _unbuf 04 /* file is unbuffered */
define _bigbuf 010 /* big buffer allocated */
define _EOF 020 /* EOF has occurred on this file */
define _err 040 /* error has occurred on this file */
define NULL 0
define EOF (-1)
define getc(p) (--(p)->_cnt >= 0 \
? *(p)->_ptr++ & 0377 : _filebuf(p))
define getchar() getc(stdin)
define putc(x,p) (--(p)->_cnt >= 0 \
? *(p)->_ptr++ = (x) : _flushbuf((x),p))
define putchar(x) putc(x,stdout)
Хотя мы не собираемся обсуждать какие-либо детали, мы
все же включили сюда определение макроса putc, для того
чтобы показать, что она работает в основном точно также, как и
getc, обращаясь при заполнении буфера к функции _flushbuf.
Теперь может быть написана функция fopen. Большая часть
программы функции fopen связана с открыванием файла и
расположением его в нужном месте, а также с установлением битов
признаков таким образом, чтобы они указывали нужное
состояние. Функция fopen не выделяет какой-либо буферной памяти;
это делается функцией _filebuf при первом чтении из файла.
#include <stdio.h>
#define PMODE 0644 /*r/w for owner;r for others*/
file *fopen(name,mode) /*open file,return file ptr*/
register char *name, *mode;
{
register int fd;
register file *fp;
if(*mode !='r'&&*mode !='w'&&*mode !='a') {
fprintf(stderr,"illegal mode %s opening %s\n",
mode,name);
exit(1);
}
for (fp=_iob;fp<_iob+_nfile;fp++)
if((fp->_flag & (_read | _write))==0)
break; /*found free slot*/
if(fp>=_iob+_nfile) /*no free slots*/
return(NULL);
if(*mode=='w') /*access file*/
fd=creat(name,pmode);
else if(*mode=='a') {
if((fd=open(name,1))==-1)
fd=creat(name,pmode);
lseek(fd,ol,2);
} else
fd=open(name,0);
if(fd==-1) /*couldn't access name*/
return(NULL);
fp->_fd=fd;
fp->_cnt=0;
fp->_base=NULL;
fp->_flag &=(_read | _write);
fp->_flag |=(*mode=='r') ? _read : _write;
return(fp);
}
#include <stdio.h>
_fillbuf(fp) /*allocate and fill input buffer*/
register file *fp;
{
static char smallbuf(nfile);/*for unbuffered 1/0*/
char *calloc();
if((fr->_flag&_read)==0||(fp->_flag&(EOF|_err))|=0
return(EOF);
while(fp->_base==NULL) /*find buffer space*/
if(fp->_flag & _unbuf) /*unbuffered*/
fp->_base=&smallbuf[fp->_fd];
else if((fp->_base=calloc(_bufsize,1))==NULL)
fp->_flag |=_unbuf; /*can't get big buf*/
else
fp->_flag |=_bigbuf; /*got big one*/
fp->_ptr=fp->_base;
fp->_cnt=read(fp->_fd, fp->_ptr,
fp->_flag & _unbuf ? 1 : _bufsize);
if(--fp->_cnt<0) {
if(fp->_cnt== -1)
fp->_flag | = _EOF;
else
fp->_flag | = _ err;
fp->_cnt = 0;
return(EOF);
}
return(*fp->_ptr++ & 0377); /*make char positive*/
}
Раз буфер уже создан, функция _filebuf просто вызывает
функцию read для его заполнения, устанавливает счетчик и
указатели и возвращает символ из начала буфера.
Единственный оставшийся невыясненным вопрос состоит в
том, как все начинается. Массив _iob должен быть определен и
инициализирован для stdin, stdout и stderr:
file _iob[nfile] = {
(NULL,0,_read,0), /*stdin*/
(NULL,0,NULL,1), /*stdout*/
(NULL,0,NULL,_write | _unbuf,2) /*stderr*/
};
Перепишите функции fopen и _filebuf, используя поля вместо
явных побитовых операций.
Разработайте и напишите функции _flushbuf и fclose.