Строки и строковые функции

Сервер поддерживается
Центром Информационных Технологий
(095) 932-9212, 932-9213, 939-0783
E-mail: info@citforum.ru

Сервер содержит море(!) аналитической информации

CIT Forum CD-ROM

10.13. Строки и строковые функции

Строка констант - это последовательность символов, заключенная в двойные кавычки, как например, "abc", "hello, everyone".Строкаконстант может содержать последовательности escape языка программирования Си для специальных символов.

Строковые выражения создаются путем слияния констант, переменных, имен полей, элементов массива, функций и других выражений.

Программа:

	{ print NR ":" $0 }

печатает перед каждой записью ее номер и двоеточие без пробела. Три строки: номер записи, двоеточие и запись сливаются и результирующая строка печатается.

В табл. 25 приведены встроенные строковые функции, поддерживаемые awk. В этой таблице r представляет собой регулярное выражение (либо как строка, либо как /r/), s и t - строковые выражения, n и p - целые числа.

Таблица 25
Встроенные строковые функции awk

Функция Описание
gsub(r, s) Глобальная замена s на r в текущей записи; возвращает количество земененых символов
gsub(r,s, t) Глобальная замена s на r в строке t, возвращает количество замененных символов
index(s,t) Возвращает позицию t в s: 0 - если t нет в s
length(s) Возвращает длину s
matgch(s,r) Возвращает позицию s, в которой встречается r; 0 - если r не встретилось
split(s,a) Разделяет s на массив a по FS; возвращает число полей
split(s,a,r) Разделяет s на массив a по r; возвращает число полей
sprintf(fmt,expr-list) Возвращает expr-list, отформатированный в соответствии с форматом строки fmt
sub(r,s) Замещает s на первое r в текущей записи, возвращает количество замен
sub(r,s,t) Заменяет s на первое r в строке t, возвращает количество замен
substr(s,p) Возвращает индекс s, начиная с позиции p
substr(s,p,n) Возвращает подсказку s длиной n, начиная с позиции p

Функция	Описание
gsub(r, s)	Глобальная замена s на r в текущей записи; возвращает количество земененых символов
gsub(r,s, t)	Глобальная замена s на r в строке t, возвращает количество замененных символов
index(s,t)	Возвращает позицию t в s: 0 - если t нет в s
length(s)	Возвращает длину s
matgch(s,r)	Возвращает позицию s, в которой встречается r; 0 - если r не встретилось
split(s,a)	Разделяет s на массив a по FS; возвращает число полей
split(s,a,r)	Разделяет s на массив a по r; возвращает число полей
sprintf(fmt,expr-list)	Возвращает expr-list, отформатированный в соответствии с форматом строки fmt
sub(r,s)	Замещает s на первое r в текущей записи, возвращает количество замен
sub(r,s,t)	Заменяет s на первое r в строке t, возвращает количество замен
substr(s,p)	Возвращает индекс s, начиная с позиции p
substr(s,p,n)	Возвращает подсказку s длиной n, начиная с позиции p

Функции sub и gsub сформированы после команды замены в текстовом радакторе ed. Функция gsub(r,s,t) заменяет успешное появление подстрок, найденных при помощи регулярного выражения r с заменой строки s в целевой строке t. Функция gsub(r,s) является синонимом gsub(r,s,$0). Например, программа:

	{ gsub(/USA/, "United States"); print }

преобразует ввод, меняя появление "USA" на "Unites States". Функция sub подобна ей, за исключением того, что она заменяет первую найденную подстроку в целевой строке.

Функция index(s,t) возвращает левую крайнюю позицию, с которой строка t начинается в s. Первый символ в строке начинается с позиции 1. Например,

	index("banana", "an")

возвращает 2.

Функция length возвращает число символов в строке; так:

	{ print length($0), $0 }

печатает каждую запись, а перед ней ее длину. ($0 не включает в вводную запись разделитель). Программа:

        length($1) > max { max = length($1); name = $1 }
        END              { print name }

применительно к файлу countries распечатывает наибольшее имя страны:

	Australia

Функция match(s,r) возвращает позицию в строке s, в которой появилось регулярное выражение r, либо 0, если оно не найдено. Эта функция также устанавливает две встроенные переменные RSTART и RLENGTH. RSTART принимает значение начальной позиции, найденной в строке, это значение равно возвращаемому значению. RLENGTH принимает значение длины найденной строки. (Если строка не найдена, то RSTART равно 0, а RLENGTH равно -1). Например, следующая программа ищет появление буквы i и за ней сразу или через один символ следует буква a:

           { if (match($0, /i.?a/))
                { print RSTART, RLENGTH, $0 }

Относительно файла countries получим следующий вывод:

        17 2 USSR 8650     262     Asia
        26 3 Canada         3852     24      North America
        3 3 China 3692     866     Asia
        24 3 USA  3615     219     North America
        27 3 Brazil         3286     116     South America
        8 2 Australia       2968     14      Australia
        4 2 India 1269     637     Asia
        7 3 Argentina       1072     26      South America
        17 3 Sudan          968      19      Africa
        6 2 Algeria         920      18      Africa

Функция sprintf(format, expr1, expr2, ..., exprn) возвращает (без печати) строку, содержащую expr1, expr2, ..., exprn, отформатированную в соответствии со спецификацией printf в строке format. Выражение:

	x = sprintf("%10s %6d", $1, $2)

присваивает x строку, полученную при форматировании $1 и $2 как 10-символьных строк и десятичное число в поле шириной как минимум 6 знаков.

Функция substr(s,p,n) возвращает подстроку s, которая начинается с позиции p и имеет длину не менее n символов. Если используется функция substr(s,p), то подстрока направляется в конец s, так что она состоит из индекса s, начинающегося с позиции p. Например, мы можем сократить имена стран в файле countries до трех символов, вызвав программу:

	{ $1 = substr($1, 1, 3); print }

В итоге получим:

        USS 8650 262 Asia
        Can 3852 24 North America
        Chi 3692 866 Asia
        USA 3615 219 North America
        Bra 3286 116 South America
        Aus 2968 14 Australia
        Ind 1269 637 Asia
        Arg 1072 26 South America
        Sud 968 19 Africa
        Alg 920 18 Africa

Обратите внимание, что установка $1 в программе приводит к тому, что awk заново вычисляет $0 и, кроме того, поля разделяются пробелами (значение по умолчанию для OFS), но не табуляцией.

Чтобы слить строки, надо просто записать их одна за другой. Например, для файла countries:

        { s = s substr($1, 1, 3) " " }
        END { print s }

печатает:

        USS Can Chi USA Bra Aus Ind Arg Sud Alg

Назад | Содержание | Вперед