Table of Contents
1. awk简介
2. awk命令格式和选项
2.1. awk的语法有两种形式
2.2. 命令选项
3. 模式和操作
3.1. 模式
3.2. 操作
4. awk的环境变量
5. awk运算符
6. 记录和域
6.1. 记录
6.2. 域
6.3. 域分隔符
7. gawk专用正则表达式元字符
8. POSIX字符集
9. 匹配操作符(~)
10. 比较表达式
11. 范围模板
12. 一个验证passwd文件有效性的例子
13. 几个实例
14. awk编程
14.1. 变量
14.2. BEGIN模块
14.3. END模块
14.4. 重定向和管道
14.5. 条件语句
14.6. 循环
14.7. 数组
14.8. awk的内建函数
15. How-to
1. awk简介
awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件,或其它命令的输出。它支持用户自定义函数和 动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk的处理文本和数据的方式是这 样的,它逐行扫描文件,从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的操作。如果没有指定处理动作,则把匹配的行显示到标准输出 (屏幕),如果没有指定模式,则所有被操作所指定的行都被处理。awk分别代表其作者姓氏的第一个字母。因为它的作者是三个人,分别是Alfred Aho、Brian Kernighan、Peter Weinberger。gawk是awk的GNU版本,它提供了Bell实验室和GNU的一些扩展。下面介绍的awk是以GUN的gawk为例的,在 linux系统中已把awk链接到gawk,所以下面全部以awk进行介绍。
2. awk命令格式和选项
2.1. awk的语法有两种形式
awk [options] ’script’ var=value file(s)
awk [options] -f scriptfile var=value file(s)
2.2. 命令选项
-F fs or –field-separator fs
指定输入文件折分隔符,fs是一个字符串或者是一个正则表达式,如-F:。
-v var=value [...]
awk提供了许多强大的字符串函数,见下表:awk内置字符串函数
gsub(r,s)
在整个$0中用s替代r
gsub(r,s,t)
在整个t中用s替代r
index(s,t)
返回s中字符串t的第一位置
length(s)
返回s长度
match(s,r)
测试s是否包含匹配r的字符串
split(s,a,fs)
在fs上将s分成序列a
sprint(fmt,exp)
返回经fmt格式化后的exp
sub(r,s)
用$0中最左边最长的子串代替s
substr(s,p)
返回字符串s中从p开始的后缀部分
substr(s,p,n)
返回字符串s中从p开始长度为n的后缀部分
详细说明一下各个函数的使用方法。gsub函数有点类似于sed查找和替换。它允许替换一个字符串或字符为另一个字符串或字符,并以正则表达式的形式执行。第一个函数作用于记录$0,第二个gsub函数允许指定目标,然而,如果未指定目标,缺省为$0。index(s,t)函数返回目标字符串s中查询字符串t的首位置。length函数返回字符串s字符长度。match函数测试字符串s是否包含一个正则表达式r定义的匹配。split使用域分隔符fs将字符串s划分为指定序列a。sprint函数类似于printf函数(以后涉及),返回基本输出格式fmt的结果字符串exp。sub(r,s)函数将用s替代$0中最左边最长的子串,该子串被(r)匹配。sub(s,p)返回字符串s在位置p后的后缀。substr(s,p,n)同上,并指定子串长度为n。现在看一看awk中这些字符串函数的功能。
1.gsub要在整个记录中替换一个字符串为另一个,使用正则表达式格式,/目标模式/,替换模式/。例如改变学生序号4842到4899:
$ awk ‘gsub(’4842/, 4899) {print $0}’ grade.txtJ.Troll 07/99 4899 Brown-3 12 26 26
2.index查询字符串s中t出现的第一位置。必须用双引号将字符串括起来。例如返回目标字符串Bunny中ny出现的第一位置,即字符个数。
$ awk ‘BEGIN {print index(”Bunny”, “ny”)} grade.txt4
3.length返回所需字符串长度,例如检验字符串J.Troll返回名字及其长度,即人名构成的字符个数。
$ awk ‘$1==”J.Troll” {print length($1) ” “$1}’ grade.txt7 J.Troll
还有一种方法,这里字符串加双引号。
$ awk ‘BEGIN {print length(”A FEW GOOD MEN”)}’14
4.matchmatch测试目标字符串是否包含查找字符的一部分。可以对查找部分使用正则表达式,返回值为成功出现的字符排列数。如果未找到,返回0,第一个例子在ANCD中查找d。因其不存在,所以返回0。第二个例子在ANCD中查找D。因其存在,所以返回ANCD中D出现的首位置字符数。第三个例子在学生J.Lulu中查找u。
$ awk ‘{BEGIN {print match(”ANCD”, /d/)}’0$ awk ‘{BEGIN {print match(”ANCD”, /C/)}’3$ awk ‘$1==”J.Lulu” {print match($1, “u”)} grade.txt4
5.split使用split返回字符串数组元素个数。工作方式如下:如果有一字符串,包含一指定分隔符-,例如AD2-KP9-JU2-LP-1,将之划分成一个数组。使用split,指定分隔符及数组名。此例中,命令格式为(”AD2-KP9-JU2-LP-1″,parts_array,”-”),split然后返回数组下标数,这里结果为4。还有一个例子使用不同的分隔符。
$ awk [...]
当你在编写一个程序时,有时不得不把字符写进文件里去。
正在装载数据……
如下面的:
import java.io.*;
public class Encode1 {
public static void main(String args[])
throws IOException {
Writer writer = new FileWriter(”out”);
writer.write(”testing”);
writer.close();
}
}
当你在solaris 系列的操作系统或windows 平台运行时,文本文件out 只有7字节。这就是你预期的结果。
但这里还是有一个重要的问题。Java 字符是16位,这就是说每个字符是2 个字节长。程序Encode1把7个字符写进了文件out里了。并且结果是一个7字节长的文件。你可能要问:其它字符到那儿去了。难道这里把14个字节写进了文件中了吗。
这个问题归结为“字符编码”了。这个问题是怎样把在java中的16位字符映射成8位字节保存到文件中去。事实上,这里有一非常好的机制,而不是简单的放大、缩小8位或16位,因为在全世界几百种字符编码在使用。这就是说:这种特殊的8位字符序列需要因不同平台、及场所而重新组合成java字符串。
Java系统是通过你因不同的需要而选择特殊编码配置来解决这个问题的。同时它也提供一默认的字符编码基于你的平台和环境。像上面的实例,java系统支持默认的字符编码进行i/o操作。另外,你也可以指定其它的编码(字符集)。这些字符编码是一字符串来描述,比如:”utf-8”。也可以是java.nio.charset.Charset 类的一个实例。Charset 是一抽象类,所以事实上这个实例是Charset 类的子类。
在Encode1例子中,解决编码问题的一种方法是把字符分解成两个字节写进文件中去。竟管这个文件可能没有字节散布在这里面。另外一种办法是把java字符中的高位抛弃。这种办法在上面的例子可以用,但你尝试写一希腊、日语字符串就不会成功了。
在这个例子中实际是用第二种方法来处理的(它的高位字节抛弃)。如果你在Encode1例子中把输出行:writer.write(”testing”); 改成:writer.write(”testing\u1234″); 这输出行的总长将是8字节而不是7字节了。竟管如此,这统一编码字符\u1234 还是不能以一个字节显示出来。
在前面讨论中的“抛弃“有两种意思。如果java字符的高位是0,就像字符是以7位ASCII表示,那么“抛弃”的意思是舍去高位字节。另外一种意思是在某种的环境下你不可能用映射使用一特殊的字符。在这种可能情况下字符(2个字节)可能被一默认的置换字节所取代。就像上面例子中的/u1234 由0×3f 取代了。
下面让我们来看看怎样使用字符集、在字符与字节之间映射。一个基本的问题是:那些字符集是可用呢?下面这个程序演示了一个列表:
import java.nio.charset.*;
import java.util.*;
public class Encode2 {
public static void main(String args[]) {
Map availcs = Charset.availableCharsets();
Set keys = availcs.keySet();
for (Iterator iter =
keys.iterator();iter.hasNext();) [...]