Papo de Botequim Parte III
- Garçon, traga dois chopes por favor que hoje eu vou ter que falar muito.
Trabalhando com cadeias
Pelo título acima não pense você que vou lhe ensinar a ser carcereiro! Estou me referindo a cadeia de caracteres!
O Comando cut (que não é a central de trabalhadores)
Primeiro quero te mostrar, de forma eminentemente prática uma instrução simples de usar e muito útil: o comando
cut, Esta instrução é usada para cortar um determinado pedaço de um arquivo e tem duas formas distintas de uso
O comando cut com a opção -c
Com esta opção, o comando tem a seguinte sintaxe:
cut -c PosIni-PosFim [arquivo]
Onde:
PosIni = Posição inicial
PosFim = Posição final
$ cat numeros
1234567890
0987654321
1234554321
9876556789
$ cut -c1-5 numeros
12345
09876
12345
98765
$ cut -c-6 numeros
123456
098765
123455
987655
$ cut -c4- numeros
4567890
7654321
4554321
6556789
$ cut -c1,3,5,7,9 numeros
13579
08642
13542
97568
$ cut -c -3,5,8- numeros
1235890
0986321
1235321
9875789
Como dá para ver, no duro mesmo existem quatro sintaxes distintas: na primeira
(-c 1-5), eu especifiquei uma faixa, na segunda
(-c -6), especifiquei tudo até uma posição, na terceira
(-c 4-) de uma determinada posição em diante e na quarta
(-c 1,3,5,7,9), determinadas posições. A última
(-c -3,5,8-) foi só para mostrar que podemos misturar tudo.
O comando cut com a opção -f
Mas não pense você que acabou por aí! Como você deve ter percebido esta forma de
cut é útil para arquivos com campos de tamanho fixo, mas atualmente o que mais existe são arquivos com campos de tamanho variáveis, onde cada campo termina com um delimitador. Vamos dar uma olhada no arquivo
musicas que começamos a preparar no nosso papo na última vez que viemos aqui no botequim.
$ cat musicas
album 1^Artista1~Musica1:Artista2~Musica2
album 2^Artista3~Musica3:Artista4~Musica4
album 3^Artista5~Musica5:Artista6~Musica5
album 4^Artista7~Musica7:Artista8~Musica8
Então, recapitulando, o seu
"leiaute" é o seguinte:
nome do album^interprete1~nome da musica1:...:interpreten~nome da musican
isto é, o nome do álbum será separado por um circunflexo (
^) do resto do registro, que é formado por diversos grupos compostos pelo intérprete de cada música do CD e a respectiva música interpretada. Estes grupos são separados entre si por dois-pontos (
:) e internamente, o nome do intérprete será separado por um til (
~) do nome da música.
Então para pegarmos os dados referentes a todas as segundas músicas do arquivo
musicas, devemos fazer:
$ cut -f2 -d: musicas
Artista2~Musica2
Artista4~Musica4
Artista6~Musica5
Artista8~Musica8
Ou seja, cortamos o segundo campo (
-f de
field em inglês) delimitado (
-d) por dois-pontos (
:). Mas, se quisermos somente os intérpretes, devemos fazer:
$ cut -f2 -d: musicas | cut -f1 -d~
Artista2
Artista4
Artista6
Artista8
Para entender isso, vamos pegar a primeira linha de
musicas:
$ head -1 musicas
album 1^Artista1~Musica1:Artista2~Musica2
Então observe o que foi feito:
Delimitador do primeiro
cut (
:)
album 1^Artista1~Musica1:Artista2~Musica2
Desta forma, no primeiro
cut, o primeiro campo do delimitador (
-d) dois-pontos (
:) é
album 1^Artista1~Musica1 e o segundo, que é o que nos interessa, é
Artista2~Musica2.
Vamos então ver o que aconteceu no segundo
cut:
Novo delimitador (
~)
Artista2~Musica2
Agora, primeiro campo do delimitador (
-d) til (
~), que é o que nos interessa, é
Artista2 e o segundo é
Musica2.
Se o raciocínio que fizemos para a primeira linha for aplicado no restante do arquivo, chegaremos à resposta anteriormente dada.
Se tem cut tem paste
Como já era de se esperar, o comando
paste serve para colar, só que aqui no
Shell o que ele cola são arquivos. Só para começar a entendê-lo, vamos fazer assim::
paste arq1 arq2
Desta forma ele mandará para a saída padrão (
stdout) cada um dos registros de
arq1 ao lado dos registros de
arq2 correspondentes e caso nenhum delimitador seja especificado, ele usará por
default o
<TAB>.
O paste é um comando pouco usado por sua sintaxe ser pouco conhecida. Vamos brincar com 2 arquivos criados da seguinte forma:
$ seq 10 > inteiros
$ seq 2 2 10 > pares
Para ver o conteúdo dos arquivos criados, vamos usar o
paste na sua forma careta que mostramos acima:
$ paste inteiros pares
1 2
2 4
3 6
4 8
5 10
6
7
8
9
10
Quem está em pé, deita
Agora vamos transformar a coluna do
pares em linha:
$ paste -s pares
2 4 6 8 10
Usando separadores
Como já foi dito, o separador
default do
paste é o
<TAB>, mas isso pode ser alterado com a opção
-d. Então para calcular a soma do conteúdo de
pares primeiramente faríamos:
$ paste -s -d'+' pares # também poderia ser -sd'+'
2+4+6+8+10
e depois passaríamos esta linha para a calculadora (
bc) e então ficaria:
$ paste -sd'+' pares | bc
30
Assim sendo, para calcular o fatorial do número contido em
$Num, basta:
$ seq $Num | paste -sd'*' | bc
Com o comando
paste você também pode montar formatações exóticas como esta a seguir:
$ ls | paste -s -d'\t\t\n'
arq1 arq2 arq3
arq4 arq5 arq6
O que aconteceu foi o seguinte: foi especificado para o comando
paste que ele transformaria linhas em colunas (pela opção
-s) e que os seus separadores (é...! Ele aceita mais de um, mas somente um após cada coluna criada pelo comando) seriam uma
<TAB>, outra
<TAB> e um
<ENTER>, gerando desta forma a saída tabulada em 3 colunas.
Agora que você já entendeu isto, veja como fazer a mesma coisa, porém de forma mais fácil e menos bizarra e tosca, usando o mesmo comando mas com a seguinte sintaxe:
$ ls | paste - - -
arq1 arq2 arq3
arq4 arq5 arq6
E isto acontece porque se ao invés de especificarmos os arquivos colocarmos o sinal de menos (
-), o comando
paste os substitui pela saída ou entrada padrão conforme o caso. No exemplo anterior os dados foram mandados para a saída padrão (
stdout), porque o
pipe (
|) estava desviando a saída do
ls para a entrada padrão (
stdin) do
paste, mas veja o exemplo a seguir:
$ cat arq1
predisposição
privilegiado
profissional
$ cat arq2
encher
mário
motor
$ cut -c-3 arq1 | paste -d "" - arq2
preencher
primário
promotor
Neste caso, o
cut devolveu as três primeiras letras de cada registro de
arq1, o
paste foi montado para não ter separador (
-d"") e receber a entrada padrão (desviada pelo
pipe) no traço (
-) gerando a saída juntamente com
arq2.
O Comando tr
Outro comando muito interessante é o tr que serve para substituir, comprimir ou remover caracteres. Sua sintaxe segue o seguinte padrão:
tr [opções] cadeia1 [cadeia2]
O comando
tr copia o texto da entrada padrão (
stdin), troca as ocorrência dos caracteres de
cadeia1 pelo seu correspondente na
cadeia2 ou troca múltiplas ocorrências dos caracteres de
cadeia1 por somente um caracter, ou ainda remove caracteres da
cadeia1.
As principais
opções do comando são:
| Principais Opções do comando tr |
| -d |
Remove os caracteres de cadeia1 |
| Opção |
Significado |
| -s |
Comprime n ocorrências de cadeia1 em apenas uma |
Trocando caracteres com tr
Primeiro vou te dar um exemplo bem bobo:
$ echo bobo | tr o a
baba
Isto é, troquei todas as ocorrências da letra
o pela letra
a.
Suponha que em um determinado ponto do meu
script eu peça ao operador para teclar
s ou
n (sim ou não), e guardo sua resposta na variável
$Resp. Ora o conteúdo de
$Resp pode estar com letra maiúscula ou minúscula, e desta forma eu teria que fazer diversos testes para saber se a resposta dada foi
S,
s,
N ou
n. Então o melhor é fazer:
$ Resp=$(echo $Resp | tr SN sn)
e após este comando eu teria certeza que o conteúdo de
$Resp seria um
s ou um
n.
Se o meu arquivo
ArqEnt está todo escrito com letras maiúsculas e desejo passá-las para minúsculas eu faço:
$ tr A-Z a-z < ArqEnt > /tmp/$$
$ mv -f /tmp/$$ ArqEnt
Note que neste caso usei a notação
A-Z para não escrever
ABCD...YZ. Outro tipo de notação que pode ser usada são as
escape sequences (prefiro escrever no bom e velho português, mas nesse caso como eu traduziria? Seqüências de escape? Meio sem sentido, né? Mas vá lá...) que também são reconhecidas por outros comandos e também na linguagem C, e cujo significado você verá a seguir:
| Escape Sequences |
| \\ |
Uma barra invertida |
\0134 |
| Seqüência |
Significado |
Octal |
| \t |
Tabulação |
\011 |
| \n |
Nova linha |
\012 |
| \v |
Tabulação Vertical |
\013 |
| \f |
Nova Página |
\014 |
| \r |
Início da linha <^M> |
\015 |
Removendo caracteres com tr
Então deixa eu te contar um "causo": um aluno que estava danado comigo, resolveu complicar a minha vida e em um exercício prático valendo nota que passei para ser feito no computador, me entregou o
script com todos os comandos separados por ponto-e-vírgula (lembra que eu disse que o ponto-e-vírgula servia para separar diversos comandos em uma mesma linha?).
Vou dar um exemplo simplificado e idiota de uma "tripa" assim:
$ cat confuso
echo leia Programação Shell Linux do Julio Cezar Neves > livro;cat livro;pwd;ls;rm -f lixo 2>/dev/null;cd ~
Eu executava o programa e ele funcionava:
$ confuso
leia Programação Shell Linux do Julio Cezar Neves
/home/jneves/LM
confuso livro musexc musicas musinc muslist numeros
Mas nota de prova é coisa séria (e nota de dólar é mais ainda :)) então, para entender o que o aluno havia feito, o chamei e em sua frente executei o seguinte comando:
$ tr ";" "\n" < confuso
echo leia Programação Shell Linux do Julio Cezar Neves
pwd
ls
rm -f lixo 2>/dev/null
cd ~
O cara ficou muito desapontado, porque em 2 ou 3 segundos eu desfiz a gozação que ele perdera horas para fazer.
Mas preste atenção! Se eu estivesse em uma máquina com Unix, eu teria feito:
$ tr ";" "\012" < confuso
Xpremendo com tr
Agora veja a diferença entre os dois comandos
date: o que fiz hoje e outro que foi executado há duas semanas:
$ date # Hoje
Sun Sep 19 14:59:54 2004
$ date # Há duas semanas
Sun Sep 5 10:12:33 2004
Para pegar a hora eu deveria fazer:
$ date | cut -f 4 -d ' '
14:59:54
Mas duas semanas antes ocorreria o seguinte:
$ date | cut -f 4 -d ' '
5
Mas observe porque:
$ date # Há duas semanas
Sun Sep 5 10:12:33 2004
Como você pode notar, existem 2 caracteres em branco antes do
5 (dia), o que estraga tudo porque o terceiro pedaço está vazio e o quarto é o dia (
5). Então o ideal seria comprimir os espaços em brancos sucessivos em somente um espaço para poder tratar as duas cadeias resultantes do comando
date da mesma forma, e isso se faz assim:
$ date | tr -s " "
Sun Sep 5 10:12:33 2004
Como você pode ver não existem mais os dois espaços, então agora eu poderia cortar:
$ date | tr -s " " | cut -f 4 -d " "
10:12:33
Olha só como o
Shell já está quebrando o galho. Veja este arquivo que foi baixado de uma máquina com aquele sistema operacional que pega vírus:
$ cat -ve ArqDoDOS.txt
Este arquivo^M$
foi gerado pelo^M$
DOS/Rwin e foi^M$
baixado por um^M$
ftp mal feito.^M$
E agora eu quero te dar duas dicas:
Dica #1 - A opção
-v do
cat mostra os caracteres de controle invisíveis, com a notação
^L, onde
^ é a tecla control e
L é a respectiva letra. A opção
-e mostra o final da linha como um cifrão (
$).
Dica #2 - Isto ocorre porque no formato DOS (ou rwin), o fim dos registros é formado por um
carriage-return (
\r) e um
line-feed (
\n). No Linux porém o final do registro tem somente o
line-feed.
Vamos então limpar este arquivo.
$ tr -d '\r' < ArqDoDOS.txt > /tmp/$$
$ mv -f /tmp/$$ ArqDoDOS.txt
Agora vamos ver o que aconteceu:
$ cat -ve ArqDoDOS.txt
Este arquivo$
foi gerado pelo$
DOS/Rwin e foi$
baixado por um$
ftp mal feito.$
Bem a opção
-d do
tr remove o caractere especificado de todo o arquivo. Desta forma eu removi os caracteres indesejados salvando em um arquivo de trabalho e posteriormente renomeei-o para a sua designação original.
Obs: No Unix eu deveria fazer:
$ tr -d '\015' < ArqDoDOS.txt > /tmp/$$

Isto aconteceu porque o
ftp foi feito do modo binário (ou
image), isto é, sem a interpretação do texto. Se antes da transmissão do arquivo tivesse sido estipulada a opção
ascii do
ftp, isto não teria ocorrido.
- Olha, depois desta dica tô começando a gostar deste tal de
Shell, mas ainda tem muita coisa que não consigo fazer.
- Pois é, ainda não te falei quase nada sobre programação em
Shell, ainda tem muita coisa para aprender, mas com o que aprendeu, já dá para resolver muitos problemas, desde que você adquira o “modo
Shell de pensar”. Você seria capaz de fazer um
script para me dizer quais são as pessoas que estão “logadas” há mais de um dia no seu servidor?
- Claro que não! Para isso seria necessário eu conhecer os comandos condicionais que você ainda não me explicou como funcionam.
- Deixa eu tentar mudar um pouco a sua lógica e trazê-la para o “modo
Shell de pensar”, mas antes é melhor tomarmos um chope... Ô Chico, traz mais dois...
- Agora que já molhei a palavra, vamos resolver o problema que te propus. Repare como funciona o comando who:
$ who
jneves pts/1 Sep 18 13:40
rtorres pts/0 Sep 20 07:01
rlegaria pts/1 Sep 20 08:19
lcarlos pts/3 Sep 20 10:01
E veja também o
date:
$ date
Mon Sep 20 10:47:19 BRT 2004
Repare que o mês e o dia estão no mesmo formato em ambos os comandos.

Algumas vezes um comando tem a saída em português e o outro em inglês. Quando isso ocorrer, você pode usar o seguinte artifício:
$ date
Mon Sep 20 10:47:19 BRT 2004
$ LANG=pt_BR date
Seg Set 20 10:47:19 BRT 2004
Desta forma passando a saída do comando
date para português.
Ora, se em algum registro do
who eu não encontrar a data de hoje, é sinal que o cara está "logado" há mais de um dia, já que ele não pode ter se "logado" amanhã... Então vamos guardar o pedaço que importa da data de hoje para procurá-la na saída do
who:
$ Data=$(date | cut -c 5-10)
Eu usei a construção
$(...), para priorizar a execução dos comandos antes de atribuir a sua saída à variável
$Data. Vamos ver se funcionou:
$ echo $Data
Sep 20
Beleza! Agora, o que temos que fazer é procurar no comando
who os registros que não possuem esta data.
- Ah! Eu acho que estou entendendo! Você falou em procurar e me ocorreu o comando
grep, estou certo?
- Certíssimo! Só que eu tenho que usar o
grep com aquela opção que ele só lista os registros nos quais ele
não encontrou a cadeia. Você se lembra que opção é essa?
- Claro, é a opção
-v...
- Isso! Tá ficando bão! Então vamos ver:
$ who | grep -v "$Data"
jneves pts/1 Sep 18 13:40
- E se eu quisesse mais um pouco de perfumaria eu faria assim:
$ who | grep -v "$Data" | cut -f1 -d ' '
jneves
- Viu? Não foi necessário usar nenhum comando condicional, até porque o nosso mais usado comando condicional, o famoso
if, não testa condição, mas sim instruções, como veremos agora.
Comandos Condicionais
Veja as linhas de comando a seguir:
$ ls musicas
musicas
$ echo $?
0
$ ls ArqInexistente
ls: ArqInexistente: No such file or directory
$ echo $?
1
$ who | grep jneves
jneves pts/1 Sep 18 13:40 (10.2.4.144)
$ echo $?
0
$ who | grep juliana
$ echo $?
1
- O que é esse
$? faz aí? Começando por cifrão (
$) parece ser uma variável, certo?
- Sim é uma variável que contém o código de retorno da última instrução executada. Posso te garantir que se esta instrução foi bem sucedida, $? terá o valor zero, caso contrário seu valor será diferente de zero.
O Comando if
O que o nosso comando condicional
if faz é testar a variável
$?. Então vamos ver a sua sintaxe:
if cmd
then
cmd1
cmd2
cmdn
else
cmd3
cmd4
cmdm
fi
ou seja: caso comando
cmd tenha sido executado com sucesso, os comandos do bloco do
then (
cmd1,
cmd2 e
cmdn) serão executados, caso contrário, os comandos executados serão os do bloco opcional do
else (
cmd3,
cmd4 e
cmdm), terminando com um
fi.
Vamos ver na prática como isso funciona usando um
scriptizinho que serve para incluir usuários no
/etc/passwd:
$ cat incusu
#!/bin/bash
# Versão 1
if grep ^$1 /etc/passwd
then
echo Usuario \'$1\' já existe
else
if useradd $1
then
echo Usuário \'$1\' incluído em /etc/passwd
else
echo "Problemas no cadastramento. Você é root?"
fi
fi
Repare que o
if está testando direto o comando
grep e esta é a sua finalidade. Caso o
if seja bem sucedido, ou seja, o usuário (cujo nome está em
$1) foi encontrado em
/etc/passwd, os comandos do bloco do
then serão executados (neste exemplo é somente o
echo) e caso contrário, as instruções do bloco do
else é que serão executadas, quando um novo
if testa se o comando
useradd foi executado a contento, criando o registro do usuário em
/etc/passwd, ou não quando dará a mensagem de erro.
Vejamos sua execução, primeiramente passando um usuário já cadastrado:
$ incusu jneves
jneves:x:54002:1001:Julio Neves:/home/jneves:/bin/bash
Usuario 'jneves' ja existe
Como já vimos diversas vezes, mas é sempre bom insistir no tema para que você já fique precavido, no exemplo dado surgiu uma linha indesejada, ela é a saída do comando
grep. Para evitar que isso aconteça, devemos desviar a saída desta instrução para
/dev/null, ficando assim:
$ cat incusu
#!/bin/bash
# Versão 2
if grep ^$1 /etc/passwd > /dev/null # ou: if grep -q ^$1 /etc/passwd
then
echo Usuario \'$1\' já existe
else
if useradd $1
then
echo Usuário \'$1\' incluído em /etc/passwd
else
echo "Problemas no cadastramento. Você é root?"
fi
fi
Agora vamos testá-lo como usuário normal (não
root):
$ incusu ZeNinguem
./incusu[6]: useradd: not found
Problemas no cadastramento. Você é root?
Epa, aquele erro não era para acontecer! Para evitar que isso aconteça devemos mandar também a saída de erro (
strerr, lembra?) do
useradd para
/dev/null, ficando na versão final assim:
$ cat incusu
#!/bin/bash
# Versão 3
if grep ^$1 /etc/passwd > /dev/null
then
echo Usuario \'$1\' já existe
else
if useradd $1 2> /dev/null
then
echo Usuário \'$1\' incluído em /etc/passwd
else
echo "Problemas no cadastramento. Você é root?"
fi
fi
Depois destas alterações e de fazer um
su – (me tornar
root) vejamos o seu comportamento:
$ incusu botelho
Usuário 'botelho' incluido em /etc/passwd
E novamente:
$ incusu botelho
Usuário 'botelho' já existe
Lembra que eu falei que ao longo dos nossos papos e chopes os nossos programas iriam se aprimorando? Então vejamos agora como poderíamos melhorar o nosso programa para incluir músicas:
$ cat musinc
#!/bin/bash
# Cadastra CDs (versao 3)
#
if grep "^$1$" musicas > /dev/null
then
echo Este álbum já está cadastrado
else
echo $1 >> musicas
sort musicas -o musicas
fi
Como você viu, é uma pequena evolução da versão anterior, assim, antes de incluir um registro (que pela versão anterior poderia ser duplicado), testamos se o registro começava (
^) e terminava (
$) igual ao parâmetro passado (
$1). O uso do circunflexo (
^) no início da cadeia e cifrão (
$) no fim, são para testar se o parâmetro passado (o álbum e seus dados) são exatamente iguais a algum registro anteriormente cadastrado e não somente igual a um pedaço de algum dos registros.
Vamos executá-lo passando um álbum já cadastrado:
$ musinc "album 4^Artista7~Musica7:Artista8~Musica8"
Este álbum já está cadastrado
E agora um não cadastrado:
$ musinc "album 5^Artista9~Musica9:Artista10~Musica10"
$ cat musicas
album 1^Artista1~Musica1:Artista2~Musica2
album 2^Artista3~Musica3:Artista4~Musica4
album 3^Artista5~Musica5:Artista6~Musica5
album 4^Artista7~Musica7:Artista8~Musica8
album 5^Artista9~Musica9:Artista10~Musica10
- Como você viu, o programa melhorou um pouquinho, mas ainda não está pronto. À medida que eu for te ensinando a programar em
shell, nossa CDteca irá ficando cada vez melhor.
- Entendi tudo que você me explicou, mas ainda não sei como fazer um
if para testar condições, ou seja o uso normal do comando.
- Cara, para isso existe o comando
test, ele é que testa condições. O comando
if testa o comando
test. Mas isso está meio confuso e como já falei muito, estou precisando de uns chopes para molhar a palavra. Vamos parando por aqui e na próxima vez te explico direitinho o uso do
test e de diversas outras sintaxes do
if.
- Falou! Acho bom mesmo porque eu também já tô ficando zonzo e assim tenho tempo para praticar esse monte de coisas que você me falou hoje.
- Para fixar o que você aprendeu, tente fazer um
scriptizinho para informar se um determinado usuário, que será passado como parâmetro esta logado (arghh!) ou não.
- Aê Chico, mais dois chopes por favor...
Vou aproveitar também para mandar o meu jabá: diga para os amigos que quem estiver afim de fazer um curso porreta de programação em
Shell que mande um e-mail para a nossa
gerencia de treinamento para informar-se.
Qualquer dúvida ou falta de companhia para um chope ou até para falar mal dos políticos é só mandar um e-mail para
mim.
Valeu!