Posts Tagged ‘scan’

Scanner une chaîne de caractère et extraire le xème mot
septembre 12, 2008Scanner le contenu d’un texte et identifier le xème « Mot » est possible sous SAS grâce à la fonction SCAN. Je vous propose dans un premier temps de voir les différents paramètres de la fonction. Puis dans un second temps, vous aurez à disposition quelques exemples documentés à tester soi-même.
Deux exemples d’applications :
- Définir une condition (IF THEN par exemple) selon la valeur prise par le mot trouvé.
- Sauvegarder le « mot » dans une nouvelle variable.
1. Trois paramètres pour la fonction SCAN
La fonction SCAN est composée de trois paramètres.
- Le texte à scanner
- La position du mot recherché
- Le symbole délimitant les mots dans le texte
1.1 Le texte à scanner est donné dans le premier paramètre
Le texte à scanner peut-être une chaîne tapée manuellement entre guillemets. Mais il est plus probable que vous souhaitiez opérer l’opération pour chacune des observations contenues dans une variable caractère.
Il s’agit alors de nommer la variable.
Rappel : lorsqu’une variable est nommée, il ne faut jamais mettre son nom entre guillemets. La fonction SCAN ne fait pas exception.
1.2 La position du mot recherché est définie dans le second paramètre
Des nombres entiers : la position du mot est donnée par un nombre entier.
- 1 correspond au premier mot de la chaîne de caractères;
- 2 au deuxième, etc.
Les valeurs négatives : il est en effet possible d’utiliser des valeurs négatives pour définir la position du mot. De quoi s’agit-il ? Tout simplement, au lieu de commencer par le début de la chaîne, SAS commence par la fin.
- -1 correspond au dernier mot,
- -2 à l’avant dernier mot, etc.
1.3 Le délimiteur apparaît en troisième
Trouver des « mots » au sens large du terme : En langage courant, un mot est un ensemble de lettres séparées par un espace. Avec la fonction SCAN, le symbole séparant les mots est libre. L’utilisateur se chargera de définir ce symbole.
Le symbole séparant les mots est à donner entre guillemets. A titre d’exemple, il peut s’agir de tirets bas (underscore en anglais), de barre inclinée (slash en anglais), de blancs (blank en anglais).
2. La fonction SCAN par l’exemple
Exemple 1 : Dans ce premier exemple, une variable NAME contient 5 observations.
data dict;
length name $8;
input name $;
datalines;
PAT_ID
COUNTRY
REC_ID
VISIT
VISIT_DT
;
run;
Grâce à la première condition, les observations se terminant par _DT sont sauvegardées dans le data set DT_VAR. Il n’y a que la variable VISIT_DT.
Avec la seconde condition, les observations commençant par VISIT_ sont envoyées dans le data set VISIT_VAR.
data dt_var visit_var;
set dict;
if scan(name,-1,‘_’)=‘DT’ then output dt_var;
if scan(name,1,‘_’)=‘VISIT’ then output visit_var;
run;
Exemple 2 : Dans ce second exemple, une variable PATH a 3 observations.
data path_lst;
path=‘c:/sasref/projet123/study1/pgm’;
output;
path=‘c:/sasref/projet123/study9/pgm’;
output;
path=‘c:/sasref/projet444/study2/pgm’;
output;
run;
Dans ce premier cas, les observations contenant le mot proj123 en troisième niveau dans le chemin d’accès sont gardées.
data projet123;
set path_lst;
if scan(path,3,‘/’)=‘projet123’;*then output;
run;
Dans ce second cas, une nouvelle variable est créée. Elle contient le numéro de l’étude disponible en quatrième position dans le chemin d’accès fourni dans la variable PATH.
data study_var;
study=scan(path,4,‘/’);
run;
Je vous donne rendez-vous demain samedi pour un article sur l’option FMTSEARCH.

Fini le Moyen-Age pour compter les mots
février 20, 2008
Vous avez une variable composée d’un ou plusieurs mots pour chaque observation, le tout séparé par des espaces, des virgules ou autre. Et vous voulez savoir combien il y a de mots. Avec SAS 9, il est très rapide de trouver le nombre de mots. Avec SAS 8.2, il faut pallier à l’absence de la fonction COUNT. Dans les deux cas, l’idée est la même : on compte les délimiteurs et on ajoute 1.
Prenons le cas des espaces. Dans un premier temps, on enlève les blancs de début et de fin de chaîne. Puis on enlève les doublons entre les mots. Enfin on compte les espaces restants. Il faudra aussi tenir compte du fait qu’une observation puisse ne contenir aucune valeur.
Voici les données qui serviront d’exemple :
data ds_orig;
x=‘ AB CD GH ‘;
output;
x=‘ ‘;
output;
x=‘AB ‘;
output;
run;
1. Avec SAS 9, un calcul rapide : il faudra faire appel à:
-
la fonction STRIP pour les blancs aux extrémités,
-
la fonction COMPBL pour enlever les blancs doublons,
-
la fonction COUNT pour compter le nombre d’occurrence d’un caractère donné,
-
la fonction MISSING ou un simple = ‘ ‘ pour savoir si la chaîne est vide.
Voici un exemple avec des espaces pour délimiteur.
data sas9 ;
set ds_orig;
if x = ‘ ‘ then nb_mots = 0;
else nb_mots=count(compbl(strip(x)),‘ ‘) + 1;
run;
2. Avec SAS 8.2, il faut contourner l’absence de la fonction COUNT: il existe plusieurs options dont celle-ci utilisant une boucle DO WHILE:
-
Les fonctions TRIM et LEFT remplacent la fonction STRIP.
-
Les fonctions COMPLB et MISSING restent valide.
-
Une boucle remplacera la fonction COUNT.
On extrait le 1er mot de la chaîne, puis le 2nd, etc. via la fonction SCAN. Si la valeur trouvée est une valeur manquante, alors le nombre de mots est égal au nombre du boucles sans valeur manquante, c’est-à-dire le nombre de boucles actuel moins 1. Le compteur, ici nommé i, est réinitialisé pour arrêter la boucle DO WHILE.
data sas8_2;
set ds_orig;
if missing(x)then cnt_mots=0;
else
do;
z=compbl(trim(left(x)));
i=1;
do until (i=0);
if missing(scan(z,i,‘ ‘))then
do;
cnt_mots=i-1;i=->1;
end;
i=i+1;
end;
drop i z;
end;
run;