Posts Tagged ‘proc sort’

h1

SAS 9.2 et PROC SORT : Quel est l’effet de l’option – sortseq=ascii (numeric_collation=on) ?

avril 10, 2011

Recherchez l’effet de l’option SAS 9.2 de la procédure PROC SORT : sortseq=ascii (numeric_collation=on),  une option qui manquait vraiment pour le tri de variables alphanumérique.

Pour cela, il vous suffit d’exécuter l’exemple suivant.

data one;
length x $10;
input x $;
datalines;
1
10
A
a
b
B
20
2
;
run;

proc sort data=one
out=nooption;
by x;
run;

proc sort data=one
out=withoption
sortseq=ascii (numeric_collation=on);
by x;
run;

title ‘No option’;
proc print data=nooption;
run;

title ‘With option’;
proc print data=withoption;
run;

Lecture Complémentaire

  • Trier les données par ordre croissant et décroissant
  • Tout sur l’instruction BY
  • SAS Online Doc 9.2: The PROC SORT Procedure
  • h1

    La 3ème méthode qui fait la différence pour sélectionner en se basant sur une second data set

    février 16, 2009

    Suite au précieux conseil d’Arnaud Gaborit (A.I.D.), je vous propose de compléter l’article du 26 janvier dernier intitulé « Deux méthodes pour sélectionner en se basant sur une second data set« . Les personnes travaillant sur de grosses bases de données apprécieront.

    Lectures complémentaires :

    1. Rappel : les données et le résultat attendu

    D’un côté, on a un data set contenant la liste des effets secondaires observés. Il y a une ligne par effet secondaire. Seuls les patients ayant eu un effet secondaire sont enregistrés.

    data ae_multi;
       input patref ae_id;
       datalines;
    1 1
    1 2
    2 1
    4 1
    4 2
    5 1
    ;
    run;

    De l’autre côté, on a la liste des patients correspondant à la population qui nous intéresse. Une ligne correspond à un patient.

    data pat_uniq;
       input patref;
       datalines;
    2
    3
    4
    ;
    run;

    Le but est de garder uniquement les effets secondaires des patients présents dans notre population.

    patref ae_id
    
       2     1
       4     1
       4     2

    2. Créer un format à partir d’un data set

    Dans une premier temps, un format numérique (TYPE=N est la valeur par défaut) appelé PATREF (FMTNAME=’PATREF’) est créé à partir du data set sur les patients. La variable PATREF sert de valeur START. Pour toutes les valeurs de START, on applique le même libellé (LABEL=’retenir’).

    Si le data set contient plusieurs variables (ce qui sera généralement le case), l’option KEEP servira à limiter la sélection à la variable servant à définir START.

    data pat (keep=start fmtname label);
       set pat_uniq (rename=(patref=start)); *(keep=patref);
       fmtname='PATREF';
       label='retenir';
    run;

    Si plusieurs valeurs identiques pour la variable START sont présentes dans votre fichier, vous devrez supprimer les doublons. L’étape suivante ne marchera pas sinon.

    *proc sort data=pat nodupkey;
    *by start;
    *run;

    Le data set est à présent convertit en format au moyen de l’option CNTLIN. Ce format est sauvegardé par défaut dans le catalogue FORMATS de la bibliothèque WORK.

    proc format cntlin=pat;
    run;

    3. Sélectionner les observations de son choix

    Ici, l’option WHERE est privilégiée à l’instruction IF pour des raisons de performance.

    Ensuite, grâce à la fonction PUT, les valeurs de PATREF sont converties en RETENIR si elles sont présentes dans le data set PAT_UNIQ. Seules ces valeurs RETENIR sont gardées.

    data ae_multi;
       set ae_multi (where=(put(patref,patref.) = 'retenir'));
    run;

    Voir le résultat :

    proc print data=ae_multi;
    run;
    h1

    Renommer une variable (RENAME)

    octobre 14, 2008

    Pour renommer une variable SAS dispose d’une option RENAME applicable dans une étape data et dans une procédure. De plus, l’instruction RENAME de l’étape data et le mot-clé AS de la PROC SQL sont disponibles. Voici donc une présentation de ces différentes notations.

    La base des exemples :

    Pour illustrer le propos, le data set CLASS de la bibliothèque SASHELP aura deux variables à renommer : la variable NAME deviendra la variable NOM et la variable HEIGHT s’appellera TAILLE.

    Une observation seulement sera gardée : celle concernant ‘Barbara’. Selon que les variables sont renommées dans le fichier d’entrée ou le fichier de sortie, la variable NAME ou NOM sera utilisée pour définir la condition.

    Quel ordre ? : Qu’il s’agisse d’une option ou d’une instruction RENAME, il faut utiliser le signe égal (=) avec :

    • en premier, à gauche le nom actuel de la variable
    • en dernier, à droite le nouveau nom.

    Pour s’en souvenir, vous pouvez imaginer une forme de flèche. A=>B symbole alors variable A donne/devient variable B).

    1. Les options du data step en solitaire

    Après avoir donné le nom d’un data set dans une étape data ou dans une procédure comme PROC SORT ou PROC TRANSPOSE, il est possible de lister des options entre parenthèses parmi lesquelles on trouve RENAME. L’option s’applique donc au data set nommé juste avant.

    Dans une étape data, il est possible d’appliquer l’option RENAME sur les data sets à lire ou sur les data sets créés. Voici deux exemples avec des instructions SET. Cela marche aussi avec d’autres instructions nommant un data set comme MERGE.

    Dans ce premier exemple, les variables NAME et HEIGHT du data set d’entrée (SASHELP.CLASS) sont renommées. Une fois cela fait, SAS effectue les étapes suivantes à savoir garder les observations se référant à Barbara. C’est pour cela que la condition s’applique sur la variable NOM.

    data opt_in;
    set sashelp.class (rename=(name=nom height=taille));
    if nom=‘Barbara’ then output;
    run;

    Dans ce second exemple, l’option RENAME est appliquée sur le fichier de sortie. La condition est donc traitée par SAS avant que les variables soient renommées. Il faut désigner la variable avec son nom d’origine (NAME) dans la condition.

    data opt_out (rename=(name=nom height=taille));
    set sashelp.class;
    if name=‘Barbara’ then output;
    run;

    Les deux data sets OPT_IN et OPT_OUT donnent le même fichier final.

    nom Sex Age taille Weight

    Barbara F 13 65.3 98

    2. Les procédures

    De la même manière, l’option RENAME peut s’appliquer sur le fichier d’entrée (sauf PROC SQL) et de sortie d’une procédure. Voici deux exemples avec les procédures PROC SORT et PROC SQL.

    proc sort data=sashelp.class
    out=class (rename=(name=nom height=taille));
    by age;
    run;

    proc sql;
    create table opt_out (rename=(name=nom height=taille)) as
    select *
    from sashelp.class;
    quit;

    La procédure SQL dispose du mot-clé AS pour renommer une variable en particulier parmi celles énumérées.

    proc sql;
    create table sql_as as
    select name as nom, sex, age, height as taille, weight
    from sashelp.class;
    quit;

    3. L’instruction RENAME du data step

    Il existe une instruction RENAME s’appliquant uniquement à l’étape data. Il est important dans ce cas particulier de se rappeler que les variables sont renommées seulement une fois le data set final (INSTRUCT) créé. Le processus de SAS est donc le même qu’avec l’option sur le fichier OPT_OUT.

    data instruct;
    set sashelp.class;
    rename name=nom height=taille;
    if name=‘Barbara’ then output;
    run;

    4. L’option RENAME combinée avec d’autres options du data step

    L’option RENAME n’est qu’une des options du data set SAS. Parmi les autres options les plus courantes, citons KEEP, DROP, WHERE, FIRSTOBS et OBS.

    Dans ce dernier exemple, on pourra remarquer que l’option WHERE utilise la variable sur l’âge une fois celle-ci renommée. Tandis que l’option KEEP désigne la variable âge d’origine.

    data class;
    set sashelp.class (keep=age where=(_age=12) rename=(age=_age));
    run;

    h1

    Trier les données par ordre croissant et décroissant

    septembre 23, 2008

    Pour trier (to sort en anglais) les données d’un tableau SAS dans un ordre croissant ou décroissant, il existe sous SAS deux approches : la première consiste à faire appel à la procédure PROC SORT sur un data set existant, la seconde consiste à ordonner les données sélectionnées dans une procédure PROC SQL.

    1. L’exemple

    Dans l’exemple ci-dessous, les données du data set CLASS situé dans la bibliothèque SASHELP sont triées selon les valeurs des variables SEX, AGE et NAME.

    1. Variable SEX, ordre croissant : Les données de la variable SEX sont d’abord triées par ordre croissant (increasing order). Les femmes (F pour Female) apparaissent en premier, les hommes (M pour Male) apparaissent en second.
    2. Variable AGE, ordre décroissant : Dans chacun des groupes, les données sont ensuite triées par ordre décroissant d’âge (descreasing order). Les femmes les plus âgées apparaissent en premier et les hommes les plus jeunes en dernier.
    3. Variable NAME, ordre décroissant : Enfin quand plusieurs personnes du même sexe et du même âge appaissent, les données sont triées par ordre alphabétique inverse.

    2. Trier par ordre décroissant

    Deux mots-clés différents : Pour trier les données par ordre décroissant, chaque variable doit être accompagnée d’un mot-clé. Il s’agit de DESCENDING avec PROC SORT et DESC avec PROC SQL.

    Deux mot-clés situés à des endroits différents : Dans le cas de PROC SORT, ce mot DESCDENDING apparaît avant le nom de la variable. Dans le cas de la PROC SQL, DESC suit la variable

    3. La procédure PROC SORT

    Les data sets de la bibliothèque SASHELP sont des données figées par SAS. Elles ne peuvent donc pas être modifiées. C’est pourquoi dans l’exemple, un nouveau data set CLASS est créé dans la bibliothèque WORK grâce à OUT=.

    proc sort data=sashelp.class out=class;
    by sex descending age descending name;
    run;

    Un PROC PRINT suffira pour afficher les trois variables ou toutes les variables triées. NOOBS enlèvera le numéro des observations qui appraissent par défaut.

    proc print data=class noobs;
    *var sex age name;
    run;

    4. La procédure SQL

    proc sql;
    select sex, age, name
    from sashelp.class
    order by sex, age desc, name desc;
    quit;

    Rappel : Pour afficher toutes les variables remplacées la liste de SELECT par une étoile (*). Pour créer un data set, ajoutez CREATE TABLE class AS.

    5. Le résultat

    sex  age  name

    F   15   Mary
    F   15   Janet
    F   14   Judy
    F   14   Carol
    F   13   Barbara
    F   13   Alice
    F   12   Louise
    F   12   Jane
    F   11   Joyce
    M   16   Philip
    M   15   William
    M   15   Ronald
    M   14   Henry
    M   14   Alfred
    M   13   Jefrrey
    M   12   Robert
    M   12   John
    M   12   James
    M   11   Thomas

    h1

    Identifier et supprimer les doublons

    juillet 14, 2008

    Identifier et supprimer les doublons dans un data set fait partie des compétences de base du programmeur SAS. Trois approches sont envisageables : PROC SQL, PROC SORT et un compteur dans un data step.

    Qu’appelle-t-on doublon ? des lignes complètement identiques ou seulement des lignes ayant quelques variables communes ? Il est important de savoir si deux records ayant des observations communes sont considérés comme doublons ou s’il faut que toutes les observations soient identiques. Si seules quelques variables sont considérées, il faut savoir quelle ligne est conservée et lesquelles sont supprimées.

    Le data set utilisé pour l’exemple est composé de trois variables CNTRY (country), PAT_ID (patient ID) et VAL (value). Le patient 2 de Chine a trois lignes d’observations dont deux strictement identiques.

    cntry    pat_id    val

     CN        1        A
     CN        2        B
     CN        2        C
     CN        2        C
     HK        3        E 

    1. PROC SQL

    Avec la procédure SQL, il est possible de faire des calculs et de baser sa sélection d’observations sur ce calcul. En d’autres termes, il est possible de compter le nombre de fois qu’une valeur apparaît. Pour identifier les records avec doublons, on prend ceux comptés plus d’une fois.

    Première présentation : Voici, tout d’abord, une présentation de PROC SQL décomposable en deux étapes.

    proc sql;
       create table two (where=(cnt_pat > 1)) as
          select cntry, pat_id, val, count(*) as cnt_pat
          from one
          group by cntry, pat_id;
    quit;

    Dans un premier temps, une variable donne le nombre de records par patient dans un pays donné (CNT_PAT) grâce à la syntaxe GROUP BY et la fonction COUNT. A ce stade, on obtient le data set suivant :

    cntry pat_id val cnt_pat

      CN     1    A     1
      CN     2    C     3
      CN     2    B     3
      CN     2    C     3
      HK     3    E     1

    Dans un second temps, seules les observations ayant des doublons sont gardées, une fois le nouveau data set créé, grâce à l’option WHERE=.

    Deuxième présentation : Au lieu de créer la variable CNT_PAT et de faire une sélection ultérieure, la fonction COUNT peut être  ajoutée dans une condition introduite par le mot HAVING et faisant toujours appel à la fonction COUNT.

    Pour ne voir qu’une des lignes multiples, il suffit d’ajouter DISTINCT.

    proc sql;
       create table two_bis as
       select /*distinct*/ cntry, pat_id, val
       from one
       group by cntry, pat_id
       having count(*) > 1;
    quit;

    A l’inverse, pour ne sélectionner que les observations n’apparaissant qu’une fois, « >1 » sera remplacé par « =1 ». Seules les observations ayant exactement une occurrence sont sélectionnées.

    Le DISTINCT s’applique à l’intégralité des observations. Cela permet de ne garder que des lignes uniques.

    Il n’est pas possible de garder la première ligne parmi les doublons définis par des variables précises (CNTRY et PAT_ID dans l’exemple) avec cette méthode.

    2. Les options de la procédure PROC SORT (NODUP/NODUPRECS, NODUPKEY)

    Il existe deux options dans la procédure PROC SORT pour supprimer les doublons selon qu’ils s’appliquent

    • à toute une ligne d’observation (NODUPRECS dont l’alias est NODUP) ou
    • à une liste de variables précises données dans l’instruction BY (NODUPKEY).

    Au choix, le nouveau data set sans doublons remplace l’ancien ou est sauvegardé dans un dataset différent introduit par OUT=.

    Les observations ayant été exclues peuvent être sauvegardées dans un nouveau data set dont le nom est défini par DUPOUT=.

    proc sort data=one out=three nodupkey dupout=three_bis;
       by cntry pat_id;
    run;

    proc sort data=one out=four noduprecs /*nodup*/ dupout=four_bis;
       by cntry pat_id;
    run;

    3. Appliquer une variable compteur

    Enfin, après PROC SQL et PROC SORT, une troisième possibilité pour identifier et supprimer les doublons, est d’ajouter une variable compteur.

    Dans l’exemple ci-dessous, la variable compteur est nommée CNT. Pour la première observation d’un patient d’un pays donné, le compteur est initialisé à 1. Pour chaque nouveau record du patient, le compteur est incrémenté de 1. Quand la variable CNT est égale à 1, le record est ajouté dans le data set FIVE. Sinon il est ajouté dans le data set FIVE_BIS. A la fin, la variable compteur est supprimée.

    Ainsi le data set FIVE contient les records sans doublons. Dans le cas du patient doublonné (patient 2), c’est la première observation qui est conservée.

    Dans le data set FIVE_BIS, les records exclus de la première sélection sont conservés.

    data five (drop=cnt) five_bis (drop=cnt);
       set one;
       by cntry pat_id val;
       if first.pat_id then cnt=1;
       else cnt+1;
       if cnt = 1 then output five;
       else output five_bis;
    run;

    Annexe :

    data one;
       input cntry $ pat_id $ val $;
       datalines;
    CN 1 A
    CN 2 B
    CN 2 C
    CN 2 C
    HK 3 E
    ;
    run;