Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’assistance de precisions OkCupid)

Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’assistance de precisions OkCupid)

Quelques astuces simples mais utiles que vous ne connaissiez probablement jamais

Correctement que le moyen le plus simple de coder une table de frequences Afin de votre objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() technique, le resultat de cette operation parait plutot basique. Nous pouvons le rendre plus informatif en ajustant des parametres booleens en technique normalize , sort , ascending , ainsi, dropna , ou en regroupant les valeurs (si elles sont numeriques) dans des bacs. Cependant, les laternatives ici paraissent assez limitees, donc pour ameliorer visuellement la table de frequences resultante, nous pouvons envisager quelques astuces simples mais utiles, telles que le chainage de methodes, la personnalisation du post, l’ajout du % symbole a chaque valeur de frequence et l’utilisation de la puissance de jolie- impression.

Dans cet article, nous allons experimenter un ensemble de donnees Kaggle contenant des informations sur l’age, le sexe, l’emplacement, l’education, etc., Afin de 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour les besoins, cependant, nous n’utiliserons que les precisions i  propos des statuts des utilisateurs.

1. Enchainement des methodes

Pour commencer, creons un tableau de frequence d’origine Afin de nos statuts des utilisateurs :

( Note : ci-apres, nous allons laisser l’ensemble des autres parametres d’la value_counts() technique avec defaut, cela signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour nos besoins, utiliser ou non ces parametres ne quelle que soit.)

Sans connaitre le contexte, a partir du tableau ci-dessus, il est en mesure de ne point etre net que des nombres constituent des pourcentages et non des frequences absolues. Ajoutons 1 titre au tableau avec le formatage f-string :

Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une option de contournement consiste a creer une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, puis a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :

Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour i§a, nous allons utiliser la to_markdown() methode pandas qui necessite l’installation (pas toujours l’import) du module tabulate ( pip install tabulate ).

Important : Afin de afficher convenablement les resultats, la to_markdown() methode doit etre utilisee seulement a l’interieur de la print() commande.

Montrons a nouveau la table de frequence d’etat de l’utilisateur appelee s_with_pct_symb , cette fois comme une vraie table, avec la syntaxe d’origine de to_markdown() . Comme precedemment, nous allons ajouter votre titre en fourchus et appliquer le formatage f-string. Par souci de coherence, nous affecterons ci-apres la table de frequence a afficher a une variable appelee S ” :

Jouons au milieu des parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et pourra avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. Par exemple, le format de tableau que nous avons vu plus haut s’appelle pipe , celui par defaut concernant les to_markdown() pandas technique. Curieux que pour le package tabulate lui-meme, le format de tableau via defaut est simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des informations de chaine via defaut (qui est left ). Les alternatives possibles ici sont right et center .

Attention : le floatfmt parametre ne fonctionne jamais en combinaison avec le format du tableau pretty .

Plats a emporter confortables

Bien que l’ensemble de la procedure jamais a pas ci-dessus ait necessite de nombreuses iterations et descriptions, nous trouverons ci-dessous les solutions de code finales pour 4 versions differentes de notre tableau des frequences pour profiles[‘status’] , tout cela en % :

  • 2 tableaux simples avec/sans le % symbole,
  • 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.

Dans Ce texte, nous avons discute de divers approches simples mais puissantes pour ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont l’ensemble de votre value_counts() technique des pandas comme facteur central, mais tous vont au-dela et aboutissent a des representations plus percutantes. En plus, chacune des solutions proposees, dans sa forme definitive, necessite au maximum 3 lignes de code.

J’espere que vous avez apprecie la lecture de mon article et que vous l’avez trouve utile. Merci d’avoir lu a tout le monde, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????

Vous pourrez trouver interessant aussi ces articles :

Leave a Reply

Your email address will not be published. Required fields are marked *