Comment supprimer les caractères non désirés

Estimation du temps de lecture : 2 procès-verbal

Supprimer l'indésirable, c'est vous retarder.
Vous êtes dans une situation où vous disposez d'informations contenant des données erronées, que faites-vous ?

Les problèmes liés aux données sont un scénario commun auquel sont confrontés de nombreux professionnels de l'analyse des données et l'industrie dans son ensemble. La qualité des données est aujourd'hui devenue plus critique, en particulier à mesure que nous mettons en ligne davantage de processus et que le paysage numérique s'agrandit.

La plupart des données passent par un processus de transfert entre systèmes pour être utilisées ou les rapports reposent sur leur exactitude. Si les données dans le système source présentent des problèmes de qualité, le problème, s'il n'est pas résolu avant d'aller ailleurs, peut alors pousser les problèmes de qualité des données plus loin dans une organisation, comme une toile d'araignée qu'elle étend encore.

L'étape suivante, qui consiste à chercher à résoudre le problème et à le planifier.

Pour lutter contre ce problème, les professionnels doivent également élaborer un plan sur la manière de s'y attaquer :

  • Correction à la source
  • Saisissez les données avant de les transmettre et examinez les problèmes.
  •  Rejeter le dossier ou une partie de celui-ci.

Les trois options ci-dessus sont entourées de scénarios avec leurs coûts et leurs implications. Selon le secteur, vous devez choisir la manière la plus appropriée de les traiter. À titre d'exemple, dans le secteur bancaire, les fichiers de paiement peuvent parfois contenir des données qui sont rejetées en tout ou en partie.

Mais la banque peut décider de ne rejeter que les enregistrements contenant des données erronées et de traiter tout le reste.

Comment s'y prendre et comment les expressions régulières peuvent aider

Dans cette vidéo, nous cherchons à passer en revue un exemple de nettoyage d'un ensemble de données ;

(A) Nous utilisons une liste pour vérifier les problèmes que nous devons trouver.

(B) Utiliser à nouveau les fonctions pour traiter les données afin de trouver le problème et de les extraire.

(C) Les expressions régulières apparaissent également lorsqu'elles cherchent à trouver les caractères spéciaux dans l'ensemble de données.

Le concept d'expressions régulières est largement utilisé dans plusieurs langages de programmation ; c'est un bon moyen de tester les données et de trouver des valeurs erronées. Si vous pensez à l'apprentissage machine, il est très important d'acquérir une connaissance plus approfondie de leur fonctionnement. Voici un bon lien pour une lecture plus approfondie si vous avez besoin de plus d'informations Expression régulière comment

Merci d'avoir regardé et si vous le souhaitez, vous pouvez partager et vous inscrire en utilisant les boutons de cette page !

Data Analytics Irlande

cacher une colonne d'un cadre de données

Estimation du temps de lecture : 2 procès-verbal

On dit qu'il n'y a nulle part où se cacher, nous ne sommes pas d'accord !
En complément de Comment ajouter une colonne à une trame de données, vous souhaitez apprendre à aller la cacher ! Cette vidéo comporte plusieurs étapes ; chacune d'entre elles est suivie d'une bonne introduction.

Pour commencer, pourquoi voulez-vous cacher une colonne ?

  • Vous ne voudrez peut-être pas révéler ses résultats, car il s'agit d'informations sensibles.
  • Les données dans la colonne ne sont pas dans le bon format, vous voudrez les réutiliser, donc c'est comme vous le voulez.
  •  La colonne pourrait être une colonne calculée. Elle sert donc d'étape intermédiaire avant la sortie de votre cadre de données.

Trouver le meilleur moyen de cacher les données indésirables :

Dans cette vidéo, nous introduisons plusieurs concepts pour aider à ne pas montrer une colonne :

  • Indiquez les colonnes que vous souhaitez inclure dans le cadre de données, par défaut, vous excluez la ou les colonnes que vous ne souhaitez pas voir.
  •  Nous utilisons le drop, pour indiquer explicitement au cadre de données de ne pas afficher une colonne particulière.
  •  De plus, nous affichons un scénario dans lequel vous avez une colonne calculée mais ne voulez pas montrer son résultat, pour l'une des raisons exposées ci-dessus.
  • Enfin, l'index de la colonne peut apparaître dans la sortie, nous avons donc montré à travers set_index comment le cacher de ce qui est affiché.

Cette dernière édition de la série Python Dataframe s'appuie sur les connaissances des exemples précédents. Nous espérons que l'apprentissage de Python en ligne vous permettra d'améliorer vos compétences en programmation.

Merci de nous regarder et n'oubliez pas d'aimer et de partager grâce à nos boutons de médias sociaux à droite de cette page.

Data Analytics Irlande