Probabilité de base: probabilité conjointe, marginale et conditionnelle | Indépendance.

Publié: 06-02-2020

Cet article présentera les bases de la probabilité liées aux variables catégorielles (comme le type oui/non).

Imaginez Netflix a fait une enquête auprès de 500 abonnés pour déterminer les films préférés des gens. Ces personnes sont classées en deux catégories, les jeunes et les adultes. Trois films ont été considérés: le film A, le film B et autre. Les résultats de cette enquête sont présentés dans le tableau ci-dessous:

Jeune Adulte TOTAL
Film A 80 120
Film B 100 25
Autre 50 125
TOTAL 500

Par exemple, nous pouvons voir que 100 personnes sur 125 qui aiment le film B sont jeunes. Il semble que le film B attire plus de jeunes que d'adultes.

Que sont les événements conjoints?

Chacune des cases au milieu du tableau (colorée en bleu) est appelée événement conjoint. La raison pour laquelle ils sont appelés événements conjoints est qu'ils dépendent des classes de deux variables différentes. Par exemple, chaque case dépend de deux variables: la catégorie à laquelle appartient une personne (jeune / adulte) et le film.

Si nous complétons la colonne de droite et la dernière ligne, nous obtenons le tableau ci-dessous. Mais notez que jusqu'à présent, nous n'avons pas encore de distribution de probabilité. La somme de toutes les cases bleues doit être 500. La somme des cases vertes verticales à droite doit être 500 et la somme de toutes les cases vertes horizontales dans la dernière ligne doit être 500.

Jeune Adulte TOTAL
Film A 80 120 200
Film B 100 25 125
Autre 50 125 175
TOTAL 230 270 500

Afin d'obtenir une distribution de probabilité, nous divisons les nombres du tableau ci-dessus par 500 (nombre total d'abonnés). Le tableau ci-dessous montre la distribution de probabilité.

Jeune Adulte TOTAL
Film A 0.16 0.24 0.4
Film B 0.2 0.05 0.25
Autre 0.1 0.25 0.35
TOTAL 0.46 0.54 1

Par exemple, la case bleue qui contient 0,24 est appelée une probabilité conjointe. Il représente la probabilité d'un événement où la personne est adulte ET l'événement où le film est le film A.

$$ P(Adulte \; ET \; Film \; A) = 0.24 $$ $$ P(Adulte \cap Film \; A) = 0.24 $$

Les six cases en bleu sont des probabilités conjointes et leur somme est 1. $$ P(Adulte \cap Film \; A) + P(Adulte \cap Film \; B) + P(Adulte \cap autre) + P(Jeune \cap Film \; A) + P(Jeune \cap Film \; B) + P(Jeune \cap autre) =1 $$

Probabilité marginale

Les cases en vert dans le tableau de distribution des probabilités sont appelées probabilités marginales, car elles se trouvent en marge du tableau.

Par exemple, la probabilité que quelqu'un aime le film A est de 0.4. $$ P(film \; A)=0.4 $$ La probabilité d'être jeune est de 0.46. $$ P(jeune)=0.46 $$

Les colonnes surlignées en rouge dans la figure ci-dessous représentent la distribution de probabilité marginale. La somme des cases de chaque colonne est égale à 1.


Quelle est la probabilité qu'un abonné Netflix soit jeune?

C'est la probabilité marginale de la colonne jeune. $$ P(jeune)=0.46 $$

Quelle est la probabilité qu'un abonné Netflix préfère le film B?

C'est la probabilité marginale de film B. $$ P(film \; B)=0.25 $$

Quelle est la probabilité qu'un abonné Netflix soit adulte ET préfère le film B?

$$ P(film \; B \cap Adulte)=0.05 $$

Quelle est la probabilité qu'un abonné Netflix soit jeune OU préfère le film B?

Ce n'est pas une intersection (probabilité conjointe) comme la question ci-dessus. Pour trouver la réponse, nous devons additionner toutes les probabilités conjointes où cette condition est remplie. Il s'agit de l'union de deux événements. $$ P(film \; B \cup Jeune)=0.16 + 0.2 + 0.1 + 0.05=0.51 $$ Assurez-vous de mettre 0.2 seulement une fois dans la somme


L'union entre deux événements peut être calculée à l'aide de cette formule: $$ P(A \cup B) = P(A) + P(B) - P(A \cap B) $$ $$ P(film \; B \cup Jeune)= P(film \; B) + P(jeune) - P(film \; B \cap Jeune) = 0.46 + 0.25 - 0.2 = 0.51 $$

Probabilite conditionnelle

Johny, un étudiant de 16 ans vient de s'abonner à Netflix, quelle est la chance que son film préféré soit le film A?

La question ci-dessus contient une condition et peut être formulée comme suit: $$ P(A|B) = \frac{P(A \cap B)}{P(B)} \\ P(Aimer \; le \; film A \; | \; La \; personne \; est \; jeune) = \frac{P(film \; A \; ET \; jeune)}{P(jeune)} $$ La probabilité d'un événement A étant donné l'événement B est l'intersection des deux événements divisée par la probabilité de la condition.


$$ P(film \; A | jeune) = \frac{0.16}{0.46}=0.347 $$

Nous pouvons calculer la distribution de probabilité conditionnelle de préférer certains films étant donné que la personne est jeune/adulte et l'ajouter au tableau comme indiqué ci-dessous:

Jeune P(Film | Jeune) Adulte P(Film | Adulte) TOTAL
Film A 0.16 0.347 0.24 0.444 0.4
Film B 0.2 0.434 0.05 0.093 0.25
Autre 0.1 0.217 0.25 0.463 0.35
TOTAL 0.46 1 0.54 1 1
distribution de probabilité
conditionnelle
distribution de probabilité
conditionnelle
Distribution de probabilité
marginale

Notez que la somme des probabilités conditionnelles pour chaque condition est égale à 1.

Nous pouvons maintenant comparer la distribution de probabilité conditionnelle avec la distribution de probabilité marginale. Par exemple, nous pouvons voir que si nous ne tenons pas compte de l'âge, 40% des gens aiment le film A, 25% comme le film B et 35% aiment les autres films. Lorsque nous tenons compte de l'âge, cela change un peu. Pour les adultes par exemple, ils sont plus susceptibles d'aimer le film A que la population générale (probabilité marginale), moins susceptibles d'aimer le film B que la population générale (0.093 < 0.25), un peu plus susceptibles d'aimer d'autres films que la population générale.

Étant donné qu'un abonné aime le film B le plus, quelle est la probabilité qu'il soit jeune?

$$ probabilite \; conditionnelle = \frac{probabilité \; conjointe}{probabilité \; marginale} $$ $$ P(jeune | film \; B) = \frac{P(jeune \cap film \; B)}{P(film \; B)} = \frac{0.2}{0.25} = 0.80 $$

Indépendance entre les variables

Maintenant, nous voulons tester si les variables âge et film sont indépendantes. Si les événements A et B sont indépendants, ce qui suit est vrai: $$ P(A|B) = P(A) \\ P(film \; B | adulte) = P(film \; B) $$

Mais nous savons que ce n'est pas le cas dans notre exemple puisque: $$ P(film \; B | adulte) = \frac{0.05}{0.54} = 0.093 \\ P(film \; B) = 0.25 $$ Les deux variables sont donc dépendantes (une variable influence l'autre).


Si deux variables sont indépendantes, nous avons: $$ P(A \cap B) = P(A) \times P(B) $$

Imaginez que j'ai un dé dans une main et une pièce dans l'autre main. Quelle est la probabilité de lancer un dé et d'obtenir 6 et de lancer la pièce et d'obtenir Face? $$ P(obtenir \; 6 \; \cap \; FACE) = P(obtenir \; 6) \times P(FACE) = \frac{1}{6} \times \frac{1}{2} = \frac{1}{12} $$ La seule raison pour laquelle nous avons pu calculer cette probabilité comme indiqué ci-dessus est parce que nous savons que les deux événements sont indépendants. Lancer un dé n'influence pas le fait de lancer la pièce.

Si nous revenons à notre problème principal, nous savons que les événements sont dépendants, donc: $$ P(A \cap B) \neq P(A) \times P(B) $$

$$ P(film \; B \cap adulte) = 0.05 \\ P(film \; B) \times P(adulte) = 0.25 \times 0.54 = 0.14 \neq P(film \; B \cap adulte) $$

La probabilité est un domaine important à apprendre pour bien comprendre les algorithmes d'apprentissage automatique. Notez que l'étude des probabilités n'est pas obligatoire pour pratiquer l'apprentissage automatique, mais quand il s'agit d'approfondir dans le fonctionnement des techniques, il devient crucial de comprendre la probabilité. La probabilité est un domaine des mathématiques qui quantifie l'incertitude. De nombreux algorithmes d'apprentissage automatique sont conçus à l'aide des outils et des techniques de probabilité, tels que Naive Bayes et les modèles graphiques probabilistes. Le framework de vraisemblance maximale (maximum-likelihood) qui sous-tend la formation de nombreux algorithmes d'apprentissage automatique provient du domaine des probabilités.