ANALYSE FINANCIERE  © John Petroff Traduction: Françoise BRUNELLE, SAMIA MALLAH Source: PEOI
No rated * * * * * Resize -A   +A

 


Chapitre 5 E- Analyse de régression

Sensibilité, Elasticité et Analyse de régression

La performance de l'entreprise est dictée par les conditions économiques et la situation du marché. En conséquence, beaucoup de séries de données comptables sont reliées aux événements ou aux tendances extérieurs. Ceci est vrai spécialement pour le revenu des ventes qui dépend du nombre de clients et de leur capacité d'achat (c.-à-d. du pouvoir d'achat, en d'autres termes, du revenu disponible). Les facteurs de dépenses, tels que le coût énergetique, le prix des matières premières, la disponibilité de main-d'oeuvre sont également affectés par les circonstances économiques. Dans cette approche analytique, le contrôle direct des événements par les décisions des managers n'est pas pris en compte. Il s'agit d'examiner si une variable comptable est sensible à une variable extérieure. L'établissement d'une corrélation entre une série de données comptables et une/des variable(s) extérieure(s) peut être très instructif. Le lien de causalité n'est pas habituellement testé et serait très difficile à établir. Le simple fait de savoir qu'une valeur comptable change en même temps qu'une tendance économique, est utile en soi. Il est possible que la corrélation existe parce que les managers prennent leurs décisions à la lumière des changements récents de la variable extérieure. La connaissance d'une corrélation avec une variable extérieure peut être plus tard combinée avec des informations sur la stratégie des managers ou sur des événements internes révélés par des ratios. On trouvera une démonstration de la façon d'utiliser les procédures mathématiques décrites ci-dessous dans la section E-2 du chapitre 9 et dans la section E du chapitre 14

Nous pouvons determiner si deux séries de nombres croissent ou décroissent ensemble (ou en direction opposée ) en utilisant tout simplement un graphique, un diagramme d'éparpillement ou un historigramme. Mais ceci est très imprécis. Une analyse de sensibilité est mieux réalisée avec des méthodes statistiques qui appartiennent à l'économétrie, ou plus généralement par inférence statistique. Une analyse de régression est la procédure qui teste la présence d'une corrélation entre des variables. Il est évidemment préférable d'avoir autant d'observations empiriques que possible : pour une équation avec une variable exogène (ou indépendante), une régression peut donner de mauvais résultats avec quelques observations seulement, disons moins de six, et des résultats sans signification avec moins de quatre observations. Les résultats doivent montrer si les équations estimées sont capables de produire des valeurs estimées de la variable endogène (c.-à-d. la variable que nous voulons expliquer) qui soient très proches des observations réelles, ou non. En d'autres termes, la qualité de la corrélation dépend de la plus ou moins grande taille des erreurs entre les valeurs estimées et réelles.

Il peut y avoir n'importe quel nombre de variables dans l'équation, mais le nombre de variables doit être plus petit que le nombre d'observations (moins une). Avoir deux ou plusieurs variables exogènes peut poser un certain nombre de problèmes d'évaluation statistique. L'autocorrélation est le problème principal de ce procédé ; nous allons brièvement expliquer ci-dessous comment l'identifier et le traiter.

Une explication mathématique complète de la dérivation estimée par régression ne fait pas partie des objectifs de ce texte. Un aperçu de la dérivation des évaluations qui en est le fondement est présenté dans l'annexe A et les formules principales sont présentées ci-dessous. Dans la pratique, il y a beaucoup de progiciels qui exigent seulement d'entrer les données et d'interpéter les résultats. Des liens vers un grand choix de ces progiciels de régression, d'excellents manuels de référence d'économétrie et de nombreux articles peuvent être trouvés sur le site de The Econometrics Journal à l'adresse http://www.econ.vu.nl/econometriclinks/ .


Le calcul peut également être fait avec une calculatrice ou n'importe quel tableur. Un exemple de tableur de régression est présent dans le Tableau T-5.28 présenté en annexe. On peut vérifier que toutes les formules correspondent à la rigueur mathématique, et on peut copier et utiliser regs.xls dans son propre tableur. Les valeurs pour x, y et n peuvent être remplacées à volonté. Pour obtenir des résultats corrects, il faut copier/coller les formules pour autant de colonnes qu' il y a d'observations, et changer la valeur de n. Quelqu'un de très courageux peut même recalculer toutes les formules pour plus d'une variable exogène. Ce qui suit se rapporte à l'exemple détaillé en annexe pour illustrer comment interpréter les résultats de régression.

Voir les questions de révision de Q-5E.1 à Q-5E.4

1) - Les moindres carrés ordinaires (OLS)

Disons que nous voulons examiner si les ventes y, la variable endogène, peuvent être expliquées par le revenu disponible x, la variable exogène. Le rapport examiné est

y t = a + bx t + e t

où a = limite constante
b = coefficient de corrélation
e = limite d'erreur
t = temps

pour toutes les observations y et x de t = 1 à t = n

La régression calcule les coefficients a et b pour le minimum de la somme des carrées des limites d'erreur estimées e. En d'autres termes, limite d'erreur (ou les résiduels) e t sont

e t = y t - a * - b*x t

où a * et b * sont les évaluations des coefficients a et b pour lesquels la somme(e t 2) est minimum. On peut observer la technique de la régression dans le graphique G-5.1 de l'exemple ci-dessous, où la ligne estimée ou la ligne adaptée est telle que la distance verticale (ou la déviation) de la ligne adaptée à chaque observation est aussi petite que possible. Notez que la somme des limites d'erreur ou des déviations est nulle parce que les déviations positives éliminent les déviations négatives. C'est pourquoi c'est la somme de limites carrées d'erreur qui doit être réduite au minimum. Une somme nulle de déviations est une des conditions nécessaires pour obtenir les évaluations fiables a * et b *.

Les valeurs de b * le coefficient estimé est donné par

b * =Somme(d(y i)d(xi)) / somme(d(x i) 2 )

où d(x i) = x i - E(x)
d(yi) = y i - E(y)
E(x) = somme(x i )/n
E(y) =somme(yi )/n

Et la valeur de a * l'évaluation du coefficient est donnée par

a * = E(y) - b*E(x)

Pour déterminer s' il y a une corrélation significative entre y et x, on doit regarder les écarts type des coefficients estimés (montrés dans le Tableau T-5.28 en tant que Sb et SA) et les comparer avec les valeurs des coefficients estimés b * et a *. Un des principes de base dit que l'écart type devrait être plus petit que l'évaluation de coefficient. Une évaluation plus rigoureuse est conduite avec la statistique de t obtenue en divisant l'évaluation de coefficient par l'écart type

t b = b* / s b

Les Tableaux des valeurs de statistique de t apparaissent dans la plupart des manuels d'économétrie et sont arrangés par le niveau d'importance et les degrés de liberté. Les degrés de liberté sont calculés en tant que nombre d'observations moins le nombre de variables. Le niveau d'importance indique la probabilité de faire une erreur en croyant que la valeur vraie du coefficient n'est pas zéro. Plus le niveau d'importance est élevé plus nous pouvons être confiants d'avoir trouvé une corrélation réelle, mais également la valeur nécessaire de la statistique de t est plus elevée. En outre, moins de degrés de liberté il y a, plus est haute la valeur exigée de la statistique de t. Ceci confirme que pour examiner une corrélation il vaut mieux avoir un grand nombre d'observations.

En général, la corrélation d'intérêt est indiquée par un coefficient signicatif de la corrélation, qui est le coefficient de b. Le coefficient a, qui est connu comme l'interception ou limite constante, est habituellement moins important. Seulement dans des cas rares où une valeur minimum estimée de y est nécessaire, le coefficient a est étudié avec soin. Une méthode pour juger la fiabilité des deux évaluations en même temps est de regarder la statistique connue sous le nom de coefficient de détermination, ou R 2 qui est calculée comme suit

R 2 = 1 - SSR/TD

où SSR = somme des résiduels carrés(c.-à-d. limites d'erreur)
TD = somme de déviations carrées (c.-à-d. distance verticale des valeurs de y à la ligne adaptée dans le graphique G-5.1)

La valeur maximum de R 2 est 1 et le minimum est zéro. D'une façon générale, les valeurs R2 moins de .50 montrent que la corrélation n'est pas très forte. Cependant, en sciences sociales, des valeurs de R2 aussi basses que .25 sont parfois acceptées comme indication qu'une certaine corrélation existe.

Pour l'exemple suivant de l'analyse de régression, les revenus des lignes aériennes de Delta sont employés et examinés pour cercher une corrélation avec le PIB des USA de 1987 à 1999. Le tableau T-5.1 ci-dessous présente les données, en dessous, le graphique G-5.1 donne une illustration de la relation et le Tableau T-5.2 donne les résultats d'une régression d'OLS. La dérivation des résultats est longuement décrite et clarifiée dans la section 2 de l'annexe 5A

Tableau T-5.1

Revenus des lignes aériennes de Delta et PIB des USA
années Revenus de Delta (en millions de $) PIB des USA (en milliards de $)
1987 5318 4742,5
1988 6915 5108,3
1989 8039 5489,1
1990 8683 5803,2
1991 9171 5986,2
1992 10837 6318,9
1993 11657 6642,3
1994 12077 7054,3
1995 12194 7400,3
1996 12455 7813,2
1997 13594 8300,8
1998 14138 8759,9
1999 14711 9256,1
Source: Rapports annuels des lignes aériennes de Delta 1999 et antérieur, et abstrait statistique des Etats-Unis 2000.

Graphique G-5.1

Corrélation entre le revenu des lignes aériennes de Delta et le PIB des Etats-Unis.

Tableau T-5.2

Évaluations de coefficient d'équation: (revenu) = a + b (PIB)

a *

s a

t a

b *

s b

t b

R 2

-2707

1089,6

-2,48

1,97

0,16

12,59

0,93

Les résultats de la régression montrent une relation indéniable entre les revenus des lignes aériennes de Delta et le PIB. Ceci n'est pas surprenant puisque les lignes aériennes sont très sensibles à la confiance du consommateur qui est étroitement liée à la prospérité économique.

Les moindres carrés ordinaires de régression donnent des résultats acceptables dans la plupart des analyses de sensibilité avec une, deux ou trois variables exogènes. L'évaluation des coefficients estimés de plusieurs variables exogènes est effectuée exactement comme à une seule variable. Mais, avec l'introduction de chaque variable additionnelle, il y a plus de chances que des problèmes puissent déformer les résultats et nous faire croire qu'une corrélation est présente là où elle ne l'est pas, ou de temps en temps, au contraire, donner incorrectement des résultats faibles. La méthode de régression discutée jusqu'ici est connue comme des moindres carrés ordinaires pour la distinguer de plusieurs techniques plus complexes qui sont nécessaires quand les problèmes d'évaluation surgissent et qui seront brièvement évoquées ci-après.

Voir les questions de révision de Q-5E1.1 à Q-5E1.4 .

Voir le travail de recherche R-5.4

2) - Des méthodes de régression plus complexes qu'OLS

Techniquement parlant, la présence de problèmes signifie qu'une ou plusieurs des conditions pour obtenir les meilleurs estimateurs impartiaux linéaires (BLEUS) des coefficients est violée, et les moindres carrés ordinaires ne doivent pas être employés. Une des conditions (c.-à-d. que la somme de résiduels soit nulle) a été citée précédemment, une autre condition est que les résiduels soient indépendants les uns des autres (c.-à-d. non-corrélés). Une discussion complète des conditions pour obtenir des évaluations BLEUES de coefficient est au delà de la portée de ce manuel, et peut être trouvée dans n'importe quel manuel d'économétrie. Mais un analyste doit se rendre compte des problèmes qui peuvent surgir pour ne pas se fonder sur des résultats défectueux. En outre, les suggestions indiqueront quels remèdes sont disponibles si des problèmes se présentent.

Les problèmes rencontrés dans les régressions peuvent être les suivants
- les grandeurs des variables ne sont pas comparables (par exemple, comparer la consommation de nourriture aux poids d'éléphants et de fourmis); ceci s'appelle l'heteroscedasticité et exige des investigations séparées sur les variables impliquées.
- quand deux des variables sont parfaitement corrélées (par exemple l'efficacité de la consommation automobile est comparée à des distances parcourues exprimées en miles et à des distances parcourues exprimées en kilomètres); il est évident qu'on doit éliminer une des variables superflues, mais la détection de deux variables parfaitement corrélées n'est pas toujours évidente, ce problème est connu en tant que multicollinearité.
- quand une variable ou la limite d'erreur n'est pas indépendante de ses propres valeurs des années antérieures ceci s'appelle l'autocorrélation et est le plus ennuyeux.

Il y a également des problèmes pour indiquer l'équation à estimer. Si la variable qui affecte la variable endogène le plus est omise, ceci amènera la fonction à avoir des variables mal identifiées : les résultats ne seront pas fiables. Un problème quelque peu semblable résulte du choix de la variable endogène. Prenez par exemple le cas de la demande des consommateurs. La quantité achetée augmente-t-elle parce que les vendeurs baissent les prix, ou les prix sont-ils baissées par les vendeurs parce que les acheteurs achètent de plus grandes quantités? La plupart des gens répondraient : les deux probablement. Ceci importerait peu si seules ces deux variables sont employées. Mais, si nous incluons des conditions de crédit, alors une seule fonction est appropriée (c.-à-d. la décision des acheteurs sur la quantité à acheter est déterminée par le prix et les conditions de crédit) l'autre est mal specifiée (c.-à-d. le prix du vendeur est déterminé par la quantité achetée, ainsi que par les conditions de crédit dans une certaine mesure, mais mettre les deux ensemble revient à mélanger des chiens et des chats).

Les problèmes proviennent également des données empiriques utilisées. Un problème typique de données est qu'une observation est totalement hors de l'ordinaire (peut-être à cause d'une catastrophe); une telle observation est considérée comme une aberration ou une perturbation, et est habituellement enlevée de la série ou remplacée. Il est courant que l'ensemble de données ait des observations qui manquent (ce que les chercheurs acceptent afin d'avoir autant de degrés de liberté que possible parce qu'on rappellera que c'est nécessaire pour obtenir des résultats fiables). Si les données absentes ne peuvent pas être remplacées, il peut alors être nécessaire de faire courir des régressions sur des ensembles séparés de données. Les données peuvent en fait suggérer qu'il n'y a pas une seule tendance linéaire, mais plusieurs séparées ou une tendance non-linéaire. La régression est encore possible dans ces cas, comme on le montrera plus tard.

L'autocorrélation est de loin le problème le plus commun et probablement le plus sérieux, parce que la plupart des variables financières et économiques sont déterminées par ce qui a eu lieu dans le passé et ne sont pas donc indépendantes des années antérieures. Il n'est tout simplement pas possible de l'éviter de la même manière qu'il est possible d'éviter d'autres problèmes. Le résultat est que les évaluations d'OLS sont décentrées (c.-à-d. incorrectes). Heureusement, il y a une méthode pour détecter une autocorrélation, et plusieurs techniques pour la surmonter. L'autocorrélation est détectée avec la statistique de Durbin-Watson présentée en annexe. Il y a plusieurs techniques de régression pour traiter l'autocorrélation. Les voici
- les moindres carrés généralisés où des séries de données sont transformées en enlevant la première corrélation d'ordre entre les observations successives des variables.
- les moindres carrés à deux étapes, où la variable qui cause l'autocorrélation est purgée de l'autocorrélation en lui substituant une variable instrumentale.
- les moindres carrés à trois étapes, qui purgent bien plus d'autocorrélation que les moindres carrés à deux étapes.
- l'estimation d'un maximum de vraisemblance avec l'information totale.
La plupart des logiciels de régression disposent de ces procédures. Un analyste doit savoir quand les utiliser, comme il est mentionné plus haut, en regardant la statistique de Durbin Watson.

Voir la question de révision Q-5E2.1

Voir les travaux de recherche R-5.5 et R-5.6

3) - Modèles non linéaires

Il y a beaucoup d'exemples où on ne peut pas théoriquement assumer qu'une relation linéaire est présente, ou simplement ne représente pas le modèle observable des données dans un graphique. La régression des moindres carrés ordinaires (ou une des procédures plus complexes mentionnées ci-dessus si une autocorrélation est détectée) est encore possible après la transformation des données de la /des variable(s). La relation étudiée peut être indiquée après que la (les) variable(s) exogène(s) ait (aient) été transformée(s) en étant
- augmentée(s) à une certaine puissance,
- une fonction logarithmique,
- une relation exponentielle ou fractionnellle,
- différenciée (c.-à-d. changée de valeur d'une année à l'autre),
- un modèle de décalage,
- ou une combinaison de ces méthodes.
Après obtention des évaluations linéaires des données transformées, les coefficients sont recalculés pour permettre à la ligne adaptée d'être appliquée aux données originales.

Quand il est nécessaire de postuler que les coefficients ne sont pas linéaires, alors une des procédures est de faire courir des régressions sur des intervalles séparés de données.

Voir la question de révision Q-5E3.1

Voir le travail de recherche R-5.7

4) - Systèmes d'équations et autres prolongements

Au delà de l'analyse de sensibilité qui étudie les relations d'une variable avec d'autres variables, habituellement une variable à la fois, il y a beaucoup de cas où il est nécessaire de considérer un système de plusieurs équations parce que des variables endogènes doivent être incluses en tant que variables latérales droites. Ou, en d'autres termes, certaines des variables latérales droites sont déterminées par le système. Des modèles économétriques entiers peuvent être estimés en utilisant les moindres carrés ordinaires, si l'autocorrélation n'est pas trop sérieuse, les moindres carrés à deux étapes ou les moindres carrés à trois étapes.

Des régressions multiples sont également employées sur une relation fonctionnelle simple en ajoutant une variable à la fois afin de déterminer laquelle des variables a le plus de puissance explicative. Ceci est connu dans le domaine en tant que régression multiple par étapes.

Un procédé statistique moins rigoureux est parfois utilisé quand les données sont trop dispersées pour mener à des résultats significatifs, c.-à-d. qu'il y a un certain degré d'heteroscetasticité (qui a été discuté ci-dessus). La méthode est d'employer une régression d'OLS non pas sur la série originale de données, mais sur une série où chaque observation a un rang, disons de 1 à N ( pour N observations). Ce procédé est connu en tant que corrélation d'ordre rangé, et est de temps en temps employé en sciences sociales.

Voir les questions de révision Q-5E4.1 à Q-5E4.3

Voir le travail de recherche R-5.8

  Practice questions

  Assignments

  Readings

 Quiz

[Votre opinion nous est importante. Posez vos questions et offrez vos remarques, critiques ou suggestions à contact information ou bien utiliser les forums ]

Précédent: Interprétation des ratios Modifié: 2010-06-18 Suivant: Analyse des séries chronologiques