Preuves statistiques de GIFT

Version : 3.4.13 Date de validation : avril 2026 Scripts : bulletproof_validation_v33.py (7 composantes, archive v3.3.24), exhaustive_validation_v33.py (3M+ configurations)

Note (v3.4) : les statistiques de tête v3.4 sont 0,39 % d’écart moyen sur 35 observables Type I (cibles exactes), avec log₁₀ p_algébrique = −138 sur 3M+ configurations (catalogue 95 observables : 35 Type I + 19 Type II + 21 Type III + 22 Type IV). Les ventilations sectorielles ci-dessous conservent l’analyse v3.3.24 NuFIT 6.0 (0,24 % sur 32 bien mesurés / 0,57 % tous les 33) à des fins de traçabilité. Les conclusions qualitatives (significativité > 4,2 σ, optimum unique parmi 3M+ configurations, facteurs de Bayes décisifs) tiennent dans les deux versions.

Note historique (v3.3.24) : les statistiques détaillées ci-dessous ont été calculées avec les valeurs expérimentales NuFIT 5.3 (0,21 % d’écart moyen). Avec la mise à jour v3.3.24 vers NuFIT 6.0 et les formules neutrino améliorées (θ₁₂ = arctan(2/3), θ₂₃ = arctan(√(14/11))), l’écart moyen v3.3.24 était de 0,24 % (32 bien mesurés) / 0,57 % (tous les 33, y compris δ_CP).


Résumé exécutif

Métriques clés

Métrique Valeur
Écart moyen (custom) 0,21 %
Écart moyen (relatif) 0,41 %
p-valeur du modèle nul < 2 × 10⁻⁵ (σ > 4,2)
p global Westfall-Young 8,4 × 10⁻³
Meilleur facteur de Bayes 4 738 (décisif)
p du test pré-enregistré 6,7 × 10⁻⁵ (σ = 4,0)
Configurations testées (exhaustif) 3 070 396
Meilleures que GIFT 0

Résultats par niveau de précision (écart relatif)

Niveau Observables Seuil Interprétation
Excellent 14/33 (42 %) < 0,1 % correspondance de précision
Bon 29/33 (88 %) < 1 % accord fort
Acceptable 33/33 (100 %) < 5 % dans la tolérance
À retravailler 0/33 (0 %) > 5 % aucun

Interprétation


1. Méthodologie

1.1 Métrique principale : écart custom

La validation GIFT utilise une métrique d’écart custom qui capture la qualité d’ajustement sur des observables hétérogènes (angles, ratios, constantes de couplage) :

\[\text{Écart} = \frac{|\text{pred} - \text{exp}|}{|\text{exp}|} \times 100\%\]

moyennée uniformément sur les 33 observables. Cela évite la pathologie des « pulls » σ où des mesures extraordinairement précises (α⁻¹ avec σ = 2,1 × 10⁻⁵) dominent l’agrégat.

1.2 Pourquoi pas le χ² ?

Observable Écart relatif Pull (σ) Problème
m_μ/m_e 0,12 % 52 951 σ σ_exp = 4,6 × 10⁻⁶
α⁻¹ 0,002 % 128 σ σ_exp = 2,1 × 10⁻⁵

L’écart relatif identifie correctement ces prédictions comme excellentes (~0,1 %), tandis que les pulls sont trompeusement grands à cause de la précision expérimentale extraordinaire et de l’absence d’estimations d’incertitudes théoriques.

1.3 Validation à sept composantes

La validation à toute épreuve couvre sept composantes indépendantes :

  1. Manifeste de pré-enregistrement : hash SHA-256 verrouillant observables et formules avant les tests
  2. Trois familles de modèles nuls : permutation, structure préservée, adversariel
  3. p-valeurs par observable : avec corrections de Bonferroni, Holm, Benjamini-Hochberg, et Westfall-Young maxT
  4. Cross-prédiction held-out : leave-one-sector-out + split dev/test pré-enregistré
  5. Analyse de robustesse : perturbations de poids, MC de bruit, jackknife, leave-k-out, courbe de sensibilité au bruit
  6. Réplication multi-graines : 10 graines indépendantes + métrique alternative (χ²)
  7. Analyse bayésienne : facteurs de Bayes multi-priors, PPC à 4 statistiques, comparaison WAIC

2. Familles de modèles nuls

Trois familles indépendantes de modèles nuls rejettent toutes à la limite de résolution de 50 000 permutations :

Famille nulle p-valeur σ Description
Permutation 2,0 × 10⁻⁵ 4,27 assignation aléatoire de (b₂, b₃) ; moyenne nulle 82,6 % vs GIFT 0,21 %
Structure préservée 2,0 × 10⁻⁵ 4,27 0/50 000 configurations atteignent ou battent GIFT
Adversariel 2,0 × 10⁻⁵ 4,27 meilleur adversaire à 65,8 % vs GIFT 0,21 %

Les trois familles nulles produisent des écarts moyens environ 300× pires que GIFT.


3. Corrections pour tests multiples

3.1 Significativité par observable (α = 0,05)

Correction Significatives Méthode
Brut 21/33 p-valeurs empiriques non corrigées
Bonferroni 0/33 conservatrice (divise α par 33)
Holm 0/33 step-down, encore très conservatrice
Benjamini-Hochberg 20/33 contrôle FDR (moins conservatrice)
Westfall-Young maxT 11/33 FWER permutationnel respectant les corrélations

3.2 Westfall-Young maxT

La procédure step-down maxT de Westfall-Young est l’étalon-or pour le contrôle du taux d’erreur familial (FWER) parce qu’elle :

Résultat : p global = 8,4 × 10⁻³, avec 11/33 observables individuellement significatives. C’est la réponse définitive à la question : « combien d’observables survivent à une correction rigoureuse pour tests multiples tout en tenant compte des corrélations inter-observables ? »

3.3 Effet « regarder ailleurs » (Look-Elsewhere)

Décompte explicite des essais LEE : 23 167 200 (toutes les combinaisons (b₂, b₃, jauge, holonomie)). Même après correction LEE, la performance du cadre reste significative.


4. Cross-prédiction (tests held-out)

4.1 Leave-one-sector-out

Chaque secteur de physique est retiré tour à tour ; le (b₂, b₃) de GIFT est testé sur le secteur retiré sans réajustement :

Secteur Obs. retirées Écart de test p-valeur σ
Couplages de jauge 3 0,17 % 1,0 × 10⁻³ 3,3
Leptons 4 0,06 % 1,0 × 10⁻⁴ 3,9
Quarks 9 0,24 % 1,0 × 10⁻² 2,6
Mélange PMNS 4 0,23 % 1,0 × 10⁻⁴ 3,9
Matrice CKM 6 0,59 % 1,3 × 10⁻⁴ 3,8
Bosons 3 0,13 % 2,0 × 10⁻⁴ 3,7
Cosmologie 3 0,19 % 3,3 × 10⁻⁵ 4,1

Tous les secteurs non triviaux atteignent p < 0,05, ce qui confirme que la cross-prédiction tient.

4.2 Split dev/test pré-enregistré

Ensemble N Écart
Développement (16 obs.) 16 0,10 %
Test (17 obs.) 17 0,32 %
p-valeur du test   6,7 × 10⁻⁵ (σ = 4,0)

L’ensemble de test held-out atteint σ = 4,0, ce qui confirme que la précision de GIFT n’est pas un artefact d’ajustement à un sous-ensemble particulier.


5. Robustesse et sensibilité

5.1 Perturbation des poids

Pondération Écart moyen Conclusion
Uniforme 0,21 % référence
Pondérée par incertitude 0,00 % dominée par la précision
Inverse-range 0,62 % pire cas
Aléatoire (100 essais) 0,21 % ± 0,02 % stable

Tous les schémas de pondération donnent < 1 %.

5.2 Jackknife & leave-k-out

k retirées Écart moyen Plage
1 0,212 % ± 0,008 % [0,18, 0,22]
3 0,212 % ± 0,015 % [0,14, 0,23]
5 0,212 % ± 0,020 % [0,13, 0,25]

Le résultat est remarquablement stable sous suppression systématique.

5.3 Courbe de sensibilité au bruit

Balayage d’un bruit gaussien d’amplitude σ_factor × σ_exp sur 200 essais par point :

Facteur de bruit Écart moyen Écart-type
0,00× 0,21 % 0,00 %
0,25× 0,46 % 0,09 %
0,50× 0,82 % 0,18 %
0,75× 1,17 % 0,23 %
1,00× 1,57 % 0,36 %
1,50× 2,34 % 0,55 %
2,00× 3,09 % 0,73 %
3,00× 4,61 % 1,18 %

Interprétation : à 1× les incertitudes expérimentales publiées, l’écart moyen passe de 0,21 % à 1,57 %. C’est le plancher de précision physique : l’accord à 0,21 % du cadre est déjà à un facteur ~7 de ce que le bruit de mesure seul produirait. Améliorer encore les prédictions du cadre demanderait que les mesures expérimentales deviennent plus précises.

5.4 Monte Carlo de bruit

Sur 1 000 essais avec 1× les incertitudes publiées :

Ceci confirme la courbe de sensibilité au bruit : le résultat GIFT à 0,21 % se situe bien sous le plancher de bruit.


6. Réplication multi-graines

Métrique Valeur
Graines testées 10
Plage de p-valeurs [5,0 × 10⁻⁵, 1,5 × 10⁻⁴]
Plage de σ [3,8, 4,1]
Toutes significatives à α=0,05 oui
Métrique alternative (χ²) p = 5,0 × 10⁻⁵ (σ = 4,1)
Cohérent inter-métriques oui

Les résultats sont invariants à la graine PRNG et tiennent sous une métrique alternative (χ² relatif).


7. Analyse bayésienne

7.1 Facteurs de Bayes (4 spécifications de priors)

Prior BF Interprétation
Sceptique (uniforme) 304 décisif pour H₁
Référence (semi-normale) 397 décisif pour H₁
Jeffreys 2 423 décisif pour H₁
Enthousiaste (uniforme ≤ 1 %) 4 738 décisif pour H₁

Les quatre priors donnent des preuves décisives (BF > 100) en faveur de GIFT contre le nul. Le prior sceptique, qui accorde au nul la latitude maximale, donne encore BF = 304.

7.2 Vérifications prédictives postérieures (4 statistiques)

Statistique Observée Moyenne répliquée p PPC Statut
T₁ : écart moyen 0,21 % 1,53 % 1,000 ↑ supérieur
T₂ : écart max 1,13 % 12,04 % 1,000 ↑ supérieur
T₃ : nombre > 1 % 1 12,1 1,000 ↑ supérieur
T₄ : pire secteur 0,59 % 4,28 % 1,000 ↑ supérieur

Statut : superior_to_noise : le cadre s’ajuste significativement mieux que ce que prédit le bruit de mesure, sur les quatre statistiques de test. Les jeux de données répliqués (en ajoutant du bruit aux niveaux d’incertitude publiés) montrent systématiquement des écarts de 5 à 12× supérieurs à ce que GIFT atteint. C’est cohérent avec un contenu physique authentique plutôt qu’une coïncidence numérique.

Note : un PPC p ≈ 1,0 n’indique pas un mauvais ajustement de modèle. Dans le cadre PPC, un p proche de 0 indique un sous-ajustement systématique, un p proche de 0,5 indique une calibration parfaite au modèle de bruit, et un p proche de 1 indique que le modèle dépasse les attentes du bruit. Le résultat confirme que la précision de GIFT dépasse ce que les incertitudes de mesure seules prédiraient.

7.3 Comparaison de modèles WAIC

Modèle WAIC Interprétation
GIFT 29,9 préféré
Nul 580,2  
ΔWAIC 550,3 favorise fortement GIFT

8. Recherche exhaustive de configurations

8.1 Variations des nombres de Betti (3 070 396 configs)

Métrique Valeur
Plage de b₂ [5, 100]
Plage de b₃ [40, 200]
Configurations testées 3 070 396
Meilleures que GIFT 0
IC à 95 % (Clopper-Pearson) [0, 3,7 × 10⁻⁵]

8.2 Comparaison des groupes de jauge

Rang Groupe de jauge Écart moyen
1 E₈ × E₈ 0,41 %
2 E₇ × E₈ 8,8 %
3 E₆ × E₈ 15,5 %

E₈ × E₈ atteint un accord 21× meilleur que la prochaine alternative.

8.3 Comparaison des groupes d’holonomie

Rang Holonomie dim Écart moyen
1 G₂ 14 0,41 %
2 SU(4) 15 1,5 %
3 SU(3) 8 4,4 %
4 Spin(7) 21 5,4 %

G₂ atteint un accord 11× meilleur que Calabi-Yau (SU(3)).


9. Résultats par catégorie de physique

Catégorie N Écart moyen Écart max <0,1 % <1 % <5 %
Structurel 1 0,00 % 0,00 % 1/1 1/1 1/1
Électrofaible 4 0,36 % 0,90 % 1/4 4/4 4/4
Rapports de masses leptons 4 0,06 % 0,12 % 2/4 4/4 4/4
Rapports de masses quarks 4 0,34 % 1,21 % 2/4 3/4 4/4
Mélange PMNS 7 0,94 % 4,81 % 3/7 5/7 7/7
Mélange CKM 3 0,74 % 1,50 % 0/3 2/3 3/3
Rapports de masses bosons 3 0,12 % 0,29 % 2/3 3/3 3/3
Cosmologique 7 0,19 % 0,48 % 3/7 7/7 7/7
TOTAL 33 0,41 %   14/33 29/33 33/33

10. Réserves honnêtes

10.1 Ce que cette validation établit

  1. Significativité statistique : p < 2 × 10⁻⁵ contre trois familles nulles indépendantes (σ > 4,2)
  2. Robustesse aux tests multiples : 11/33 survivent au FWER Westfall-Young maxT (p global = 0,008)
  3. Cross-prédiction : tous les secteurs non triviaux et le split de test pré-enregistré sont significatifs
  4. Confirmation bayésienne : BF de 304 à 4 738 sur quatre spécifications de priors, tous décisifs
  5. Stabilité : invariant à la pondération, à la graine, au choix de métrique, et à la suppression d’observables

10.2 Ce que cette validation N’établit PAS

  1. Justification des formules : l’optimalité statistique n’explique pas pourquoi ces formules ont été choisies. Les dérivations dans S2 fournissent la motivation théorique, mais l’accord statistique seul n’est pas une preuve d’exactitude physique.
  2. Vérité physique : un excellent accord ≠ physique sous-jacente correcte. Le cadre pourrait être une paramétrisation très efficace qui capture des motifs sans que le mécanisme géométrique proposé soit la bonne explication.
  3. Complétude : seules les variétés G₂ TCS avec des groupes de jauge/holonomie spécifiques ont été testées.

10.3 Statut PPC supérieur au bruit

Les vérifications prédictives postérieures montrent PPC p = 1,0 sur les quatre statistiques de test. Cela signifie que les prédictions du cadre sont plus précises que ce que le bruit de mesure seul prédirait. Explications possibles :

C’est une force du cadre, pas une faiblesse, mais cela signifie que le PPC ne peut pas distinguer entre ces explications.

10.4 Sensibilité au bruit comme limite physique

À 1× les incertitudes publiées, l’écart moyen passe de 0,21 % à 1,57 %. Cela définit le plancher de précision de mesure : les prédictions du cadre sont déjà à un facteur ~7 de ce que les meilleures mesures actuelles peuvent distinguer d’un accord parfait. Une validation plus poussée requiert des expériences plus précises.

10.5 Bonferroni / Holm donnant zéro

Les corrections de Bonferroni et Holm donnent 0/33 observables significatives parce qu’elles divisent α par 33, ce qui est extrêmement conservateur pour des tests corrélés. C’est pourquoi la procédure Westfall-Young maxT est la bonne correction : elle respecte la structure de corrélation et donne un résultat significatif (11/33 significatives, p global = 0,008).


11. Prédictions de falsification

Prédiction Valeur GIFT Exp. actuelle Cible Expérience Calendrier
δ_CP 197° 197° ± 24° ±5° DUNE 2034-2039
sin²θ_W 3/13 0,2312 ± 4 × 10⁻⁵ ±10⁻⁵ FCC-ee 2040s
Ω_DM/Ω_b 43/8 5,375 ± 0,1 ±0,01 CMB-S4 2030s
m_s/m_d 20 20 ± 1 ±0,3 QCD sur réseau 2030

12. Comment reproduire

Validation à toute épreuve (7 composantes)

cd publications/validation
python3 bulletproof_validation_v33.py

Prérequis : Python 3.8+, aucune dépendance externe Sortie : bulletproof_validation_v33_results.json Durée : ~15 secondes

Recherche exhaustive (3M+ configurations)

cd publications/validation
python3 exhaustive_validation_v33.py

Durée : ~2 à 5 minutes


13. Conclusions

Constatation principale

GIFT atteint un écart moyen de 0,21 % (0,41 % relatif) sur 33 observables. Parmi 3 070 396 configurations testées, zéro font mieux. Ce résultat survit à :

Résumé statistique

Métrique Valeur
À moins de 0,1 % 42 % (14/33)
À moins de 1 % 88 % (29/33)
À moins de 5 % 100 % (33/33)
Écart moyen 0,21 % (custom), 0,41 % (relatif)
p du modèle nul < 2 × 10⁻⁵ (σ > 4,2)
p global Westfall-Young 0,008
Meilleur facteur de Bayes 4 738
Configurations testées 3 070 396
Meilleures que GIFT 0

Références


GIFT Framework v3.4.20 : preuves statistiques à toute épreuve Tête : écart moyen 0,39 % sur 35 observables Type I (PDG 2024 / NuFIT 6.0) ; log₁₀ p_algébrique = −138 sur 3M+ configurations Ventilation sectorielle ci-dessus : analyse v3.3.24 NuFIT 6.0 (0,24 % sur 32 bien mesurés / 0,57 % tous les 33)