Preuves statistiques de GIFT

Version : 3.4.13 Date de validation : avril 2026 Scripts : bulletproof_validation_v33.py (7 composantes, archive v3.3.24), exhaustive_validation_v33.py (3M+ configurations)

Note (v3.4) : les statistiques de tête v3.4 sont 0,39 % d’écart moyen sur 35 observables Type I (cibles exactes), avec log₁₀ p_algébrique = −138 sur 3M+ configurations (catalogue 95 observables : 35 Type I + 19 Type II + 21 Type III + 22 Type IV). Les ventilations sectorielles ci-dessous conservent l’analyse v3.3.24 NuFIT 6.0 (0,24 % sur 32 bien mesurés / 0,57 % tous les 33) à des fins de traçabilité. Les conclusions qualitatives (significativité > 4,2 σ, optimum unique parmi 3M+ configurations, facteurs de Bayes décisifs) tiennent dans les deux versions.

Note historique (v3.3.24) : les statistiques détaillées ci-dessous ont été calculées avec les valeurs expérimentales NuFIT 5.3 (0,21 % d’écart moyen). Avec la mise à jour v3.3.24 vers NuFIT 6.0 et les formules neutrino améliorées (θ₁₂ = arctan(2/3), θ₂₃ = arctan(√(14/11))), l’écart moyen v3.3.24 était de 0,24 % (32 bien mesurés) / 0,57 % (tous les 33, y compris δ_CP).

Résumé exécutif

Métriques clés

Métrique	Valeur
Écart moyen (custom)	0,21 %
Écart moyen (relatif)	0,41 %
p-valeur du modèle nul	< 2 × 10⁻⁵ (σ > 4,2)
p global Westfall-Young	8,4 × 10⁻³
Meilleur facteur de Bayes	4 738 (décisif)
p du test pré-enregistré	6,7 × 10⁻⁵ (σ = 4,0)
Configurations testées (exhaustif)	3 070 396
Meilleures que GIFT	0

Résultats par niveau de précision (écart relatif)

Niveau	Observables	Seuil	Interprétation
Excellent	14/33 (42 %)	< 0,1 %	correspondance de précision
Bon	29/33 (88 %)	< 1 %	accord fort
Acceptable	33/33 (100 %)	< 5 %	dans la tolérance
À retravailler	0/33 (0 %)	> 5 %	aucun

Interprétation

100 % des prédictions s’accordent avec l’expérience à moins de 5 %
88 % des prédictions s’accordent à moins de 1 %
GIFT est uniquement optimal parmi les 3 070 396 configurations testées
Les trois familles de modèles nuls rejettent à p < 2 × 10⁻⁵
La correction permutationnelle FWER de Westfall-Young maxT confirme 11/33 individuellement significatifs après prise en compte des corrélations
Les facteurs de Bayes vont de 304 à 4 738 pour quatre spécifications de priors (tous décisifs)

1. Méthodologie

1.1 Métrique principale : écart custom

La validation GIFT utilise une métrique d’écart custom qui capture la qualité d’ajustement sur des observables hétérogènes (angles, ratios, constantes de couplage) :

\[\text{Écart} = \frac{|\text{pred} - \text{exp}|}{|\text{exp}|} \times 100\%\]

moyennée uniformément sur les 33 observables. Cela évite la pathologie des « pulls » σ où des mesures extraordinairement précises (α⁻¹ avec σ = 2,1 × 10⁻⁵) dominent l’agrégat.

1.2 Pourquoi pas le χ² ?

Observable	Écart relatif	Pull (σ)	Problème
m_μ/m_e	0,12 %	52 951 σ	σ_exp = 4,6 × 10⁻⁶
α⁻¹	0,002 %	128 σ	σ_exp = 2,1 × 10⁻⁵

L’écart relatif identifie correctement ces prédictions comme excellentes (~0,1 %), tandis que les pulls sont trompeusement grands à cause de la précision expérimentale extraordinaire et de l’absence d’estimations d’incertitudes théoriques.

1.3 Validation à sept composantes

La validation à toute épreuve couvre sept composantes indépendantes :

Manifeste de pré-enregistrement : hash SHA-256 verrouillant observables et formules avant les tests
Trois familles de modèles nuls : permutation, structure préservée, adversariel
p-valeurs par observable : avec corrections de Bonferroni, Holm, Benjamini-Hochberg, et Westfall-Young maxT
Cross-prédiction held-out : leave-one-sector-out + split dev/test pré-enregistré
Analyse de robustesse : perturbations de poids, MC de bruit, jackknife, leave-k-out, courbe de sensibilité au bruit
Réplication multi-graines : 10 graines indépendantes + métrique alternative (χ²)
Analyse bayésienne : facteurs de Bayes multi-priors, PPC à 4 statistiques, comparaison WAIC

2. Familles de modèles nuls

Trois familles indépendantes de modèles nuls rejettent toutes à la limite de résolution de 50 000 permutations :

Famille nulle	p-valeur	σ	Description
Permutation	2,0 × 10⁻⁵	4,27	assignation aléatoire de (b₂, b₃) ; moyenne nulle 82,6 % vs GIFT 0,21 %
Structure préservée	2,0 × 10⁻⁵	4,27	0/50 000 configurations atteignent ou battent GIFT
Adversariel	2,0 × 10⁻⁵	4,27	meilleur adversaire à 65,8 % vs GIFT 0,21 %

Les trois familles nulles produisent des écarts moyens environ 300× pires que GIFT.

3. Corrections pour tests multiples

3.1 Significativité par observable (α = 0,05)

Correction	Significatives	Méthode
Brut	21/33	p-valeurs empiriques non corrigées
Bonferroni	0/33	conservatrice (divise α par 33)
Holm	0/33	step-down, encore très conservatrice
Benjamini-Hochberg	20/33	contrôle FDR (moins conservatrice)
Westfall-Young maxT	11/33	FWER permutationnel respectant les corrélations

3.2 Westfall-Young maxT

La procédure step-down maxT de Westfall-Young est l’étalon-or pour le contrôle du taux d’erreur familial (FWER) parce qu’elle :

Respecte la structure de corrélation entre statistiques de test (contrairement à Bonferroni)
Utilise la distribution conjointe des statistiques max sous permutation
Fournit un contrôle FWER exact

Résultat : p global = 8,4 × 10⁻³, avec 11/33 observables individuellement significatives. C’est la réponse définitive à la question : « combien d’observables survivent à une correction rigoureuse pour tests multiples tout en tenant compte des corrélations inter-observables ? »

3.3 Effet « regarder ailleurs » (Look-Elsewhere)

Décompte explicite des essais LEE : 23 167 200 (toutes les combinaisons (b₂, b₃, jauge, holonomie)). Même après correction LEE, la performance du cadre reste significative.

4. Cross-prédiction (tests held-out)

4.1 Leave-one-sector-out

Chaque secteur de physique est retiré tour à tour ; le (b₂, b₃) de GIFT est testé sur le secteur retiré sans réajustement :

Secteur	Obs. retirées	Écart de test	p-valeur	σ
Couplages de jauge	3	0,17 %	1,0 × 10⁻³	3,3
Leptons	4	0,06 %	1,0 × 10⁻⁴	3,9
Quarks	9	0,24 %	1,0 × 10⁻²	2,6
Mélange PMNS	4	0,23 %	1,0 × 10⁻⁴	3,9
Matrice CKM	6	0,59 %	1,3 × 10⁻⁴	3,8
Bosons	3	0,13 %	2,0 × 10⁻⁴	3,7
Cosmologie	3	0,19 %	3,3 × 10⁻⁵	4,1

Tous les secteurs non triviaux atteignent p < 0,05, ce qui confirme que la cross-prédiction tient.

4.2 Split dev/test pré-enregistré

Ensemble	N	Écart
Développement (16 obs.)	16	0,10 %
Test (17 obs.)	17	0,32 %
p-valeur du test		6,7 × 10⁻⁵ (σ = 4,0)

L’ensemble de test held-out atteint σ = 4,0, ce qui confirme que la précision de GIFT n’est pas un artefact d’ajustement à un sous-ensemble particulier.

5. Robustesse et sensibilité

5.1 Perturbation des poids

Pondération	Écart moyen	Conclusion
Uniforme	0,21 %	référence
Pondérée par incertitude	0,00 %	dominée par la précision
Inverse-range	0,62 %	pire cas
Aléatoire (100 essais)	0,21 % ± 0,02 %	stable

Tous les schémas de pondération donnent < 1 %.

5.2 Jackknife & leave-k-out

Jackknife : l’influence maximale d’une observable est de 0,029 % (sin²θ₂₃ CKM). Aucune observable ne domine le résultat.
Stabilité leave-k-out :

k retirées	Écart moyen	Plage
1	0,212 % ± 0,008 %	[0,18, 0,22]
3	0,212 % ± 0,015 %	[0,14, 0,23]
5	0,212 % ± 0,020 %	[0,13, 0,25]

Le résultat est remarquablement stable sous suppression systématique.

5.3 Courbe de sensibilité au bruit

Balayage d’un bruit gaussien d’amplitude σ_factor × σ_exp sur 200 essais par point :

Facteur de bruit	Écart moyen	Écart-type
0,00×	0,21 %	0,00 %
0,25×	0,46 %	0,09 %
0,50×	0,82 %	0,18 %
0,75×	1,17 %	0,23 %
1,00×	1,57 %	0,36 %
1,50×	2,34 %	0,55 %
2,00×	3,09 %	0,73 %
3,00×	4,61 %	1,18 %

Interprétation : à 1× les incertitudes expérimentales publiées, l’écart moyen passe de 0,21 % à 1,57 %. C’est le plancher de précision physique : l’accord à 0,21 % du cadre est déjà à un facteur ~7 de ce que le bruit de mesure seul produirait. Améliorer encore les prédictions du cadre demanderait que les mesures expérimentales deviennent plus précises.

5.4 Monte Carlo de bruit

Sur 1 000 essais avec 1× les incertitudes publiées :

Moyenne : 1,50 % ± 0,35 %
Seulement 5 % des essais restent sous 1 %

Ceci confirme la courbe de sensibilité au bruit : le résultat GIFT à 0,21 % se situe bien sous le plancher de bruit.

6. Réplication multi-graines

Métrique	Valeur
Graines testées	10
Plage de p-valeurs	[5,0 × 10⁻⁵, 1,5 × 10⁻⁴]
Plage de σ	[3,8, 4,1]
Toutes significatives à α=0,05	oui
Métrique alternative (χ²)	p = 5,0 × 10⁻⁵ (σ = 4,1)
Cohérent inter-métriques	oui

Les résultats sont invariants à la graine PRNG et tiennent sous une métrique alternative (χ² relatif).

7. Analyse bayésienne

7.1 Facteurs de Bayes (4 spécifications de priors)

Prior	BF	Interprétation
Sceptique (uniforme)	304	décisif pour H₁
Référence (semi-normale)	397	décisif pour H₁
Jeffreys	2 423	décisif pour H₁
Enthousiaste (uniforme ≤ 1 %)	4 738	décisif pour H₁

Les quatre priors donnent des preuves décisives (BF > 100) en faveur de GIFT contre le nul. Le prior sceptique, qui accorde au nul la latitude maximale, donne encore BF = 304.

7.2 Vérifications prédictives postérieures (4 statistiques)

Statistique	Observée	Moyenne répliquée	p PPC	Statut
T₁ : écart moyen	0,21 %	1,53 %	1,000	↑ supérieur
T₂ : écart max	1,13 %	12,04 %	1,000	↑ supérieur
T₃ : nombre > 1 %	1	12,1	1,000	↑ supérieur
T₄ : pire secteur	0,59 %	4,28 %	1,000	↑ supérieur

Statut : superior_to_noise : le cadre s’ajuste significativement mieux que ce que prédit le bruit de mesure, sur les quatre statistiques de test. Les jeux de données répliqués (en ajoutant du bruit aux niveaux d’incertitude publiés) montrent systématiquement des écarts de 5 à 12× supérieurs à ce que GIFT atteint. C’est cohérent avec un contenu physique authentique plutôt qu’une coïncidence numérique.

Note : un PPC p ≈ 1,0 n’indique pas un mauvais ajustement de modèle. Dans le cadre PPC, un p proche de 0 indique un sous-ajustement systématique, un p proche de 0,5 indique une calibration parfaite au modèle de bruit, et un p proche de 1 indique que le modèle dépasse les attentes du bruit. Le résultat confirme que la précision de GIFT dépasse ce que les incertitudes de mesure seules prédiraient.

7.3 Comparaison de modèles WAIC

Modèle	WAIC	Interprétation
GIFT	29,9	préféré
Nul	580,2
ΔWAIC	550,3	favorise fortement GIFT

8. Recherche exhaustive de configurations

8.1 Variations des nombres de Betti (3 070 396 configs)

Métrique	Valeur
Plage de b₂	[5, 100]
Plage de b₃	[40, 200]
Configurations testées	3 070 396
Meilleures que GIFT	0
IC à 95 % (Clopper-Pearson)	[0, 3,7 × 10⁻⁵]

8.2 Comparaison des groupes de jauge

Rang	Groupe de jauge	Écart moyen
1	E₈ × E₈	0,41 %
2	E₇ × E₈	8,8 %
3	E₆ × E₈	15,5 %

E₈ × E₈ atteint un accord 21× meilleur que la prochaine alternative.

8.3 Comparaison des groupes d’holonomie

Rang	Holonomie	dim	Écart moyen
1	G₂	14	0,41 %
2	SU(4)	15	1,5 %
3	SU(3)	8	4,4 %
4	Spin(7)	21	5,4 %

G₂ atteint un accord 11× meilleur que Calabi-Yau (SU(3)).

9. Résultats par catégorie de physique

Catégorie	N	Écart moyen	Écart max	<0,1 %	<1 %	<5 %
Structurel	1	0,00 %	0,00 %	1/1	1/1	1/1
Électrofaible	4	0,36 %	0,90 %	1/4	4/4	4/4
Rapports de masses leptons	4	0,06 %	0,12 %	2/4	4/4	4/4
Rapports de masses quarks	4	0,34 %	1,21 %	2/4	3/4	4/4
Mélange PMNS	7	0,94 %	4,81 %	3/7	5/7	7/7
Mélange CKM	3	0,74 %	1,50 %	0/3	2/3	3/3
Rapports de masses bosons	3	0,12 %	0,29 %	2/3	3/3	3/3
Cosmologique	7	0,19 %	0,48 %	3/7	7/7	7/7
TOTAL	33	0,41 %		14/33	29/33	33/33

10. Réserves honnêtes

10.1 Ce que cette validation établit

Significativité statistique : p < 2 × 10⁻⁵ contre trois familles nulles indépendantes (σ > 4,2)
Robustesse aux tests multiples : 11/33 survivent au FWER Westfall-Young maxT (p global = 0,008)
Cross-prédiction : tous les secteurs non triviaux et le split de test pré-enregistré sont significatifs
Confirmation bayésienne : BF de 304 à 4 738 sur quatre spécifications de priors, tous décisifs
Stabilité : invariant à la pondération, à la graine, au choix de métrique, et à la suppression d’observables

10.2 Ce que cette validation N’établit PAS

Justification des formules : l’optimalité statistique n’explique pas pourquoi ces formules ont été choisies. Les dérivations dans S2 fournissent la motivation théorique, mais l’accord statistique seul n’est pas une preuve d’exactitude physique.
Vérité physique : un excellent accord ≠ physique sous-jacente correcte. Le cadre pourrait être une paramétrisation très efficace qui capture des motifs sans que le mécanisme géométrique proposé soit la bonne explication.
Complétude : seules les variétés G₂ TCS avec des groupes de jauge/holonomie spécifiques ont été testées.

10.3 Statut PPC supérieur au bruit

Les vérifications prédictives postérieures montrent PPC p = 1,0 sur les quatre statistiques de test. Cela signifie que les prédictions du cadre sont plus précises que ce que le bruit de mesure seul prédirait. Explications possibles :

Le cadre capture une véritable structure physique (la revendication de GIFT)
Les incertitudes expérimentales publiées sont conservatrices
Il existe des corrélations entre observables non capturées par le modèle de bruit

C’est une force du cadre, pas une faiblesse, mais cela signifie que le PPC ne peut pas distinguer entre ces explications.

10.4 Sensibilité au bruit comme limite physique

À 1× les incertitudes publiées, l’écart moyen passe de 0,21 % à 1,57 %. Cela définit le plancher de précision de mesure : les prédictions du cadre sont déjà à un facteur ~7 de ce que les meilleures mesures actuelles peuvent distinguer d’un accord parfait. Une validation plus poussée requiert des expériences plus précises.

10.5 Bonferroni / Holm donnant zéro

Les corrections de Bonferroni et Holm donnent 0/33 observables significatives parce qu’elles divisent α par 33, ce qui est extrêmement conservateur pour des tests corrélés. C’est pourquoi la procédure Westfall-Young maxT est la bonne correction : elle respecte la structure de corrélation et donne un résultat significatif (11/33 significatives, p global = 0,008).

11. Prédictions de falsification

Prédiction	Valeur GIFT	Exp. actuelle	Cible	Expérience	Calendrier
δ_CP	197°	197° ± 24°	±5°	DUNE	2034-2039
sin²θ_W	3/13	0,2312 ± 4 × 10⁻⁵	±10⁻⁵	FCC-ee	2040s
Ω_DM/Ω_b	43/8	5,375 ± 0,1	±0,01	CMB-S4	2030s
m_s/m_d	20	20 ± 1	±0,3	QCD sur réseau	2030

12. Comment reproduire

Validation à toute épreuve (7 composantes)

cd publications/validation
python3 bulletproof_validation_v33.py

Prérequis : Python 3.8+, aucune dépendance externe Sortie : bulletproof_validation_v33_results.json Durée : ~15 secondes

Recherche exhaustive (3M+ configurations)

cd publications/validation
python3 exhaustive_validation_v33.py

Durée : ~2 à 5 minutes

13. Conclusions

Constatation principale

GIFT atteint un écart moyen de 0,21 % (0,41 % relatif) sur 33 observables. Parmi 3 070 396 configurations testées, zéro font mieux. Ce résultat survit à :

Trois familles indépendantes de modèles nuls (p < 2 × 10⁻⁵)
Correction FWER de Westfall-Young maxT (p global = 0,008, 11/33 individuellement significatifs)
Split dev/test pré-enregistré (p de test = 6,7 × 10⁻⁵)
Quatre spécifications de priors bayésiens (BF de 304 à 4 738, tous décisifs)
Analyses de stabilité par perturbation de poids, jackknife et leave-k-out
Réplication multi-graines et inter-métriques

Résumé statistique

Métrique	Valeur
À moins de 0,1 %	42 % (14/33)
À moins de 1 %	88 % (29/33)
À moins de 5 %	100 % (33/33)
Écart moyen	0,21 % (custom), 0,41 % (relatif)
p du modèle nul	< 2 × 10⁻⁵ (σ > 4,2)
p global Westfall-Young	0,008
Meilleur facteur de Bayes	4 738
Configurations testées	3 070 396
Meilleures que GIFT	0

Références

Joyce, D.D. Compact Manifolds with Special Holonomy (2000)
Westfall, P.H. & Young, S.S. Resampling-Based Multiple Testing (1993)
Particle Data Group (2024), Review of Particle Physics
Planck Collaboration (2020), Cosmological parameters
NuFIT 5.3 (2024), Neutrino oscillation parameters
CODATA 2022, Fundamental physical constants

GIFT Framework v3.4.20 : preuves statistiques à toute épreuve Tête : écart moyen 0,39 % sur 35 observables Type I (PDG 2024 / NuFIT 6.0) ; log₁₀ p_algébrique = −138 sur 3M+ configurations Ventilation sectorielle ci-dessus : analyse v3.3.24 NuFIT 6.0 (0,24 % sur 32 bien mesurés / 0,57 % tous les 33)