<?xml version="1.0" encoding="UTF-8"?>
<rss  xmlns:atom="http://www.w3.org/2005/Atom" 
      xmlns:media="http://search.yahoo.com/mrss/" 
      xmlns:content="http://purl.org/rss/1.0/modules/content/" 
      xmlns:dc="http://purl.org/dc/elements/1.1/" 
      version="2.0">
<channel>
<title>SSPHub</title>
<link>https://ssphub-test.netlify.app/</link>
<atom:link href="https://ssphub-test.netlify.app/index.xml" rel="self" type="application/rss+xml"/>
<description>Blog du réseau des data scientists de la statistique publique</description>
<generator>quarto-1.9.37</generator>
<lastBuildDate>Tue, 16 Jun 2026 00:00:00 GMT</lastBuildDate>
<item>
  <title>Journées data science &amp; open-source</title>
  <link>https://ssphub-test.netlify.app/event/2026-06-jdos/</link>
  <description><![CDATA[ 





<p>L’Insee organise deux journées dédiées à la contribution open-source les <strong>16 et 17 juin 2026</strong>. Les deux jours auront lieu au <a href="https://cartes.gouv.fr/explorer-les-cartes?c=2.305609,48.847446&amp;z=18&amp;l=PLAN.IGN$GEOPORTAIL:GPP:TMS(1;1;1;0;standard)&amp;w=&amp;permalink=yes"><strong>Lieu de la transformation publique, 77 avenue de Ségur, 75015 Paris</strong></a>. Le but de ces journées est de démystifier l’open source, d’expliquer comment y contribuer, et d’encourager chacun à soutenir les projets utiles à la datascience.</p>
<section id="inscription" class="level1">
<h1>Inscription</h1>
<p>👉️ Les inscriptions se font <a href="https://grist.numerique.gouv.fr/o/ssphub/forms/44ZC8RcBg3bjtvs5wy6wq5/55">ici</a>. 👈️ La journée se déroulera <strong>uniquement en présentiel</strong>.</p>
</section>
<section id="agenda" class="level1">
<h1>Agenda</h1>
<p>L’agenda plus détaillé est en construction mais voici les détails des journées.</p>
<ul>
<li>16 juin 2026 (9h30-17h30):
<ul>
<li>Matinée : accueil et présentation des principes de contribution à l’open source</li>
<li>Après-midi : séparation en groupes autour des différents projets et contributions</li>
</ul></li>
<li>17 juin 2026 (9h-17h):
<ul>
<li>Matinée : contributions</li>
<li>Après-midi : contributions et clôture</li>
</ul></li>
</ul>
</section>
<section id="projets-open-source" class="level1">
<h1>Projets open-source</h1>
<p>Les différents projets à date sont :</p>
<ul>
<li><a href="https://www.css.cnrs.fr/active-tigger/">Active Tigger</a> : une application de labellisation de données textuelles, proposant aussi des techniques d’active learning, et permettant d’entraîner des modèles de classification textuelle (CREST). Le repo lié est <a href="https://github.com/activetigger/activetigger/">ici</a> ;</li>
<li><a href="https://sndstoolers.github.io/sndsTools/">SNDSTools</a> : projet pour faciliter l’utilisation des données du système national de données de santé (SNDS) (Inria - Insee). Le repo lié est <a href="https://github.com/SNDStoolers/sndsTools">ici</a> ;</li>
<li><a href="https://github.com/Romanovytch/canar">CanaR</a> : projet visant à déployer en autonomie des chatbots personnalisés avec du RAG via un outil de commande.</li>
<li>une liste de sujets à traiter en autonomie (en groupe ou seul). La liste définitive sera présentée le jour J mais comprend par exemple :
<ul>
<li>Sur Onyxia ou le SSPCloud : compléter la documentation et les formations (notamment en R) ;</li>
<li>Créer une charte graphique SSP revealjs pour une extension Quarto.</li>
</ul></li>
</ul>
<p>Si vous êtes intéressés pour être sponsor et porter un projet open-source, nous sommes toujours intéressés par quelques sponsors 👑. Votre rôle : proposer des projets (open-source bien sûr) pertinents pour les data-scientists et auxquels les participants pourraient contribuer pendant l’évènement. Cela peut être un package R, Python, un site …</p>
<p>En tant que sponsor, vous devrez connaître le sujet (sans en être expert ou mainteneur) et le besoin associé. En amont, votre rôle sera d’identifier une ou plusieurs issues à traiter et de préparer les pré-requis techniques (repo Git, droits d’accès) pour que les contributeurs puissent se mettre en selle rapidement le jour J. Le jour J, vous pourrez présenter le projet et la problématique, puis participer au travail collectif dont le but sera de produire des contributions (pull-requests) pour répondre aux besoins identifiés.</p>
<p>Si vous avez des questions, que vous êtes intéressé pour proposer un sujet ou simplement pour participer, n’hésitez pas à nous contacter 👋 par <a href="mailto:ssphub-contact@insee.fr">mail</a> ou par Tchap.</p>
</section>
<section id="contact" class="level1">
<h1>Contact</h1>
<p>Pour toute information : <a href="mailto:ssphub-contact@insee.fr" class="email">ssphub-contact@insee.fr</a></p>


</section>

 ]]></description>
  <category>network</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2026-06-jdos/</guid>
  <pubDate>Tue, 16 Jun 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2026-06-jdos/jdos.jpg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Des agents en folie</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_25/</link>
  <description><![CDATA[ 





<section id="bienvenue-à-la-vingt-cinquième-infolettre" class="level1">
<h1>Bienvenue à la vingt cinquième infolettre !</h1>
<p>C’est le début du dernier fractionné avant l’été. Bienvenue à cette nouvelle infolettre.</p>
</section>
<section id="linfographie" class="level1">
<h1>L’infographie</h1>
<p>L’infographie du mois est démographique et européenne.</p>
<p>Correctiv a créé une <strong>belle histoire visuelle qui explore les villes d’Europe</strong> dont la population a décru ou augmenté depuis 1961.</p>
<p>L’histoire est double : une baisse de la population rurale et une hausse dans les grandes villes et une baisse de la population dans les pays de l’est.<br>
Allez scroller par <a href="https://correctiv.org/en/europe/2026/04/21/half-of-europes-towns-and-villages-have-fewer-residents-than-60-years-ago/">ici</a> pour le détail et voir les résultats ville par ville.</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_25/correctiv_europe_pop.png" class="img-fluid figure-img"></p>
<figcaption>Évolution de la population en Europe entre 1961 et 2024, <a href="https://correctiv.org/en/europe/2026/04/21/half-of-europes-towns-and-villages-have-fewer-residents-than-60-years-ago/">Correctiv</a></figcaption>
</figure>
</div>
</section>
<section id="les-prochains-évènements-du-réseau" class="level1">
<h1>Les prochains évènements du réseau</h1>
<section id="funathon-sur-le-machine-learning-et-lia---27-et-28-mai-en-ligne" class="level2">
<h2 class="anchored" data-anchor-id="funathon-sur-le-machine-learning-et-lia---27-et-28-mai-en-ligne">Funathon sur le <em>machine learning</em> et l’IA - 📅 27 et 28 mai (en ligne)</h2>
<p>L’Insee organise un <strong>funathon européen</strong> sur l’utilisation du <em>machine learning</em> et de l’IA dans le cadre du projet européen <a href="https://cros.ec.europa.eu/dashboard/aiml4os">ESS-Net AIML4OS</a>.</p>
<ul>
<li><strong>Dates</strong> : 27 et 28 mai 2026 (100 % en ligne).</li>
<li><strong>Public</strong> : Ouvert aux agents du SSP (inscription par équipe de 5 personnes max).</li>
<li><strong>Sujets proposés</strong> (en anglais, connaissances minimales en Python et Git requises) :
<ul>
<li>Segmentation d’images satellites par <em>deep learning</em> ;</li>
<li>Codification automatique pour la classification NACE ;</li>
<li>Prévision des prix de l’immobilier sur données tabulaires par méthodes ensemblistes.</li>
</ul></li>
<li><strong>Objectifs pédagogiques</strong> :
<ul>
<li>Utiliser l’IA et le <em>deep learning</em> pour produire des statistiques officielles ;</li>
<li>Une expérience pratique des outils de science des données (Git, Python) et des technologies cloud (GitHub, S3) ;</li>
<li>Trois projets d’apprentissage automatique et d’IA réutilisables et aboutis.</li>
</ul></li>
<li><strong>Inscription</strong> : <a href="https://grist.numerique.gouv.fr/o/docs/forms/kVB8TszNTEbuuPoquY8ze8/55">Formulaire en ligne</a>. <em>⚠️ Places limitées : l’inscription est soumise à validation par l’organisateur.</em></li>
<li><strong>Plus d’infos</strong> : <a href="https://aiml4os.github.io/funathon-general-website/about.html">Site officiel du funathon</a>.</li>
</ul>
</section>
<section id="journées-data-science-open-source---16-et-17-juin-paris" class="level2">
<h2 class="anchored" data-anchor-id="journées-data-science-open-source---16-et-17-juin-paris">📢 Journées Data Science &amp; Open Source - 📅 16 et 17 juin (Paris)</h2>
<p>L’Insee organise deux journées pour <strong>démystifier la contribution à l’open source</strong> et explorer des projets liés à la data science les 16 et 17 juin.</p>
<ul>
<li><strong>Lieu</strong> : <a href="https://cartes.gouv.fr/explorer-les-cartes?c=2.305609,48.847446&amp;z=18&amp;l=PLAN.IGN$GEOPORTAIL:GPP:TMS(1;1;1;0;standard)&amp;w=&amp;permalink=yes">Lieu de la Transformation Publique</a>, Paris.</li>
<li><strong>Format</strong> : Présentiel uniquement (inscription <strong>obligatoire</strong> <a href="https://grist.numerique.gouv.fr/o/ssphub/forms/44ZC8RcBg3bjtvs5wy6wq5/55">ici</a>).</li>
<li><strong>Appel à projets</strong> : Si vous avez un projet open source auquel vous souhaitez que les participants contribuent, <a href="mailto:ssphub-contact@insee.fr">contactez-nous</a> !</li>
<li><strong>Détails</strong> : <a href="../../event/2026-06-jdos/index.html">Page de l’événement</a>.</li>
</ul>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<section id="ia" class="level2">
<h2 class="anchored" data-anchor-id="ia">IA</h2>
<section id="des-agents-ia-dans-la-vraie-vie" class="level3">
<h3 class="anchored" data-anchor-id="des-agents-ia-dans-la-vraie-vie">Des agents IA 🤖 dans la vraie vie</h3>
<p><strong>L’adoption des agents IA</strong> continue au sein de diverses structures, avec quelques déconvenues.</p>
<p>Aux États-Unis, le <a href="https://www.nytimes.com/2026/04/21/us/san-francisco-store-managed-ai-agent.html?unlocked_article_code=1.eFA.7jVB.5i5HUjjcUKyj&amp;smid=url-share&amp;utm_source=tldrai">New York Times</a> s’est penché sur une expérimentation lancée par <a href="https://andonlabs.com/">Anton Labs</a>, une structure qui vise à “développer un monde robotisé sans humain”. Ils ont ainsi confié <strong>la gestion d’une supérette à un agent</strong> (utilisant Claude Sonnet 4.6) avec pour seul objectif de dégager un bénéfice. Il a ainsi recruté trois vendeurs, le vendeur étant payé 24$ de l’heure et 22$ de l’heure pour les deux vendeuses, il passe les commandes et fait l’inventaire (de manière approximative). Résultat, la supérette a un achalandage assez étrange, vend beaucoup de bougies et, pour le moment, est en déficit. <strong>L’agent qui a un marché ne marche donc pas encore</strong>.</p>
<p>Anton Labs a aussi simulé <strong>une compétition entre trois agents IA pour gérer des distributeurs</strong> et dont les résultats sont présentés sur <a href="https://andonlabs.com/evals/vending-bench-arena">leur site</a>. Rapidement, des agents ont adopté des comportements anti-concurrentiels et monopolistiques mais ils ont dégagé jusque 10 000$ de profits (simulés).</p>
</section>
<section id="risques-et-bonnes-pratiques-liés-à-lusage-dagents-ou-dia" class="level3">
<h3 class="anchored" data-anchor-id="risques-et-bonnes-pratiques-liés-à-lusage-dagents-ou-dia">Risques et bonnes pratiques liés à l’usage d’agents ou d’IA</h3>
<p>De nombreux posts relatent des <strong>problèmes de sécurité liés à l’usage d’agent IA</strong>. Selon les retours d’expérience, l’usage d’agents peut être utile mais nécessite la <strong>mise en place de gardes-fous très stricts et de sauvegardes régulières non accessibles à des agents</strong>, les agents pouvant contourner des prompts.</p>
<p>Le fondateur de <a href="https://datatalks.club/">Datatalks</a> raconte ainsi dans <a href="https://medium.com/@glasier067/claude-code-accidentally-deleted-a-production-database-heres-what-really-happened-9135b4bb2318">cet article</a> comment un agent IA a supprimé l’intégralité des bases de production de son site de formation lors de la migration entre deux serveurs.</p>
<p>Des chercheurs se sont intéressés par ailleurs à <strong>l’impact de l’IA sur l’environnement et les mentalités</strong>.</p>
<ul>
<li>L’IA réchaufferait ainsi l’égo et rendrait les gens moins sympathiques entre eux selon <a href="https://www.nature.com/articles/d41586-026-00979-x">cette étude de Nature</a>.</li>
<li>Par ailleurs, les <strong>data centers utilisés pour l’IA réchaufferaient localement la Terre de 2°C</strong> selon <a href="https://doi.org/10.48550/arXiv.2603.20897">cette analyse</a> menée notamment par des chercheurs de l’INRIA et de l’Institut d’ingénierie et de management de Grenoble. Ils estiment que 340 millions de personnes pourrait être concernés par ces îlots de chaleur.</li>
</ul>
</section>
</section>
<section id="open-source-plus-ou-moins" class="level2">
<h2 class="anchored" data-anchor-id="open-source-plus-ou-moins">Open Source : plus ou moins ?</h2>
<p>L’open source <strong>a le vent en poupe en ce moment</strong>, la souveraineté étant devenu un <em>buzz word</em> international. A ce titre, deux exemples différents de renouvellement de stratégies.</p>
<p>Bloomberg <a href="https://www.bloomberg.com/company/stories/sustaining-opentelemetry-cncf-moving-from-dependency-management-to-stewardship/">a annoncé fin mars</a> <strong>renforcer son soutien stratégique aux projets ouverts</strong>. Leur nouvelle stratégie repose sur le constat que connaître ses dépendances n’est pas suffisant. L’open source vit en effet grâce aux communautés autour des projets : si la communauté meurt, le projet va tomber en déshérence puis mourir. Bloomberg a ainsi décidé de soutenir plus activement les projets ouverts dont il dépend : des employés de l’agence de presse sont maintenant payés pour soutenir des projets open source stratégiques.</p>
<p>A l’inverse, au Royaume-Uni, <strong>le NHS a annoncé un (triste) revirement de sa stratégie open-source</strong>, craignant que publier des codes ne mette à jour des vulnérabilités informatiques à l’heure d’agents IA. Ce revirement, après une stratégie d’ouverture, a énervé <a href="https://shkspr.mobi/blog/2026/05/nhs-goes-to-war-against-open-source/">Terence Eden, un développeur anglais</a> : l’open source fait plus partie de la solution que du problème.</p>
</section>
<section id="outils-et-ressources" class="level2">
<h2 class="anchored" data-anchor-id="outils-et-ressources">Outils et ressources</h2>
<p>Ce mois-ci, une foison de nouveaux jouets technologiques à aller regarder.</p>
<section id="r-sql-et-données" class="level3">
<h3 class="anchored" data-anchor-id="r-sql-et-données">R, SQL et données</h3>
<ul>
<li><strong><code>ggalttext</code></strong> : Un package R pour générer automatiquement des <strong>textes alternatifs</strong> pour les graphiques <code>ggplot</code> (<a href="https://github.com/y-sunflower/ggalttext">leur repo GitHub</a>).</li>
<li><strong>a Grammar of graphics in SQL</strong> : <code>ggsql</code> est une extension SQL inspirée de <code>ggplot</code>, développée par Posit et présentée sur leur <a href="https://opensource.posit.co/blog/2026-04-20_ggsql_alpha_release/">blog</a>.</li>
<li><strong>Anonymisation de données</strong> :
<ul>
<li><strong>OpenAI</strong> : Outil de détection et masquage des données personnelles dans un texte (<a href="https://openai.com/index/introducing-openai-privacy-filter/">lien</a>).</li>
<li><strong>Dalibo</strong> : Solution pour anonymiser des bases PostgreSQL (<a href="https://labs.dalibo.com/postgresql_anonymizer">documentation</a>).</li>
</ul></li>
<li>Vous cherchez une <strong>alternative à Google Street View</strong> (#souveraineté) ? Le français 🐓 <a href="https://panoramax.fr">Panoramax</a> est fait pour vous et est open source.</li>
<li><strong>Parsing de PDF</strong> :
<ul>
<li>Comment choisir quel outil utiliser pour parser un pdf ? Des chercheurs de l’université de Offenburg et de Mannheim se sont penchés sur la question dans leur article <a href="https://doi.org/10.48550/arXiv.2603.18652">Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation</a>.</li>
<li><strong>OpenDataLoader PDF</strong> : Parser open source pour les RAG, sans GPU (<a href="https://opendataloader.org/">site</a>).</li>
</ul></li>
</ul>
</section>
<section id="quarto-1.9-nouveautés" class="level3">
<h3 class="anchored" data-anchor-id="quarto-1.9-nouveautés">Quarto 1.9 : Nouveautés</h3>
<ul>
<li>La notion de marque (ou <em>brand</em>) permet <strong>d’uniformiser le rendu d’un document à plusieurs formats</strong> et de prendre en compte les thèmes clair/sombre des utilisateurs. Les dernières évolutions sont présentées dans ce <a href="https://mickael.canouil.fr/posts/2026-04-15-quarto-brand-figures-tables/">post par Mickaël Canouil</a>.</li>
<li>Elle permet par ailleurs de générer des <strong>pdf accessibles</strong> ! Ce <a href="https://quarto.org/docs/blog/posts/2026-03-05-pdf-accessibility-and-standards/">post</a> détaille ce qu’il faut faire.</li>
</ul>
</section>
<section id="fun-et-formation" class="level3">
<h3 class="anchored" data-anchor-id="fun-et-formation">Fun et formation</h3>
<ul>
<li>Pour écrire <strong>votre nom sur la Terre,</strong> rendez-vous sur le <a href="https://science.nasa.gov/specials/your-name-in-landsat">site de la NASA</a>.</li>
</ul>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_25/infolettre.png" class="img-fluid figure-img" alt="Infolettre écrit en images satellites"></p>
<figcaption>Infolettre écrit en images satellites</figcaption>
</figure>
</div>
<ul>
<li><strong>Formation et cinéma</strong> : deux chaines youtube pour se former au machine learning et concilier cinéma et formation.
<ul>
<li>une <a href="https://youtube.com/playlist?list=PLQ9F4IqcaHKq-qVkrYhNPMQrU4TlyziAx&amp;si=WLWCfIvokaOyEj3N">première chaîne</a> retraçant l’histoire du machine learning à travers des vidéos pédagogiques. Idéale pour comprendre l’évolution des algorithmes et des paradigmes depuis les débuts jusqu’aux LLM.</li>
<li>un <a href="https://www.youtube.com/watch?v=GTZVN8nqSR4">entretien</a> avec Solomon Hykes, l’un des créateurs de Docker dans les années 2010.</li>
</ul></li>
</ul>
</section>
</section>
</section>
<section id="appel-à-contributions" class="level1">
<h1>Appel à contributions</h1>
<p>Vous avez un projet open source, une actualité ou une ressource à partager ? <strong>Contactez-nous</strong> pour les inclure dans la prochaine infolettre !</p>


</section>

 ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_25/</guid>
  <pubDate>Fri, 15 May 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_25/infolettre_25.png" medium="image" type="image/png" height="71" width="144"/>
</item>
<item>
  <title>Génération de commentaire de graphiques : retour d’expérience sur les statistiques agricoles et pistes d’amélioration</title>
  <link>https://ssphub-test.netlify.app/event/2026-04-ssm-agri/</link>
  <description><![CDATA[ 





<p>Le SSM Agriculture a mené un PoC pour que des LLM génèrent des commentaires sur l’évolution d’indicateurs agricoles à partir de graphiques. Si l’approche semblait prometteuse pour produire un premier jet que les analystes pourraient ensuite affiner, un premier point d’étape a mis en évidence des limites importantes (erreurs fréquentes sur les valeurs numériques, inversions de tendances, comparaisons incorrectes entre territoires …).</p>
<p>Dans le cadre d’un travail de recherche, un étudiant de l’Ecole polytechnique a travaillé à rendre plus robuste cette expérimentation sous la supervision d’une chercheuse de l’INRIA. Il a ainsi mis en place un cadre d’analyse pour quantifier les erreurs et proposé des améliorations pour répondre aux défauts identifiés.</p>
<p><strong>Ils nous présenteront ainsi leurs travaux le mardi 14 avril à 14h</strong>, en <a href="https://visio.numerique.gouv.fr/wvv-cwou-ugn">visio</a> et en présentiel à l’Insee (en salle 4C-458). La présentation devrait durer 30 minutes. Tout le monde est le bienvenu !</p>
<p>Si vous voulez l’ajouter dans votre agenda, voici une <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-04-ssmagri/202604_generationtxtgraphique.ics">invitation agenda</a>.</p>
<!--
Pour plus d'information, la Dares a présenté son travail aux [Journées de méthodologie statistique de 2025](https://journees-methodologie-statistique.insee.net/analyse-textuelle-de-documents-longs-cas-des-accords-dentreprise/).

**Replay de la présentation :**



**Présentation :**

<div class="sourceCode" id="cb1"><pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"></code><button title="Copy to Clipboard" class="code-copy-button"><i class="bi"></i></button></pre><iframe class="sourceCode yaml code-with-copy" src="https://cthiounn.github.io/presentation_analyse_textuelle_accords/#/title-slide"></iframe></div>


:::::{.cell}

```{.js .cell-code .hidden startFrom="37" source-offset="0"}
createButton(
  "https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/Analyse_textuelle_documents_longs.pdf",
  "Télécharger les slides en pdf"
)
```

::::{.cell-output .cell-output-display}

:::{#ojs-cell-1 nodetype="expression"}
:::
::::
:::::



La présentation est aussi disponible [en ligne](https://cthiounn.github.io/presentation_analyse_textuelle_accords/#/title-slide).



:::::{.cell}

```{.js .cell-code .hidden startFrom="50" source-offset="0"}
function createButton(slides, message="Télécharger les slides"){
  const button = html`
  <p class="text-center">
    <a class="btn btn-primary btn-lg cv-download" href="${slides}" target="_blank">
      <i class="fa-solid fa-file-arrow-down"></i>&ensp;${message}
    </a>
  </p>`
  return button
}
```

::::{.cell-output .cell-output-display}

:::{#ojs-cell-2 nodetype="declaration"}
:::
::::
:::::

-->



 ]]></description>
  <category>LLM</category>
  <category>SSM Agriculture</category>
  <guid>https://ssphub-test.netlify.app/event/2026-04-ssm-agri/</guid>
  <pubDate>Tue, 14 Apr 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2026-04-ssm-agri/logo_SSM_AGRESTE.png" medium="image" type="image/png" height="78" width="144"/>
</item>
<item>
  <title>LLM, fusées et lapins cartographes : bienvenue dans le tur-fu</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_24/</link>
  <description><![CDATA[ 





<section id="bienvenue-à-la-vingt-quatrième-infolettre" class="level1">
<h1>Bienvenue à la <strong>vingt quatrième infolettre</strong> !</h1>
<p>C’est le printemps ! Le temps est bon, il fait <a href="https://www.rtl.be/actu/monde/international/jusqua-416degc-avant-meme-la-fin-de-lhiver-une-vague-de-chaleur-extreme-frappe/2026-03-19/article/783199">41,6°C en Californie avant même la fin de l’hiver</a>.</p>
<p>Bienvenue à cette infolettre, coécrite avec <strong>Mélina</strong> ❤️.</p>
</section>
<section id="linfographie" class="level1">
<h1>L’infographie</h1>
<p>Qu’il est difficile de choisir une seule infographie. Pour ce mois-ci, c’est finalement une vidéo de tous les lancements de fusée dans l’espace depuis 1957 (ne pas avoir peur de tout ce qu’il y a là-haut). Attention, grand final de lancements pour l’année 2025 !</p>
<p></p><div class="quarto-video ratio ratio-16x9"><iframe data-external="1" src="https://www.youtube.com/embed/tUNZQCGKvbg" title="" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen=""></iframe></div> <em>Source : données recueillies par Jonathan McDowell et disponibles sur <a href="https://planet4589.org">https://planet4589.org</a>, infographie faite par <a href="https://peteratwoodprojects.wordpress.com/">Peter Atwood</a> et explications aussi <a href="https://www.linkedin.com/posts/peter-atwood-60b9ba18a_cartography-gis-blender3d-ugcPost-7422329412764770305-jgGI/">ici</a>.</em><p></p>
<p>Le site <a href="https://satellitetracker3d.com/">satellitetracker</a> permet par ailleurs de suivre l’ensemble des quelques 12 000 satellites qui gravitent autour de la Terre. Et cela en fait un petit nombre autour de la planète bleue grise …</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_24/satellites_trackers.png" class="img-fluid figure-img"></p>
<figcaption>Premier contact à l’approche de la Terre</figcaption>
</figure>
</div>
</section>
<section id="les-prochains-évènements-du-réseau" class="level1">
<h1>Les prochains évènements du réseau</h1>
<p>Une foison d’événements et d’informations ce mois-ci. Pour résumer :</p>
<ul>
<li>Un nouvel <strong>Open Science Meet-up</strong> à propos des <em>replication packages</em> en économie le <strong>2 avril 2026</strong> - <a href="https://insee-fr.zoom.us/j/96879320424?pwd=JwbRv0BRGHtpzijofpph6UHStnV5gO.1">lien</a> ;</li>
<li>un atelier du réseau sur la <strong>génération de commentaires de graphique par LLM</strong> le <strong>mardi 14 avril 2026 à 10h</strong> - <a href="https://visio.numerique.gouv.fr/wvv-cwou-ugn">lien</a> ;</li>
<li>un appel à contribution pour la conférence uRos du <strong>18 au 20 novembre 2026</strong> à Paris.</li>
</ul>
<section id="replication-packages-en-économie---open-science-meet-up---jeudi-2-avril-2026-13h30-visio" class="level2">
<h2 class="anchored" data-anchor-id="replication-packages-en-économie---open-science-meet-up---jeudi-2-avril-2026-13h30-visio"><em>Replication packages</em> en économie - Open science Meet-up - 📅 jeudi 2 avril 2026 13h30, visio</h2>
<p>Le prochain Open Science Meet-up de l’Insee portera sur le thème : <strong>Replication packages en économie : préparation, bonnes pratiques et attentes des revues, surtout lorsque les données sont confidentielles.</strong></p>
<p>Pour s’assurer de la reproducibilité d’une analyse publiée, de nombreuses revues demandent désormais aux auteurs de fournir un <em>replication package</em>, c’est-à-dire l’ensemble des données, du code et de la documentation.</p>
<p>Lors de ce Meet-Up, <a href="https://www.ilr.cornell.edu/people/lars-vilhuber">Lars Vilhuber</a> (Cornell University), <em>data editor</em> à l’<em>American Economic Association</em>, présentera les principes et les bonnes pratiques associés à la préparation et à la diffusion des <em>replication packages</em>. Il reviendra notamment sur les exigences croissantes des revues scientifiques, les standards qui se développent dans la communauté économique et les enjeux de la reproductibilité des travaux empiriques.</p>
<p>Cette rencontre sera l’occasion d’échanger sur la manière dont ces pratiques contribuent au <strong>développement d’une recherche plus transparente et plus ouverte</strong>, en particulier dans les domaines de l’analyse économique et statistique.</p>
<p>Elle s’adresse à toutes celles et ceux qui souhaitent mieux comprendre les enjeux de la reproductibilité des analyses économiques et de la diffusion ouverte des travaux de recherche.</p>
<p><strong>Rendez-vous le jeudi 2 avril de 13h30 à 14h15 en distanciel à ce <a href="https://insee-fr.zoom.us/j/96879320424?pwd=JwbRv0BRGHtpzijofpph6UHStnV5gO.1">lien</a></strong>.</p>
</section>
<section id="génération-de-commentaire-de-graphiques-retour-dexpérience-sur-les-statistiques-agricoles-et-pistes-damélioration---mardi-14-avril-14h-paris-dg-insee-et-visio" class="level2">
<h2 class="anchored" data-anchor-id="génération-de-commentaire-de-graphiques-retour-dexpérience-sur-les-statistiques-agricoles-et-pistes-damélioration---mardi-14-avril-14h-paris-dg-insee-et-visio">Génération de commentaire de graphiques : retour d’expérience sur les statistiques agricoles et pistes d’amélioration - 📅 mardi 14 avril 14h, Paris (DG Insee) et visio</h2>
<p>Le SSM Agriculture essaye de générer par LLM des commentaires sur l’évolution d’indicateurs agricoles à partir de graphiques. Si l’approche semblait prometteuse pour produire un premier jet que les analystes pourraient ensuite affiner, un point d’étape a mis en évidence des limites importantes (erreurs fréquentes sur les valeurs numériques, inversions de tendances, comparaisons incorrectes entre territoires …).</p>
<p>Dans le cadre d’un travail de recherche, un étudiant de l’Ecole polytechnique a travaillé à rendre plus robuste cette expérimentation sous la supervision d’une chercheuse de l’INRIA. Il a ainsi mis en place un <strong>cadre d’analyse pour quantifier les erreurs et proposé des améliorations pour répondre aux défauts identifiés</strong>.</p>
<p><strong>Ils nous présenteront ainsi leurs travaux le mardi 14 avril à 14h</strong>, en <a href="https://visio.numerique.gouv.fr/wvv-cwou-ugn">visio</a> et en présentiel à l’Insee (en salle 4C-458). La présentation devrait durer 30 minutes. Tout le monde est le bienvenu !</p>
<p>Si vous voulez l’ajouter dans votre agenda, voici une <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-04-ssmagri/202604_generationtxtgraphique.ics">invitation agenda</a>.</p>
<p>Les mises à jour seront faites sur la <a href="../../event/2026-04-ssm-agri/index.html">page de l’événement</a>.</p>
</section>
<section id="contribuez-à-la-conférence-sur-lutilisation-de-r-dans-la-statistique-publique-uros---18-20-novembre-2026-paris" class="level2">
<h2 class="anchored" data-anchor-id="contribuez-à-la-conférence-sur-lutilisation-de-r-dans-la-statistique-publique-uros---18-20-novembre-2026-paris">Contribuez à la conférence sur l’utilisation de R dans la statistique publique (uROS) - 📅 18-20 novembre 2026, Paris</h2>
<p>L’Insee accueille l’édition 2026 de la <strong>conférence uRos (use of R in official statistics)</strong> les <strong>18, 19 et 20 novembre 2026</strong> au centre Pierre-Mendès France, à Bercy.</p>
<p>Cette rencontre annuelle des <strong>utilisateurs de R en Europe et dans le monde</strong> sera l’occasion de valoriser les nombreux investissements en R faits à l’Insee et au sein du SSP. La liste des thèmes ainsi que toutes les informations pratiques sont en ligne sur le <a href="https://r-project.ro/conference2026_FR.html">site de la conférence</a>.</p>
<p>Si vous souhaitez y <strong>assister</strong>, vous pouvez d’ores et déjà vous inscrire <a href="https://uros2026.sciencesconf.org/registration?lang=fr">en ligne</a>.</p>
<p>Si vous souhaitez <strong>contribuer</strong>, l’appel à contribution va bientôt ouvrir jusqu’au <strong>15 juin</strong> sur le site de la conférence. Vous pourrez soumettre :</p>
<ol type="i">
<li>une présentation classique de 15 minutes ;</li>
<li>une présentation flash de 5 minutes ;</li>
<li>un tutoriel d’environ 2 heures.</li>
</ol>
<p>N’hésitez pas à contacter directement l’organisation de l’événement sur <a href="mailto:uros2026@insee.fr">uros2026@insee.fr</a>.</p>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<section id="données-tabulaires-le-deep-learning-est-il-devenu-une-alternative-crédible-aux-méthodes-de-boosting" class="level2">
<h2 class="anchored" data-anchor-id="données-tabulaires-le-deep-learning-est-il-devenu-une-alternative-crédible-aux-méthodes-de-boosting">Données tabulaires : le deep learning est-il devenu une alternative crédible aux méthodes de boosting ?</h2>
<p><a href="https://m-clark.github.io/posts/2026-03-01-dl-for-tabular-foundational/">Ce billet</a> de blog explique que, si le boosting reste une valeur sûre, plusieurs modèles récents - qu’il s’agisse de deep learning “classique” ou de modèles de <a href="https://arxiv.org/abs/2108.07258">fondation</a> - deviennent désormais <strong>réellement compétitifs</strong>. L’émergence de benchmarks plus rigoureux et de nouveaux outils facilite par ailleurs la comparaison et la prise en main de ces nouveaux modèles. <strong>Le principal frein reste toutefois le passage à l’échelle sur les très grands jeux de données</strong>, qui limite encore leur adoption.</p>
<p>Et pour les séries temporelles ? Le constat est <a href="https://berts-workshop.github.io/">proche</a>: les modèles de fondation progressent, mais les approches plus classiques restent très compétitives, et le principal enjeu est encore celui de l’évaluation, les résultats étant contrastés selon les benchmarks.</p>
</section>
<section id="des-pistes-intéressantes-pour-la-recherche-documentaire" class="level2">
<h2 class="anchored" data-anchor-id="des-pistes-intéressantes-pour-la-recherche-documentaire">Des pistes intéressantes pour la recherche documentaire</h2>
<p>Le projet <a href="https://github.com/VectifyAI/PageIndex">PageIndex</a> explore une approche de recherche documentaire sans base vectorielle, fondée sur une indexation hiérarchique des documents et une navigation par grand modèle de langage (LLM). Au lieu de découper le texte en <em>chunks</em> (des segments de texte issus du découpage d’un document) puis de faire une recherche par similarité dans une base vectorielle (c’est la méthode du <a href="https://arxiv.org/abs/2005.11401">RAG</a> classique), l’outil transforme un <strong>document long en un arbre hiérarchique</strong> - une sorte de table des matières enrichie pour les LLM - puis s’appuie sur cette structure pour guider la recherche des passages pertinents. L’objectif est de mieux traiter les <strong>documents longs et structurés</strong>, pour lesquels une simple recherche par similarité sur des <em>chunks</em> peut manquer de précision ou de contexte. L’approche est prometteuse et a l’intérêt de rendre le parcours de recherche plus lisible et plus traçable.</p>
<p>Ce <a href="https://www.anthropic.com/engineering/contextual-retrieval">billet</a> d’Anthropic sur le Contextual Retrieval propose une approche pour <strong>améliorer la recherche documentaire par RAG classique</strong>. L’idée est de conserver le schéma habituel (<em>chunks</em>, <em>embeddings</em>, <a href="https://en.wikipedia.org/wiki/Okapi_BM25">BM25</a>) mais d’ajouter à chaque <em>chunk</em> un court contexte explicatif généré à partir du document complet, afin d’éviter qu’un passage isolé perde les informations qui lui donnent son sens. Le billet indique que cette contextualisation réduit de 49 % les échecs de <em>retrieval</em>, et jusqu’à 67 % lorsqu’on y ajoute une étape de <em>reranking</em>. Le billet rappelle aussi un point utile : pour des bases documentaires “modestes” (moins de 200 000 <em>tokens</em>, soit environ 500 pages), il peut être plus simple de mettre directement tout le corpus dans le prompt, sans passer par l’étape RAG.</p>
</section>
<section id="dbt-duckdb-structurer-ses-pipelines-sql-avec-une-infrastructure-légère" class="level2">
<h2 class="anchored" data-anchor-id="dbt-duckdb-structurer-ses-pipelines-sql-avec-une-infrastructure-légère">dbt + DuckDB : structurer ses pipelines SQL avec une infrastructure légère</h2>
<p>Les outils <a href="https://rmoff.net/2026/02/19/ten-years-late-to-the-dbt-party-duckdb-edition">dbt + DuckDB</a> permettent de <strong>professionnaliser des traitements analytiques locaux</strong>. <a href="https://duckdb.org/">DuckDB</a> fournit un moteur SQL très rapide pour interroger et transformer des données, y compris directement depuis des fichiers Parquet. <a href="https://www.getdbt.com/">dbt</a> permet quant à lui d’ajouter une couche d’organisation : il aide à découper les traitements en étapes claires (sources, <em>staging</em>, tables finales), à gérer les dépendances entre modèles, à documenter les transformations, à tester la qualité des données etc. En d’autres termes, <strong>dbt fournit une méthode pour transformer une collection de scripts SQL en pipeline</strong> plus lisible, plus reproductible et plus maintenable.</p>
</section>
</section>
<section id="pour-aller-plus-loin-se-former" class="level1">
<h1>Pour aller plus loin / se former</h1>
<section id="apprendre-avec-lia" class="level2">
<h2 class="anchored" data-anchor-id="apprendre-avec-lia">Apprendre avec l’IA</h2>
<p>Utiliser l’IA pour apprendre, et pas seulement pour accélérer la production de code ? Le <strong>dépôt <a href="https://github.com/DrCatHicks/learning-opportunities">Learning Opportunities</a></strong> propose un plugin pour Claude Code qui déclenche de courts exercices de 10 à 15 minutes afin d’éviter l’illusion de compréhension que peuvent créer les assistants de code. Une approche intéressantes pour ceux qui souhaitent (continuer à) <strong>se former à l’heure du coding assisté par IA</strong>.</p>
</section>
<section id="microgpt-visualized-une-ressource-pour-comprendre-ce-quil-y-a-dans-un-gpt" class="level2">
<h2 class="anchored" data-anchor-id="microgpt-visualized-une-ressource-pour-comprendre-ce-quil-y-a-dans-un-gpt">MicroGPT Visualized : une ressource pour comprendre ce qu’il y a dans un GPT</h2>
<p>Pour mieux comprendre ce qui se passe réellement derrière les mots “<em>attention</em>”, “<em>transformer</em>”, “résidus” ou “<em>KV cache</em>”, <a href="https://microgpt.jtauber.com">MicroGPT Visualized</a> est une excellente découverte. Le site reprend le micro-GPT en Python d’Andrej Karpathy et le décompose en six étapes, du simple modèle bigramme jusqu’au <em>transformer</em> complet optimisé avec <em>Adam</em>, le tout avec <strong>schémas, animations et explications progressives</strong>.</p>
</section>
<section id="master-machine-learning-with-scikit-learn" class="level2">
<h2 class="anchored" data-anchor-id="master-machine-learning-with-scikit-learn">Master Machine Learning with scikit-learn</h2>
<p>Le livre en ligne <a href="https://mlbook.dataschool.io/">Master Machine Learning with scikit-learn</a> de Kevin Markham est une ressource très intéressante pour <strong>développer ou consolider ses bonnes pratiques en machine learning</strong>.</p>
</section>
</section>
<section id="fun" class="level1">
<h1>Fun</h1>
<section id="mapinou-un-jeu-mobile-pour-alimenter-la-recherche-et-mieux-comprendre-la-navigation-cartographique" class="level2">
<h2 class="anchored" data-anchor-id="mapinou-un-jeu-mobile-pour-alimenter-la-recherche-et-mieux-comprendre-la-navigation-cartographique">Mapinou : un jeu mobile pour alimenter la recherche et mieux comprendre la navigation cartographique</h2>
<p>Petite respiration carto ce mois-ci avec <a href="https://cartonumerique.blogspot.com/2026/03/mapinou.html"><strong>Mapinou</strong></a>, un jeu mobile gratuit développé par une équipe de recherche du LASTIG (IGN) dans le cadre du projet européen LostInZoom. En guidant un lapin à travers une carte de France multi-échelles, les joueurs produisent des données anonymes par leurs interactions avec la carte - zooms, déplacements, clics - que les chercheurs utilisent pour <strong>mieux comprendre les phénomènes de désorientation après zoom et concevoir des interfaces cartographiques plus fluides.</strong></p>


</section>
</section>

 ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_24/</guid>
  <pubDate>Tue, 31 Mar 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_24/orbital_launch.png" medium="image" type="image/png" height="79" width="144"/>
</item>
<item>
  <title>Analyse textuelle de documents longs : cas des accords d’entreprise</title>
  <link>https://ssphub-test.netlify.app/event/2026-03-dares-conventions-collectives/</link>
  <description><![CDATA[ 





<section id="présentation-de-latelier" class="level1">
<h1>Présentation de l’atelier</h1>
<p>Les accords d’entreprise représente une <strong>importe quantité d’information librement accessible</strong>. Ces accords permettent d’analyser les décisions prises au niveau le plus fin de l’économie. Ils présentent cependant plusieurs enjeux méthodologiques puisqu’ils peuvent être assez longs (jusqu’à des dizaines de page) et représentent une importante masse de données à analyser. Quelles techniques mettre en oeuvre alors pour détecter les thémes abordés par ces accords et en extraire des informations ?</p>
<p>Les méthodes mises en place pour répondre à ces questions incluent :</p>
<ul>
<li>l’<strong>analyse fréquentielle</strong>, après nettoyage des données ;</li>
<li>la modélisation thématique en mobilisant les techniques <strong>LDA</strong> ou <strong>BERTopic</strong> ;</li>
<li>enfin la capacité à <strong>extraire de l’information</strong> (comme le nombre d’heures supplémentaires) en utilisant les récentes évolutions qu’ont apporté les <strong>RAG et des LLM</strong>.</li>
</ul>
<p>L’atelier était en présentiel à l’Insee (salle 4C-358) et en visio.</p>
<p>Pour plus d’information, la Dares a présenté son travail aux <a href="https://journees-methodologie-statistique.insee.net/analyse-textuelle-de-documents-longs-cas-des-accords-dentreprise/">Journées de méthodologie statistique de 2025</a>.</p>
</section>
<section id="replay-de-latelier" class="level1">
<h1>Replay de l’atelier</h1>
<div class="quarto-video"><video id="video_shortcode_videojs_video1" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/2026-03_dares_extraction.mp4"></video></div>
</section>
<section id="support-de-présentation" class="level1">
<h1>Support de présentation</h1>
<div class="code-copy-outer-scaffold"><div id="cb1" class="sourceCode" style="background: #f1f3f5;">
<pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"></code></pre>
<iframe class="sourceCode yaml code-with-copy" src="https://cthiounn.github.io/presentation_analyse_textuelle_accords/#/title-slide">
</iframe>
</div></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="43" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 42;"><span id="cb1-43"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb1-44">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/Analyse_textuelle_documents_longs.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb1-45">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides en pdf"</span></span>
<span id="cb1-46">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<p>La présentation est aussi disponible <a href="https://cthiounn.github.io/presentation_analyse_textuelle_accords/#/title-slide">en ligne</a>.</p>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="56" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 55;"><span id="cb2-56"><span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">function</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(slides<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span> message<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span><span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span>){</span>
<span id="cb2-57">  <span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">const</span> button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span>
<span id="cb2-58"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;p class="text-center"&gt;</span></span>
<span id="cb2-59"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;a class="btn btn-primary btn-lg cv-download" href="</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">" target="_blank"&gt;</span></span>
<span id="cb2-60"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">      &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>message<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span></span>
<span id="cb2-61"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;/a&gt;</span></span>
<span id="cb2-62"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/p&gt;`</span></span>
<span id="cb2-63">  <span class="cf" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">return</span> button</span>
<span id="cb2-64">}</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="declaration">

</div>
</div>
</div>


</section>

 ]]></description>
  <category>extraction d&#39;information</category>
  <category>NLP</category>
  <category>DARES</category>
  <guid>https://ssphub-test.netlify.app/event/2026-03-dares-conventions-collectives/</guid>
  <pubDate>Wed, 18 Mar 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2026-03-dares-conventions-collectives/logo_Dares.png" medium="image" type="image/png" height="43" width="144"/>
</item>
<item>
  <title>sndsTools, un package R pour l’extraction de recours aux soins dans les données de santé du SNDS</title>
  <link>https://ssphub-test.netlify.app/project/2026_sndsTools/</link>
  <description><![CDATA[ 





<section id="synthèse-du-projet" class="level1">
<h1>Synthèse du projet</h1>
<table class="caption-top table">
<thead>
<tr class="header">
<th></th>
<th><code>sndsTools</code>, un package R pour l’extraction de recours aux soins dans les données de santé du SNDS</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>Détail du projet</strong></td>
<td><code>sndsTools</code> est un package R conçu pour faciliter l’extraction de recours aux soins à partir des données de santé du Système National de Données de Santé (SNDS) hébergées sur le portail de l’Assurance Maladie. Il simplifie les étapes d’extraction de données du SNDS sur des données utilisées dans la majorité des études sur le SNDS.</td>
</tr>
<tr class="even">
<td><strong>Acteurs</strong></td>
<td>Insee, Institut du Cerveau, Inria, AP-HM</td>
</tr>
<tr class="odd">
<td><strong>Résultats du projet</strong></td>
<td>Le package R <code>sndsTools</code> est en production et téléchargeable depuis GitHub <i class="fa-brands fa-github" aria-label="github"></i>.</td>
</tr>
<tr class="even">
<td><strong>Produits et documentation du projet</strong></td>
<td><a href="https://sndstoolers.github.io/sndsTools/index.html">Site de documentation du package R</a></td>
</tr>
<tr class="odd">
<td><strong>Code du projet</strong></td>
<td>- Le code est disponible sur GitHub <i class="fa-brands fa-github" aria-label="github"></i> <a href="https://github.com/SNDStoolers/sndsTools">https://github.com/SNDStoolers/sndsTools</a></td>
</tr>
</tbody>
</table>
</section>
<section id="projets-similaires" class="level1">
<h1>Projets similaires</h1>
<div id="listing-similar-project" class="quarto-listing quarto-listing-container-grid">
<div class="list grid quarto-listing-cols-3">
<div class="g-col-1" data-index="0" data-categories="cGFja2FnZSUyQ1IlMkNlbiUyMHByb2R1Y3Rpb24lMkNJbnNlZQ==" data-listing-date-sort="1672531200000" data-listing-file-modified-sort="1778082287082" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="1" data-listing-word-count-sort="148">
<a href="../../project/2023_doremifasol/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2023_doremifasol/doremifasol.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title" data-anchor-id="projets-similaires">
Doremifasol
</h5>
<div class="card-text listing-description delink">
<p>Le package <i class="fa-brands fa-r-project" aria-label="r-project"></i> R Doremifasol facilite la récupération des données Insee pour les data scientists. La librairie est open source, disponible sur…</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2023
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="1" data-categories="ZW4lMjBwcm9kdWN0aW9uJTJDSW5zZWUlMkNwYWNrYWdlJTJDUHl0aG9u" data-listing-date-sort="1672531200000" data-listing-file-modified-sort="1778082287083" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="219">
<a href="../../project/2023_pynsee/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2023_pynsee/example_pynsee.webp" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
pynsee, un package Python <i class="fa-brands fa-python" aria-label="python"></i> pour récupérer les données de l’Insee
</h5>
<div class="card-text listing-description delink">
<p>Le package <i class="fa-brands fa-python" aria-label="python"></i> <code>pynsee</code> facilite la récupération des données Insee pour les data scientists. La librairie est open source, disponible sur Github.</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2023
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="2" data-categories="UHl0aG9uJTJDcGFja2FnZSUyQ2RlZXAlMjBsZWFybmluZyUyQ2ltYWdlcyUyMHNhdGVsbGl0ZXM=" data-listing-date-sort="1664582400000" data-listing-file-modified-sort="1778082287082" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="3" data-listing-word-count-sort="401">
<a href="../../project/2022_satellites/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2022_satellites/Satellites_Mayotte.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Utilisation des images satellites pour la statistique publique
</h5>
<div class="card-text listing-description delink">
<p>Utiliser les images satellites pour améliorer le recensement de la population dans les territoires ultra-marins</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 oct. 2022
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="3" data-categories="UHl0aG9uJTJDY29kaWZpY2F0aW9uJTIwYXV0b21hdGlxdWUlMkNwYWNrYWdlJTJDZW4lMjBwcm9kdWN0aW9uJTJDTUxGbG93" data-listing-date-sort="1640995200000" data-listing-file-modified-sort="1778082287081" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="363">
<a href="../../project/2022_codif_ape/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2022_codif_ape/codif_ape_overall.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Codification automatique de l’activité principale des entreprises
</h5>
<div class="card-text listing-description delink">
<p>Développer un algorithme de machine learning pour automatiser la classification de l’activité principale des entreprises et mise en production</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2022
</div>
</div>
</div>
</div></a>
</div>
</div>
<div class="listing-no-matching d-none">Aucun article correspondant</div>
</div>



</section>

 ]]></description>
  <category>Insee</category>
  <category>package</category>
  <category>extraction de données</category>
  <category>R</category>
  <category>données administratives</category>
  <guid>https://ssphub-test.netlify.app/project/2026_sndsTools/</guid>
  <pubDate>Tue, 17 Mar 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/project/2026_sndsTools/sndsTools_img.png" medium="image" type="image/png" height="132" width="144"/>
</item>
<item>
  <title>L’IA dans l’oeil du cyclone</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_23/</link>
  <description><![CDATA[ 





<section id="bienvenue-à-la-vingt-troisième-infolettre" class="level1">
<h1>Bienvenue à la <strong>vingt troisième infolettre</strong> !</h1>
<p>Après <strong>Niels, Oriana et Pedro</strong>, trois tempêtes en 10 jours, nous revoici sous un ciel moins pluvieux. Qu’à cela ne tienne, je vous parie que la prochaine s’appellera <a href="https://meteofrance.com/actualites-et-dossiers/comprendre-la-meteo/comment-choisit-le-nom-dune-tempete"><strong>Regina</strong></a>. Bienvenue à la nouvelle infolettre, coécrite avec <strong>Laura</strong> ❤️.</p>
</section>
<section id="linfographie" class="level1">
<h1>L’infographie</h1>
<p>Dans la saison hivernale, ce mois-ci c’est le travail de l’agence italienne <a href="https://thevisualagency.com/about/">The Visual Agency</a> qui a été <a href="https://www.youtube.com/watch?v=yxLu5CpPUFI">sélectionné</a>. Ils ont transcrit les mots d’une conférence sur les sages et les rebelles (<em>i saggi e i rebelli in italiano 🇮🇹 </em>) en <strong>une chaine de montagnes</strong> dont la hauteur des sommets représente l’occurence des termes et la proximité entre sommets la proximité sémantique.</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_23/tva_topography_talk.png" class="img-fluid figure-img"></p>
<figcaption><em>Source : The Visual Agency, Topography of a talk, <a href="https://thevisualagency.com/tva-blog-articles/topography-of-a-talk-between-vibe-coding-and-parametric-design/">lien</a></em></figcaption>
</figure>
</div>
<p>Et comme c’est le mois de février, je ne résiste pas à l’envie de mettre aussi en avant cette <strong>animation qui retrace les étapes</strong> de création d’une infographie réalisée avec ggplot lors d’un <a href="https://github.com/gkaramanis/tidytuesday">TidyTuesday</a>. Du tout premier graphique jusqu’à la version finale, elle condense en quelques secondes tout le travail d’analyse, d’itération et de mise en forme qui permet d’aboutir à l’illustration finale.</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_23/gkaramanis_tour_de_france.gif" class="img-fluid figure-img"></p>
<figcaption><em>Source : <a href="https://toulouse-dataviz.notion.site/Newsletter-Toulouse-DataViz-46-2afc08a98edb80cd9c21ee622fe9712a">Toulouse data viz</a> et <a href="https://github.com/gkaramanis/tidytuesday/tree/master/2020/2020-week15">repo TidyTuesday</a></em></figcaption>
</figure>
</div>
</section>
<section id="les-prochains-évènements-du-réseau" class="level1">
<h1>Les prochains évènements du réseau</h1>
<section id="extraction-dinformation-dans-des-documents-longs-par-la-dares---18-mars-2026-14h-à-la-dg-insee-et-visio" class="level2">
<h2 class="anchored" data-anchor-id="extraction-dinformation-dans-des-documents-longs-par-la-dares---18-mars-2026-14h-à-la-dg-insee-et-visio">Extraction d’information dans des documents longs par la DARES - 📅 18 mars 2026 14h (à la DG Insee et visio)</h2>
<p>La Dares présentera ses <strong>travaux d’analyse des accords d’entreprise</strong>, des documents souvent très longs, pouvant compter plusieurs dizaines de pages. On y abordera les méthodes mises en œuvre pour repérer automatiquement les sujets traités dans ces accords et en extraire des informations pertinentes (par exemple, le nombre de jours de télétravail par semaine).</p>
<p>L’atelier se tiendra à la fois en présentiel à la DG de l’Insee (salle 4C-358) et en visio. Les détails sont disponibles dans <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/20260318_SSPHub_DARES_accords_entreprise.ics">cette invitation calendrier</a>.</p>
</section>
<section id="appel-à-projets-journées-de-contribution-à-lopen-source---16-17-juin-2026---paris" class="level2">
<h2 class="anchored" data-anchor-id="appel-à-projets-journées-de-contribution-à-lopen-source---16-17-juin-2026---paris">📣 Appel à projets : journées de contribution à l’open-source - 📅 16 &amp; 17 juin 2026 - Paris</h2>
<p>L’Insee organise <strong>deux journées dédiées à la contribution open-source les 16 et 17 juin 2026</strong>. Les deux jours auront lieu au <em>Lieu de la transformation publique</em> à Paris. Le but de ces journées est de démystifier l’open source, d’expliquer comment y contribuer, et d’encourager chacun à soutenir les projets que nous utilisons largement en datascience.</p>
<p>Pour préparer ces journées, nous <strong>recherchons quelques sponsors 👑</strong>. Leur rôle : proposer des projets (open-source bien sûr) pertinents pour les data-scientists et auxquels les participants pourraient contribuer pendant l’évènement. Cela peut être un package R, Python, un site …</p>
<p>En tant que sponsor, vous devrez <strong>connaître le sujet</strong> (sans en être expert ou mainteneur) et le besoin associé. En amont, votre <strong>rôle</strong> sera d’identifier une ou plusieurs <em>issues</em> à traiter et de préparer les pré-requis techniques (repo Git, droits d’accès) pour que les contributeurs puissent se mettre en selle rapidement le jour J. Le jour J, vous pourrez présenter le projet et la problématique, puis participer au travail collectif dont le but sera de produire des contributions (<em>pull-requests</em>) pour répondre aux besoins identifiés.</p>
<p>Si vous avez des questions, que vous êtes intéressé pour proposer un sujet ou simplement pour participer, n’hésitez pas à nous contacter 👋 par <a href="mailto:ssphub-contact@insee.fr">mail</a> ou par Tchap.</p>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<section id="agents-ia-petites-catastrophes-et-grandes-conséquences" class="level2">
<h2 class="anchored" data-anchor-id="agents-ia-petites-catastrophes-et-grandes-conséquences">Agents IA : petites catastrophes (et grandes conséquences ?)</h2>
<p>L’usage des <strong>agents IA</strong> basés sur des grands modèles de langage (LLM) a pris de l’ampleur courant 2025, notamment grâce à l’émergence de frameworks et d’outils facilitant leur utilisation. Pour les plus novices, un agent IA est un système capable d’exécuter des tâches de manière autonome, en s’appuyant sur un LLM qui interprète les entrées et peut mobiliser un ensemble d’outils pour y répondre. L’agent peut ainsi <strong>“percevoir”</strong>, <strong>“raisonner”</strong>, <strong>“décider”</strong> et <strong>“agir”</strong> dans son environnement afin d’atteindre un objectif donné. On comprend donc qu’il peut exister quelques couacs dans l’utilisation de ces agents IA, c’est ce que nous allons voir dans les témoignages suivants :</p>
<ul>
<li><p><em>Quand un agent se venge pour un refus de contribution à un projet opensource</em> : <a href="https://theshamblog.com/an-ai-agent-published-a-hit-piece-on-me/"><strong>ce témoignage</strong></a> nous raconte comment un agent a pu publier des propos diffamants sur l’un des <em>maintainers</em> volontaires de la librarie Python mondialement connue <strong>Matplotlib</strong> ;</p></li>
<li><p><em>Quand un agent vole les clés d’API de son utilisateur</em> : <a href="https://www.reddit.com/r/ClaudeAI/comments/1r186gl/my_agent_stole_my_api_keys/?share_id=a4xNFtHEI1uNDLfrPOvxm&amp;utm_medium=android_app&amp;utm_name=androidcss&amp;utm_source=share&amp;utm_term=1"><strong>ce témoignage</strong></a> raconte cette fois le cas d’un agent qui, pour tester ne hypothèse, a pris quelques libertés… en accédant à un fichier auquel il n’était pas censé avoir accès. <em>Petit rappel : vos clé d’API 🔑, c’est comme vos clés d’appartement — à ne pas laisser traîner, sinon quelqu’un risque de venir squatter… et de vous laisser la facture</em> 👮.</p></li>
</ul>
<p>Enfin, <a href="https://www.robinlinacre.com/respectful_use_of_ai/"><strong>ce billet de blog</strong></a> revient sur une utilisation respectueuse de l’IA au sein des équipes de développement (qui peut être élargie à toute équipe travaillant sur un projet commun, qu’il soit statistique ou informatique).</p>
</section>
<section id="outils---locérisation-ou-les-llm-multimodaux-de-nouveaux-outils-open-source-pour-lextraction-de-texte-non-structuré" class="level2">
<h2 class="anchored" data-anchor-id="outils---locérisation-ou-les-llm-multimodaux-de-nouveaux-outils-open-source-pour-lextraction-de-texte-non-structuré">Outils - l’océrisation ou les LLM multimodaux : de nouveaux outils open source pour l’extraction de texte non structuré 📄</h2>
<p>Ces derniers mois, différents outils d’extraction d’information issus de textes non structurés ont émergé. On peut y retrouver :</p>
<ul>
<li><p>Le framework <a href="https://github.com/raphaelmansuy/edgequake"><strong>EdgeQuake</strong></a>, implémenté en Rust pour des performances élevées, permet de prendre en compte plus d’information sur la composition des textes que les RAG. En effet, là où les RAG se limitent à l’analyse de la similarité sémantique (<em>cf.</em> explications sur les RAG <a href="https://en.wikipedia.org/wiki/Retrieval-augmented_generation">ici</a> par exemple), EdgeQuake va décomposer le document en un graphe de connaissances, permettant de garder les relations structurelles entre les concepts ;</p></li>
<li><p>Plusieurs outils d’OCR (reconnaissance optique de caractère, permettant d’extraire du texte à partir d’images) ont été récemment mis à disposition en open source :</p>
<ul>
<li><a href="https://github.com/datalab-to/chandra?tab=Apache-2.0-1-ov-file"><strong>Chandra</strong></a>, mis à disposition par <em>datalab</em>, l’entreprise à l’origine du framwork <a href="https://github.com/datalab-to/marker?tab=readme-ov-file"><strong>marker-pdf</strong></a> et du moteur OCR <a href="https://github.com/datalab-to/surya"><strong>surya</strong></a> ;</li>
<li><a href="https://github.com/deepseek-ai/DeepSeek-OCR-2"><strong>DeepSeek-OCR-2</strong></a>, qui s’inspire de la lecture humaine pour reconstruire l’ordre logique de lecture, en plus de la détection des caractères ;</li>
<li>Le modèle OCR multimodal <a href="https://github.com/zai-org/GLM-OCR"><strong>GLM-OCR</strong></a>, qui analyse la structure globale du document en complément de la reconnaissance de caractères.</li>
</ul></li>
</ul>
</section>
<section id="un-petit-détour-côté-r" class="level2">
<h2 class="anchored" data-anchor-id="un-petit-détour-côté-r">Un (petit) détour côté R</h2>
<p>Et voici quelques news côté R / Posit :</p>
<ul>
<li><p>Après le benchmark des meilleurs codeurs R parmi les LLM le mois dernier, <a href="https://posit.co/blog/2026-01-16-ai-newsletter/"><strong>l’infolettre Posit</strong></a> de janvier apporte quelques informations sur l’utilisation de LLM ou d’agents IA dans Rstudio (notamment le tant attendu déploiement de l’IA dans Rstudio !) ;</p></li>
<li><p>Une liste de packages R utilisant des LLM est disponible <a href="https://luisdva.github.io/llmsr-book/r-pkgs.html">ici</a> (<em>bien que nous vous conseillons l’utilisation de Python si vous souhaitez travailler avec des LLM</em> 😉) ;</p></li>
<li><p>Un nouvel outil <a href="https://github.com/eitsupi/arf">arf</a> - <em>en cours de développement, pas encore stable</em> - se pose en console R moderne multiplateforme ;</p></li>
<li><p>Enfin, <a href="https://prodigious-trailblazer-3628.kit.com/posts/the-end-of-shiny"><strong>ce billet de blog</strong></a> revient sur les limites d’une application <strong>R Shiny</strong>, par rapport à une “vraie” application web. A l’ère des nouveaux outils de <em>vibe coding</em>, faut-il encore recourir à Rshiny, réputé pour sa simplicité d’utilisation ? Le débat est ouvert 🤔.</p></li>
</ul>
</section>
<section id="formation" class="level2">
<h2 class="anchored" data-anchor-id="formation">Formation 🏋️</h2>
<p>Ce mois-ci, voici des <strong>ressources intéressantes pour se former aux framework IA</strong> :</p>
<ul>
<li><p><a href="https://learn.deeplearning.ai/"><strong>DeepLearning.AI</strong></a> propose des cours (gratuits après inscription) sur différents modèles et outils d’IA. Cette plateforme a été fondée par Andrew Ng, qui y enseigne également 🤩 ;</p></li>
<li><p>Pour apprendre à utiliser <strong>Pytorch</strong>, <a href="https://www.learnpytorch.io/"><strong>learnpytorch</strong></a> est une excellente ressource : vidéos, notebooks (avec corrigés) et présentations sont disponibles. Les principaux modèles de deep learning y sont abordés (dont la classification et la computer vision), et il existe même un module consacré au déploiement de ces modèles. <em>Tout ce dont vous avez besoin pour maîtriser le package Insee <a href="https://github.com/InseeFrLab/torchTextClassifiers"><strong>torchTextClassifier</strong></a> comme personne</em> 👍.</p></li>
</ul>
</section>
<section id="fun" class="level2">
<h2 class="anchored" data-anchor-id="fun">Fun</h2>
<p>Vu la longueur de cette infolettre, nous vous gardons des petites pépites pour le mois prochain 😉</p>


</section>
</section>

 ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_23/</guid>
  <pubDate>Sat, 28 Feb 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_23/tva_topography_talk.png" medium="image" type="image/png" height="203" width="144"/>
</item>
<item>
  <title>La première infographie</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_22/</link>
  <description><![CDATA[ 





<section id="bienvenue-à-la-vingt-deuxième-infolettre" class="level1">
<h1>Bienvenue à la <strong>vingt deuxième infolettre</strong> !</h1>
<p>Bienvenue en 2026, l’année pendant laquelle les gens né(e)s en 2000 vont avoir 26 ans.</p>
</section>
<section id="linfographie" class="level1">
<h1>L’infographie</h1>
<p>Ce mois-ci, je vous propose de découvrir une infographie faite au XIX<sup>ième</sup> siècle (et à 88 ans !) par Charles Minard. Il s’agit de la <em>carte figurative des pertes successives en hommes de l’armée française dans la campagne de Russie 1812-1813</em>. Cette carte est considérée comme l’une des <strong>premières infographies modernes</strong> 🐓 et fait figurer :</p>
<ul>
<li>l’itinéraire de l’armée napoléonienne en Russie (en deux couleurs, pour la campagne à l’aller en rose et la retraite en noir) ;</li>
<li>la taille de l’armée, prenant en compte les arrivées et les morts ;</li>
<li>la température lors de la retraite (jusque -30<a href="https://fr.wikipedia.org/wiki/%C3%89chelle_R%C3%A9aumur">°R</a>, soit -37,5°C 🥶 ).</li>
</ul>
<p>A noter que des récentes analyses ADN ont montré que les causes de mortalité étaient sûrement multiples parmi les troupes napoléoniennes. En effet, le matériel génétique de maladies (typhus, diarrhée, fièvre paratyphoïde) a aussi <a href="https://www.lemonde.fr/sciences/article/2025/10/24/ces-infections-qui-ont-fauche-la-grande-armee-de-napoleon-en-1812_6649197_1650684.html">été retrouvé</a> dans des dépouilles le soldats napoléoniens.</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_22/minard.jpeg" class="img-fluid figure-img"></p>
<figcaption><a href="https://heritage.ecoledesponts.fr/ark:/12148/btv1b10484829h/f52.item.r=minard"><em>Tableaux graphiques et cartes figuratives</em>, par Charles Minard</a></figcaption>
</figure>
</div>
<p>Cette carte est tellement connue qu’elle a été copiée, traduite, refaite avec les moyens modernes :</p>
<ul>
<li>la voici <a href="https://www.datavis.ca/gallery/re-minard.php">in English</a> ou <a href="https://www.datavis.ca/gallery/minard/minard-MarcoMeschini.png">in italiano</a> ;</li>
<li>en <a href="https://www.datavis.ca/gallery/minard/ggplot2/march.jpg">R (avec ggplot2)</a> ;</li>
<li>en <a href="https://www.datavis.ca/gallery/minard/Minard-IML.gif">SAS (pff, so 2025)</a>.</li>
</ul>
<p>Pour les curieux, le livre complet, comprenant d’autres très belles cartographies de Minard, sont disponibles dans les <a href="https://heritage.ecoledesponts.fr/ark:/12148/btv1b10484829h.r=minard?rk=257512%3B0">bien-heureuses archives numérisées de l’École des Ponts</a>.</p>
</section>
<section id="whats-up-le-réseau" class="level1">
<h1>What’s up le réseau ?</h1>
<section id="présentation-de-cartographia" class="level2">
<h2 class="anchored" data-anchor-id="présentation-de-cartographia">Présentation de Cartographia</h2>
<p>Le 13 janvier, nous avons reçu Françoise Bahoken et Nicolas Lambert. Ils nous ont présenté leur passionnant livre <a href="https://www.dunod.com/histoire-geographie-et-sciences-politiques/cartographia-comment-geographes-redessinent-monde">Cartographia</a>, qui explore ludiquement les grandes questions de la cartographie. Le livre rappelle aussi que toute cartographie est une <strong>simplification de la réalité</strong> et qu’elle comprend ainsi forcément un parti pris, dont il faut être conscient. L’enjeu est alors de ne pas chercher à manipuler l’information à travers une cartographie et de tenter d’adopter <strong>le point de vue le plus neutre possible</strong>.</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_22/carto_manip.png" class="img-fluid figure-img"></p>
<figcaption>Comment des données identiques peuvent véhiculer un message totalement différent par les choix de visualisation effectués</figcaption>
</figure>
</div>
<p>Le replay et leur présentation sont <a href="../../event/2026-01-cartographia/index.html">en ligne</a>.</p>
</section>
<section id="journée-contribution-open-source-16-17-juin-2026---paris" class="level2">
<h2 class="anchored" data-anchor-id="journée-contribution-open-source-16-17-juin-2026---paris">Journée contribution open source 📅 16 &amp; 17 juin 2026 - Paris</h2>
<p>A vos agendas ! Le SSPLab organise une journée autour de la contribution open-source les 16 et 17 juin 2026. Cela aura lieu au Lieu de la transformation publique à Paris. Le but de cette journée est de démystifier l’open source, d’expliquer comment y contribuer, et d’encourager chacun à soutenir les projets que nous utilisons largement en datascience.</p>
<p>Le programme est en cours d’élaboration donc si vous avez une idée de projets open-source d’intérêt auquel vous souhaitez contribuer, n’hésitez pas à nous contacter !</p>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<p>Beaucoup d’actualités ce mois-ci, mais c’est plus calme côté data science 🤷‍♀️. Si vous n’êtes pas friands de techniques, et que vous avez déjà reçu 2 mails depuis que vous avez commencé à lire cette infolettre, vous pouvez passer la veille ce mois-ci 😉.</p>
<section id="llm" class="level2">
<h2 class="anchored" data-anchor-id="llm">LLM</h2>
<p>Dans la série agents, cet <a href="https://posit.co/blog/r-llm-evaluation-03/">article de Posit</a> compare <strong>différents modèles de LLM pour coder en R</strong> (sans les modèles de Mistral 😮🇫🇷😮). Résultat : les modèles les mieux évalués à date, mais attention les classements évoluent très vite, sont Claude Sonnet 4.5, Claude Opus 4.5 et OpenAI GPT-5.</p>
</section>
<section id="outils" class="level2">
<h2 class="anchored" data-anchor-id="outils">Outils</h2>
<p>Deux outils open-source pour synthétiser des données ou les valoriser.</p>
<ul>
<li>Si vous cherchez à générer des <strong>données synthétiques</strong>, il y a <a href="https://nvidia-nemo.github.io/DataDesigner/latest/">NeMo</a>. Open-source, l’objectif de ce package Python est de permettre de générer des données synthétiques facilement, en se branchant au LLM de votre choix.</li>
<li>Côté <strong>valorisation des données</strong>, il y a <a href="https://marmotdata.io/">Marmot</a>, un outil open-source pour parcourir plus facilement vos différents jeux de données.</li>
<li>Un peu plus d’<strong>interactivité dans des cellules de code en Quarto</strong> ? <a href="https://r-wasm.github.io/quarto-live/">Quarto-live</a> permet de faire des cellules de code réactives dans une page HTML Quarto.</li>
<li>Du côté des <strong>publications en ligne reproductibles et interactives</strong>, l’OFCE a publié depuis plusieurs années son package maison <a href="https://github.com/OFCE/ofce">OFCE</a>. Il permet de publier sur Internet les études de l’OFCE, en insérant des graphiques interactifs et en gérant aussi la charte graphique de l’OFCE.</li>
</ul>
</section>
<section id="formation" class="level2">
<h2 class="anchored" data-anchor-id="formation">Formation</h2>
<p>Quelques ressources intéressantes de formation ou articles de blog.</p>
<ul>
<li>Côté Python, le célèbre livre <a href="https://jakevdp.github.io/PythonDataScienceHandbook/"><em>Python datascience Handbook</em></a> est disponible aussi en version web ;</li>
<li>Pour comprendre la manière dont fonctionnent les <strong>filtres Bloom</strong> dans la technologie <strong>Parquet</strong>, je vous recommande ce <a href="https://www.icem7.fr/outils/les-filtres-de-bloom-dans-parquet/">très utile post de blog</a> d’Éric Mauvière.</li>
</ul>
</section>
<section id="fun" class="level2">
<h2 class="anchored" data-anchor-id="fun">Fun</h2>
<ul>
<li>Une excellente BD permet d’<strong>expliquer les statistiques facilement</strong> (aussi pour les enfants). Dans <a href="https://e-pedago.institut-agro-dijon.fr/bd-statistiques/"><em>Les statistiques en BD</em></a>, <a href="https://linkedin.com/in/laurence-dujourdy-b9a2a36">Laurence Dujourdy</a> et Mathieu Bartoletti vulgarisent simplement les concepts que l’on a appris il y a un certain temps. Le tout est dessiné par <a href="https://linkedin.com/in/thibault-roy-129b98195">Thibault Roy</a> et est porté par <a href="https://institut-agro-dijon.fr/">l’institut Agro de Dijon</a>.</li>
<li>Pour avoir une lecture sociale des évolutions de Paris, n’oubliez pas d’aller voir l’analyse <a href="https://www.lesechos.fr/politique-societe/societe/ce-que-la-carte-des-kebabs-revele-de-paris-2191635"><strong>Ce que la carte des kebabs révèle de Paris</strong></a> publiée dans <em>Les Echos</em>. A travers les kebabs, Jules Grandin analyse la géographie de Paris et son évolution. Il retrouve ainsi les grandes avenues, les gares, les quartiers densément peuplés et enfin les inégalités d’âge et de revenus.</li>
</ul>


</section>
</section>

 ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_22/</guid>
  <pubDate>Fri, 30 Jan 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_22/minard.jpeg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Françoise Bahoken et Nicolas Lambert, présentation de leur livre Cartographia</title>
  <link>https://ssphub-test.netlify.app/event/2026-01-cartographia/</link>
  <description><![CDATA[ 





<section id="cartographia---comment-les-géographes-redessinent-le-monde---françoise-bahoken-et-nicolas-lambert" class="level2">
<h2 class="anchored" data-anchor-id="cartographia---comment-les-géographes-redessinent-le-monde---françoise-bahoken-et-nicolas-lambert"><a href="https://www.dunod.com/histoire-geographie-et-sciences-politiques/cartographia-comment-geographes-redessinent-monde">Cartographia</a> - comment les géographes (re)dessinent le monde - Françoise Bahoken et Nicolas Lambert</h2>
<p><strong>Replay de la présentation :</strong></p>
<div class="quarto-video"><video id="video_shortcode_videojs_video1" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-01-cartographia/2026-01-13-Cartographia.mp4"></video></div>
<iframe src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-01-cartographia/2026-01-13-Cartographia.pdf" width="100%" height="600px">
<p>
Your browser does not support PDFs. <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-01-cartographia/2026-01-13-Cartographia.pdf">Download the PDF instead.</a>
</p>
</iframe>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="30" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 29;"><span id="cb1-30"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb1-31">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-01-cartographia/2026-01-13-Cartographia.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb1-32">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span></span>
<span id="cb1-33">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="39" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 38;"><span id="cb2-39"><span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">function</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(slides<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span> message<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span><span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span>){</span>
<span id="cb2-40">  <span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">const</span> button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span>
<span id="cb2-41"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;p class="text-center"&gt;</span></span>
<span id="cb2-42"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;a class="btn btn-primary btn-lg cv-download" href="</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">" target="_blank"&gt;</span></span>
<span id="cb2-43"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">      &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>message<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span></span>
<span id="cb2-44"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;/a&gt;</span></span>
<span id="cb2-45"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/p&gt;`</span></span>
<span id="cb2-46">  <span class="cf" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">return</span> button</span>
<span id="cb2-47">}</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="declaration">

</div>
</div>
</div>


</section>

 ]]></description>
  <category>cartographie</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2026-01-cartographia/</guid>
  <pubDate>Tue, 13 Jan 2026 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2026-01-cartographia/cartographia.jpeg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Qui pour financer l’open source?</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_21/</link>
  <description><![CDATA[ 





<section id="bienvenue-à-la-vingt-et-unième-infolettre" class="level1">
<h1>Bienvenue à la <strong>vingt et unième infolettre</strong> !</h1>
<p>Début décembre, c’est le deuxième moment dur de l’année après juin. En septembre, on se dit qu’on fera tout cela d’ici Noël, large. Et puis on se réveille, c’est déjà début décembre, la to-do-list est loin d’être finie et la préparation des fêtes de fin d’année arrive à grand pas.</p>
<p>Allez, courage, <strong>dernier sprint</strong> de 2025 !</p>
</section>
<section id="linfographie" class="level1">
<h1>L’infographie</h1>
<p>Ce mois-ci, découvrez un outil pour visualiser les <strong>panaches de pollution aux particules fines (PM2.5)</strong> émis par 9&nbsp;500 sites les plus polluants dans plus de 2&nbsp;500 zones urbaines. <a href="https://climatetrace.org"><strong>ClimateTRACE</strong></a> reconstitue une journée type de pollution par ces sites à partir des conditions météorologiques réelles.</p>
<p>Spoiler : la pollution de la centrale électrique d’Ivry s’envole jusque très très loin …</p>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_21/climatetrace.png" class="img-fluid figure-img" width="800"></p>
<figcaption><em>source: <a href="https://climatetrace.org/air-pollution">ClimateTRACE</a></em></figcaption>
</figure>
</div>
</section>
<section id="actus-du-réseau" class="level1">
<h1>Actus du réseau</h1>
<section id="la-troisième-journée-du-réseau-a-eu-lieu-le-1er-décembre" class="level2">
<h2 class="anchored" data-anchor-id="la-troisième-journée-du-réseau-a-eu-lieu-le-1er-décembre">La troisième journée du réseau a eu lieu le 1<sup>er</sup> décembre</h2>
<p>Le 1<sup>er</sup> décembre 2025, le réseau a organisé sa troisième journée annuelle. Avec quatre présentations, deux interventions extérieures et un atelier de partage, cette édition a réuni une soixantaine de participants en présentiel et distanciel pour des échanges riches et constructifs. Merci à tous les participants pour leur participation active !</p>
<section id="les-présentations" class="level3">
<h3 class="anchored" data-anchor-id="les-présentations">Les présentations</h3>
<ol type="1">
<li><strong>Offre LLM du SSPCloud</strong> : L’Insee (DIIT) a présenté les <a href="https://llm.lab.sspcloud.fr/">nouvelles fonctionnalités</a> basées sur les modèles de langage (LLM) disponibles sur le SSPCloud, intégrant de manière plus poussée des fonctionnalités de complétion de code et d’analyses de données.</li>
<li><strong>Extraction des compétences dans <a href="https://dares.travail-emploi.gouv.fr/enquete-source/job-offers-collection-and-analysis-system">JOCAS</a></strong> : La Dares et l’Insee (DEE) ont partagé une version test de leur projet d’extraction des compétences numériques dans les offres d’emploi, combinant reconnaissance d’entités nommées et classification par LLM. Ce projet vise à améliorer l’analyse des métiers et des parcours professionnels.</li>
<li><strong>Automatisation des infos rapides justice</strong> : Le SSER (SSM Justice) a présenté son package R <code>chartegraphique.sser</code>, conçu pour automatiser la production des <a href="https://www.justice.gouv.fr/documentation/etudes-et-statistiques?categories%5B%5D=394&amp;items_per_page=10">infos rapides justice</a>. Les détails techniques sont disponibles sur le site des <a href="https://journees-methodologie-statistique.insee.net/automatisation-de-la-production-des-infos-rapides-justice-a-la-charte-graphique-du-sser-au-format-pdf-a-laide-dun-outil-combinant-rmarkdown-et-pagedown/">Journées de Méthodologie Statistique (JMS)</a>.</li>
<li><strong>Package de classification textuelle</strong> : L’Insee (SSPLab) a présenté <a href="https://pypi.org/project/torchtextclassifiers/">torchTextClassifiers</a>, un package Python de classification textuelle, étendant fastText et reposant sur PyTorch. Ce package permet d’entraîner des modèles maisons à taille réduite en gardant le contrôle de leur architecture.</li>
</ol>
</section>
<section id="atelier-collaboratif" class="level3">
<h3 class="anchored" data-anchor-id="atelier-collaboratif">Atelier collaboratif</h3>
<p>Un atelier d’échange entre les participants a permis de partager nos pratiques quotidiennes d’utilisation des outils d’IA pour les data scientists et statisticiens :</p>
<ol type="1">
<li>Quels sont nos cas d’usage?</li>
<li>Quels outils privilégier, et quels sont leurs avantages et limites ?</li>
</ol>
<p>Nos échanges, riches et nombreux, ont permis de partager des retours d’expérience concrets et nos bonnes (et moins bonnes) pratiques.</p>
</section>
<section id="invités" class="level3">
<h3 class="anchored" data-anchor-id="invités">Invités</h3>
<ol type="1">
<li>La <strong>Dinum</strong> a présenté les dernières évolutions de <a href="https://www.data.gouv.fr/">data.gouv.fr</a>, dont <code>data.pass</code>.</li>
<li>L’<strong>INA</strong> a présenté <a href="https://data.ina.fr/">data.ina</a>, un portail pour construire des indicateurs de suivi des médias.</li>
</ol>
<p>Les présentations et le replay de la journée sont disponibles sur la <a href="../../event/2025-12-01-network-day/index.html">page de l’événement</a>.</p>
</section>
</section>
<section id="prochain-événement-présentation-de-cartographia---13-janvier-2026---format-mixte-montrouge-et-en-ligne" class="level2">
<h2 class="anchored" data-anchor-id="prochain-événement-présentation-de-cartographia---13-janvier-2026---format-mixte-montrouge-et-en-ligne">Prochain événement : présentation de Cartographia - 📅 13 janvier 2026 - format mixte (Montrouge et en ligne)</h2>
<p>Le prochain événement du réseau sera le <strong>13 janvier 2026</strong>. <a href="https://bsky.app/profile/fbahoken.bsky.social">Françoise Bahoken</a> et <a href="https://bsky.app/profile/neocarto.bsky.social">Nicolas Lambert</a> viendront nous parler de leur livre <a href="https://neocarto.hypotheses.org/22669"><strong>Cartographia</strong></a> et des questions de cartographie passionnantes qu’ils y abordent.</p>
<p>Nicolas Lambert était déjà intervenu pour présenter <a href="https://observablehq.com/">Observable</a>, une librairie JavaScript très pratique pour faire des dataviz.</p>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<p>Une foule d’articles a été publiée dernièrement sur l’importance de l’open-source, son interdépendance avec les solutions payantes et le coût caché de sa maintenance. Et, bizarrement, il y a moins d’articles sur l’IA ce mois-ci 🤷‍♀️.</p>
<section id="résilience-et-open-source" class="level2">
<h2 class="anchored" data-anchor-id="résilience-et-open-source">Résilience et open-source</h2>
<section id="le-monde-numérique-est-très-interdépendant" class="level3">
<h3 class="anchored" data-anchor-id="le-monde-numérique-est-très-interdépendant">Le monde numérique est très interdépendant</h3>
<ul>
<li>De récents incidents ont rappelé que <strong>notre monde numérique est très interdépendant</strong> de solutions parfois lointaines. Un bug dans un logiciel ou service critique, open-source ou payant, se répercute ainsi rapidement à échelle mondiale. Cloudflare a par exemple connu une <a href="https://blog.cloudflare.com/18-november-2025-outage/">panne le 18 novembre 2025</a><sup>1</sup>, mettant KO de nombreux sites, y compris <a href="https://downdetector.fr/">downdetector</a> qui signale les pannes. La panne était due à une mise en production (ratée du coup). De la même manière, une <a href="https://www.lemonde.fr/pixels/article/2025/10/21/aws-le-service-cloud-d-amazon-annonce-avoir-resolu-la-panne-qui-a-touche-des-applications-dans-le-monde-entier_6648232_4408997.html">panne de DNS chez Amazon Web Services</a> le 20 octobre 2025 a perturbé de nombreuses applications dans le monde.</li>
</ul>
<div class="quarto-layout-panel" data-layout-ncol="2">
<div class="quarto-layout-row">
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: flex-start;">
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://www.explainxkcd.com/wiki/images/d/d7/dependency.png" class="img-fluid figure-img" width="333"></p>
<figcaption><em>En 2020, par <a href="https://www.explainxkcd.com/wiki/index.php/2347:_Dependency">XKCD</a></em></figcaption>
</figure>
</div>
</div>
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: flex-start;">
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_21/xkcd_2025.jpg" class="img-fluid figure-img" width="350"></p>
<figcaption><em>En 2025, par <a href="https://bsky.app/profile/flipperpa.bsky.social/post/3m63xgtlh4k2d">Timothy A.</a></em></figcaption>
</figure>
</div>
</div>
</div>
<div class="quarto-layout-row">
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: flex-start;">
<p><em>La dépendance numérique en images</em></p>
</div>
</div>
</div>
</section>
<section id="lopen-source-dépend-du-travail-gratuit-dinconnus" class="level3">
<h3 class="anchored" data-anchor-id="lopen-source-dépend-du-travail-gratuit-dinconnus">L’open source dépend du travail gratuit d’inconnus</h3>
<ul>
<li>Au-delà de la simple interdépendance à des logiciels payants, le code open-source est souvent <strong>maintenu bénévolement par des inconnus</strong>, comme les secours en mer ou les pompiers volontaires.</li>
</ul>
<p>Un <a href="https://thenewstack.io/ffmpeg-to-google-fund-us-or-stop-sending-bugs/">débat</a> est ainsi apparu après que FFmpeg, un framework open-source vidéo largement utilisé (notamment par Chrome, Firefox ou YouTube), s’est retrouvé submergé de demande de correction de bugs, trouvés par l’IA de Google. Or dans l’open source, les bugs sont réparés par des mainteneurs, le plus souvent bénévoles, et qui ne peuvent plus suivre le rythme. Certaines personnes appellent ainsi Google, et plus largement les entreprises qui bénéficient de l’open-source et génèrent des revenus <del>supérieurs aux PIB de certains pays du monde</del>, à financer directement la maintenance des logiciels open-source qu’ils utilisent même si ce n’est pas qu’une question de financement.</p>
<ul>
<li>Des sous, des sous, des sous, oui mais combien ? On parle étonnamment de sommes plutôt faibles : à titre de comparaison, la fondation qui gère <strong>Python</strong> a un budget annuel de 5 millions de dollars. On l’apprend notamment dans ce <a href="https://pyfound.blogspot.com/2025/10/NSF-funding-statement.html">billet de blog</a> où la fondation explique pourquoi elle a refusé un financement de 1,5 million de dollars du gouvernement américain après l’avoir demandé (si vous n’avez pas le temps: c’est parce que le financement venait avec l’engagement de ne pas faire de promotion sur les thèmes de la diversité, de l’équité et de l’inclusion).</li>
</ul>
</section>
<section id="des-alternatives-existent" class="level3">
<h3 class="anchored" data-anchor-id="des-alternatives-existent">Des alternatives existent</h3>
<ul>
<li><strong>Blois</strong> : La ville a choisi de prendre la fin des mises à jour de Windows 10 comme une opportunité et de basculer vers <a href="https://www.blois.fr/info/2025/11/numeriquelibre-primtux">PrimTux</a>, une distribution Linux éducative.</li>
<li><strong>Cour internationale de justice (ICC)</strong> : En 2025, la Cour internationale de justice (qui dépend de l’ONU) et 9 de ses magistrats ont été ciblés par des sanctions américaines. Cela serait en soit une histoire en termes de souveraineté, mais vous avez déjà plus d’info en bas de page <sup>2</sup>. Le président de la Cour a ensuite perdu l’accès à ses mails. Les versions divergent ensuite : Microsoft a-t-il volontairement coupé l’accès du président à ses mails avant de le rétablir ou cela était-il juste un incident? Toujours est-il que la Cour internationale de justice a annoncé en octobre 2025 son intention de basculer vers <strong>des solutions européennes<sup>3</sup></strong>, comme rapporté par le <a href="https://www.handelsblatt.com/technik/it-internet/software-strafgerichtshof-ersetzt-microsoft-durch-deutsche-loesung/100166382.html">Handelsblatt (auf Deutsch 🇩🇪)</a>.</li>
</ul>
</section>
</section>
<section id="ia-ia-ia" class="level2">
<h2 class="anchored" data-anchor-id="ia-ia-ia">IA, IA, IA</h2>
<section id="les-modèles-de-langage-seraient-inversibles" class="level3">
<h3 class="anchored" data-anchor-id="les-modèles-de-langage-seraient-inversibles">Les modèles de langage seraient inversibles</h3>
<p>Une étude récente (<a href="https://arxiv.org/abs/2510.15511">Nikolaou et al., 2025</a>) montre que les modèles de language sont <strong>injectifs</strong><sup>4</sup> : chaque entrée est mappée à une représentation interne unique. Le papier propose par ailleurs un algorithme, <strong>SipIt</strong>, capable de reconstruire le prompt original avec 100% de réussite et rapidement.</p>
</section>
</section>
<section id="very-big-data-isnt-dead" class="level2">
<h2 class="anchored" data-anchor-id="very-big-data-isnt-dead">Very big data isn’t dead</h2>
<ul>
<li>Du mal à faire tourner des tables de 2 Go ? Imaginez le CERN, où le laboratoire du LHCb génère <strong>25 millions de collisions de protons par seconde</strong>, soit la paille de 4 To de données par seconde. Comment faire ? Comme expliqué dans <a href="https://lhcb-outreach.web.cern.ch/filtering-data-in-real-time/">ce post</a>, ils ont mis en place l’infrastructure pour filtrer les données et ne garder que 10 Go de données générées par seconde. C’est un peu la citation de Einstein :</li>
</ul>
<blockquote class="blockquote">
<p>Do not worry about your difficulties in mathematics; I can assure you that mine are still greater.</p>
</blockquote>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://lhcb-outreach.web.cern.ch/wp-content/uploads/2022/08/Run3_Trigger_LHCb-1024x560.png" class="img-fluid figure-img"></p>
<figcaption><em>Filtering data in real time, <a href="https://lhcb-outreach.web.cern.ch/filtering-data-in-real-time/">LHCb</a></em></figcaption>
</figure>
</div>
</section>
<section id="ressources-et-fun" class="level2">
<h2 class="anchored" data-anchor-id="ressources-et-fun">Ressources et fun</h2>
<section id="nouveaux-outils" class="level3">
<h3 class="anchored" data-anchor-id="nouveaux-outils">Nouveaux outils</h3>
<ul>
<li><strong>R</strong> : <a href="https://r-consortium.org/posts/jarl-just-another-r-linter/">Jarl</a>, un nouveau linter pour R, conçu pour être simple et efficace.</li>
<li><a href="https://murmure.al1x-ai.com/"><strong>Murmure</strong></a> : Un outil d’IA open-source pour générer des résumés et des analyses de texte hors ligne et en local, développé par <a href="https://www.al1x-ai.com/"><code>Al1X-AI</code></a>.</li>
</ul>
</section>
<section id="ressources-et-formation" class="level3">
<h3 class="anchored" data-anchor-id="ressources-et-formation">Ressources et formation</h3>
<ul>
<li><strong>IA</strong> : <a href="https://mikexcohen.substack.com/p/gender-bias-in-large-language-models">Gender Bias in Large Language Models</a> explique de manière très pédagogique le fonctionnement des LLM</li>
<li><strong>Python</strong> : <a href="https://blog.genesmindsmachines.com/p/python-is-not-a-great-language-for">Python is Not a Great Language for Data Science</a> : comment démarrer en Python, et une comparaison (subjective) entre Python et R</li>
<li><strong>Docker</strong> : <a href="https://muhammadraza.me/2024/building-container-runtime-python/">Voici un tuto</a> pour (un peu) démystifier les conteneurs et en construire un avec Python.</li>
</ul>
</section>
<section id="fun" class="level3">
<h3 class="anchored" data-anchor-id="fun">Fun</h3>
<ul>
<li><a href="https://adventofcode.com/"><strong>Advent of Code</strong></a> : Un calendrier de l’avent pour développeurs (au niveau certain).</li>
<li><strong>GenZ vs Boomers</strong> : Si vous ne savez pas si vous êtes côté boomer ou genZ, allez faire un tour sur <a href="https://github.com/hadley/genzplyr">genzplyr</a> et <a href="https://bradlindblad.github.io/boomerplyr/">boomerplyr</a> : vous comprendrez vite qu’il y a l’un des deux packages que vous ne comprenez pas. Je sais de quel côté je suis 👴.</li>
</ul>


</section>
</section>
</section>


<div id="quarto-appendix" class="default"><section id="footnotes" class="footnotes footnotes-end-of-document"><h2 class="anchored quarto-appendix-heading">Notes de bas de page</h2>

<ol>
<li id="fn1"><p>Ils ont même eu la bonne idée d’avoir une deuxième panne, plus rapidement réglée, le jour de la rédaction de cette infolettre 🙃.↩︎</p></li>
<li id="fn2"><p>Nicolas Guillou, juge français de la CPI qui faisait partie des juges ayant validé les mandats d’arrêt contre le premier ministre israélien et son ministre de la défense, explique dans <a href="https://www.lemonde.fr/international/article/2025/11/19/nicolas-guillou-juge-francais-de-la-cpi-sanctionne-par-les-etats-unis-face-aux-attaques-les-magistrats-de-la-cour-tiendront_6654016_3210.html">cet article du Monde</a> et dans son discours au congrès annuel de l’Union Syndicale des Magistrats (USM), <a href="https://www.union-syndicale-magistrats.org/sanctions-americaines-contre-le-juge-francais-de-la-cpi/#flipbook-df_41449/1/">ici</a>, ce que signifie concrètement vivre sous sanction américaine. Plus de carte Visa ou Mastercard, vos comptes clients dans des entreprises comme Amazon ou Airbnb sont fermés, des banques, même non implantées aux États-Unis, ferment votre compte bancaire par sur-application des règles (<em>over-compliance</em>). Vos proches sont aussi touchés : interdiction de séjourner aux États-Unis, expulsion s’ils y sont et, légalement parlant, vos proches de nationalité américaine ne peuvent plus vous fournir de service sinon ils pourraient être poursuivis pénalement aux États-Unis. Or, beaucoup de fonctionnaires français ont des enfants américains : il suffit que leurs enfants soient nés aux États-Unis quand les parents travaillaient à l’ambassade de France ou dans les institutions internationales et, grâce au droit du sol, les enfants sont aussi de nationalité américaine.↩︎</p></li>
<li id="fn3"><p>L’indépendance complète de ces solutions est par ailleurs sujette à débat.↩︎</p></li>
<li id="fn4"><p>vieux rappel de maths : injectif veut dire à peu près que si deux objects transformés sont les mêmes, c’est que les objets avant transformation sont les mêmes.↩︎</p></li>
</ol>
</section></div> ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_21/</guid>
  <pubDate>Wed, 10 Dec 2025 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_21/newsletter_21.jpg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Troisième journée du SSPHub</title>
  <link>https://ssphub-test.netlify.app/event/2025-12-01-network-day/</link>
  <description><![CDATA[ 





<section id="photos-de-lévénement" class="level1 page-columns page-full">
<h1>Photos de l’événement</h1>
<div class="column-page">
<div class="quarto-layout-panel" data-layout-ncol="2">
<div class="quarto-layout-row">
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/IMG20251201122703_diff.jpg" class="img-fluid"></p>
</div>
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/IMG20251201122643_diff.jpg" class="img-fluid"></p>
</div>
</div>
</div>
<p><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/IMG20251201115612_diff.jpg" class="img-fluid" style="width:100.0%"></p>
</div>
</section>
<section id="inscription" class="level1">
<h1>Inscription</h1>
<p>👉️ Les inscriptions se font <a href="https://www.eventbrite.com/e/billets-3e-journee-du-reseau-des-data-scientists-1664052518879?aff=oddtdtcreator">ici</a>. 👈️ Possibilité de participer en présentiel et en ligne.</p>
</section>
<section id="agenda" class="level1">
<h1>Agenda</h1>
<ul>
<li><strong>9h30-10h</strong>: <strong>Accueil</strong>, moment de convivialité autour d’un café.</li>
<li><strong>10h-11h30</strong>: <strong>Retours d’expérience</strong> ;
<ul>
<li>Présentation de l’offre LLM du SSP Cloud, Insee - Division Innovation instruction technique (DIIT) ;</li>
<li>Extraire et analyser les compétences numériques dans les offres d’emploi grâce au NLP (Dares - Service statistique ministériel du Ministère du Travail et de l’Emploi &amp; Insee - DEE) ;</li>
</ul></li>
<li><strong>11h30-12h15</strong>: <strong>Atelier de partage</strong> sur l’usage de l’IA pour les <em>data scientists</em> et statisticiens :
<ul>
<li>quels assistants de code pour un <em>data scientist</em> / statisticien ?</li>
<li>assistants, agents &amp; vibe coding : partage d’expériences</li>
</ul></li>
<li><strong>12h15-14h</strong>: <strong>Pause déjeuner</strong>, moment de convivialité</li>
<li><strong>14h-14h45</strong>: invité : Quelles évolutions récentes et à venir sur <a href="https://www.data.gouv.fr/">data.gouv</a> (Dinum)</li>
<li><strong>14h45-16h15</strong>: <strong>Retours d’expérience</strong> sur l’extraction de données et la classification :
<ul>
<li>Automatisation des <a href="https://www.justice.gouv.fr/documentation/etudes-et-statistiques?categories%5B%5D=394&amp;items_per_page=10">Infos rapides Justice</a> grâce au package R <code>chartegraphique.sser</code> (SSER - SSM Justice) ;</li>
<li>Présentation du package torchTextClassifiers, qui propose un cadre unifié et agile pour la classification de texte, basé sur PyTorch et PyTorch Lightning (Insee - SSPLab) ;</li>
</ul></li>
<li><strong>16h15-16h45</strong>: <strong>Pause</strong>, moment de convivialité</li>
<li><strong>16h45-17h30</strong>: <strong><em>Keynote</em></strong> présentation du portail <a href="https://data.ina.fr/" class="uri">https://data.ina.fr/</a>, le service de l’exploration des médias utilisant l’IA pour établir les indicateurs sur les médias (personnalités les plus mentionnées, répartition du temps de parole entre femme et homme …)</li>
<li><strong>17h30-19h30</strong>: <strong>Pot</strong>, moment de convivialité</li>
</ul>
</section>
<section id="replay-et-présentations" class="level1">
<h1>Replay et présentations</h1>
<div class="code-copy-outer-scaffold"><div id="cb1" class="sourceCode" style="background: #f1f3f5;">
<pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"></code></pre>
<iframe class="sourceCode yaml code-with-copy" src="https://ssphub.github.io/2025_network_day/">
</iframe>
</div></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="58" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 57;"><span id="cb1-58"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb1-59">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/0_general.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb1-60">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span></span>
<span id="cb1-61">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<section id="présentation-de-loffre-llm-du-ssp-cloud-insee---division-innovation-instruction-technique-diit" class="level2">
<h2 class="anchored" data-anchor-id="présentation-de-loffre-llm-du-ssp-cloud-insee---division-innovation-instruction-technique-diit">Présentation de l’offre LLM du SSP Cloud, Insee - Division Innovation instruction technique (DIIT)</h2>
<div class="quarto-video"><video id="video_shortcode_videojs_video1" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/1_SSPCloud_LLM.mp4"></video></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="69" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 68;"><span id="cb2-69"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb2-70">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/1_SSPCloud_LLM.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb2-71">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span></span>
<span id="cb2-72">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="expression">

</div>
</div>
</div>
</section>
<section id="extraire-et-analyser-les-compétences-numériques-dans-les-offres-demploi-grâce-au-nlp-dares---service-statistique-ministériel-du-ministère-du-travail-et-de-lemploi-insee---dee" class="level2">
<h2 class="anchored" data-anchor-id="extraire-et-analyser-les-compétences-numériques-dans-les-offres-demploi-grâce-au-nlp-dares---service-statistique-ministériel-du-ministère-du-travail-et-de-lemploi-insee---dee">Extraire et analyser les compétences numériques dans les offres d’emploi grâce au NLP (Dares - Service statistique ministériel du Ministère du Travail et de l’Emploi &amp; Insee - DEE)</h2>
<div class="quarto-video"><video id="video_shortcode_videojs_video2" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/2_JOCAS_DARES.mp4"></video></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb3" data-startfrom="79" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 78;"><span id="cb3-79"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb3-80">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/2_JOCAS_DARES.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb3-81">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span></span>
<span id="cb3-82">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-3" data-nodetype="expression">

</div>
</div>
</div>
</section>
<section id="quelles-évolutions-récentes-et-à-venir-sur-data.gouv-dinum" class="level2">
<h2 class="anchored" data-anchor-id="quelles-évolutions-récentes-et-à-venir-sur-data.gouv-dinum">Quelles évolutions récentes et à venir sur <a href="https://www.data.gouv.fr/">data.gouv</a> (Dinum)</h2>
<div class="quarto-video"><video id="video_shortcode_videojs_video3" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/3_Dinum_datagouv.mp4"></video></div>
<p>Présentation disponible sur <a href="https://www.figma.com/deck/bGTGzYw9ZDrLGzbOzJbwJp/D%C3%89MO-INSEE-1-DECEMBRE?node-id=4-3555&amp;viewport=-145%2C-74%2C0.69&amp;t=wS4mpPXywS1FgL52-1&amp;scaling=min-zoom&amp;content-scaling=fixed&amp;page-id=0%3A1" target="_blank">Figma</a></p>
</section>
<section id="automatisation-des-infos-rapides-justice-grâce-au-package-r-chartegraphique.sser-sser---ssm-justice" class="level2">
<h2 class="anchored" data-anchor-id="automatisation-des-infos-rapides-justice-grâce-au-package-r-chartegraphique.sser-sser---ssm-justice">Automatisation des <a href="https://www.justice.gouv.fr/documentation/etudes-et-statistiques?categories%5B%5D=394&amp;items_per_page=10">Infos rapides Justice</a> grâce au package R <code>chartegraphique.sser</code> (SSER - SSM Justice)</h2>
<div class="quarto-video"><video id="video_shortcode_videojs_video4" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/4_SSER_autoIRJ.mp4"></video></div>
<p>Le papier a été publié lors des <a href="https://journees-methodologie-statistique.insee.net/automatisation-de-la-production-des-infos-rapides-justice-a-la-charte-graphique-du-sser-au-format-pdf-a-laide-dun-outil-combinant-rmarkdown-et-pagedown/">journées de méthodologie statistique 2025</a>.</p>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb4" data-startfrom="97" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 96;"><span id="cb4-97"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb4-98">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/4_SSER_autoIRJ.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb4-99">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span></span>
<span id="cb4-100">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-4" data-nodetype="expression">

</div>
</div>
</div>
</section>
<section id="le-package-torchtextclassifiers-un-cadre-unifié-pour-la-classification-de-texte-basé-sur-pytorch-et-pytorch-lightning-insee---ssplab" class="level2">
<h2 class="anchored" data-anchor-id="le-package-torchtextclassifiers-un-cadre-unifié-pour-la-classification-de-texte-basé-sur-pytorch-et-pytorch-lightning-insee---ssplab">Le package torchTextClassifiers, un cadre unifié pour la classification de texte basé sur PyTorch et PyTorch Lightning (Insee - SSPLab)</h2>
<div class="quarto-video"><video id="video_shortcode_videojs_video5" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/5_TorchTextClassifier_Insee.mp4"></video></div>
<div class="code-copy-outer-scaffold"><div id="cb1" class="sourceCode" style="background: #f1f3f5;">
<pre class="sourceCode yaml code-with-copy"><code class="sourceCode yaml"></code></pre>
<iframe class="sourceCode yaml code-with-copy" src="https://inseefrlab.github.io/codif-ape-prez/slides/jms-ttc-prez/">
</iframe>
</div></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb5" data-startfrom="110" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 109;"><span id="cb5-110"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb5-111">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/5_TorchTextClassifier_Insee.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb5-112">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span></span>
<span id="cb5-113">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-5" data-nodetype="expression">

</div>
</div>
</div>
</section>
<section id="le-portail-httpsdata.ina.fr-produire-des-indicateurs-de-suivi-des-médias-grâce-à-lia" class="level2">
<h2 class="anchored" data-anchor-id="le-portail-httpsdata.ina.fr-produire-des-indicateurs-de-suivi-des-médias-grâce-à-lia">Le portail <a href="https://data.ina.fr/" class="uri">https://data.ina.fr/</a>, produire des indicateurs de suivi des médias grâce à l’IA</h2>
<p><em>Cf.</em> le portail <a href="https://data.ina.fr/" class="uri">https://data.ina.fr/</a></p>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb6" data-startfrom="124" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 123;"><span id="cb6-124"><span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">function</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(slides<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span> message<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span><span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span>){</span>
<span id="cb6-125">  <span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">const</span> button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span>
<span id="cb6-126"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;p class="text-center"&gt;</span></span>
<span id="cb6-127"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;a class="btn btn-primary btn-lg cv-download" href="</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">" target="_blank"&gt;</span></span>
<span id="cb6-128"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">      &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>message<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span></span>
<span id="cb6-129"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;/a&gt;</span></span>
<span id="cb6-130"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/p&gt;`</span></span>
<span id="cb6-131">  <span class="cf" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">return</span> button</span>
<span id="cb6-132">}</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-6" data-nodetype="declaration">

</div>
</div>
</div>
</section>
</section>
<section id="contact" class="level1">
<h1>Contact</h1>
<p>Pour toute information : <a href="mailto:ssphub-contact@insee.fr" class="email">ssphub-contact@insee.fr</a></p>
<p>📺️ La deuxième journée du réseau ayant eu lieu en 2024 est également <a href="../../event/2024-10-14-network-day/index.html">disponible en replay</a>.</p>


</section>

 ]]></description>
  <category>network</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2025-12-01-network-day/</guid>
  <pubDate>Mon, 01 Dec 2025 00:00:00 GMT</pubDate>
  <media:content url="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img7.jpg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>De belles cartographies, des packages R et l’importance des données d’entraînement pour l’IA</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_20/</link>
  <description><![CDATA[ 





<p>Bienvenue à la <strong>vingtième infolettre</strong> ! Il est temps de se mettre au défi de respecter ce qui a été dit il y a quelques semaines : une newsletter par mois ga-ran-tie je vous ai dit. Bon, à l’époque, je ne savais pas qu’un mois ça voulait dire 4 semaines et que 4, c’est pas beaucoup 🙃. Allez, on y va !</p>
<p>Bonne lecture 📔 !</p>
<section id="linfographie" class="level1">
<h1>L’infographie</h1>
<p>Beaucoup d’infographies ce mois-ci, le choix a été dur. Pour une fois, partons sur une vidéo réalisée par <a href="https://www.fabianlang.net/schweizer-bergwelten/">Fabian Lang</a> : le trajet d’un gypaète barbu suivi par GPS en 3D dans les Alpes suisses. La vraie infographie, en format vidéo, est disponible <a href="https://www.linkedin.com/posts/fbnlng_vulture-beardedvulture-cartography-activity-7274787245021188097-L9vj">ici</a>. Attention, vertige.</p>
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_20/2025_10_gypaete.png" class="img-fluid"></p>
</section>
<section id="actus-du-réseau" class="level1">
<h1>Actus du réseau</h1>
<section id="la-troisième-journée-du-réseau-1-décembre---la-tréso-malakoff" class="level2">
<h2 class="anchored" data-anchor-id="la-troisième-journée-du-réseau-1-décembre---la-tréso-malakoff">La troisième journée du réseau 📅 1 décembre - La Tréso (Malakoff)</h2>
<p>Les <strong>inscriptions</strong> pour la troisième journée du réseau le 1<sup>er</sup> décembre 2025 sont <a href="https://www.eventbrite.com/e/billets-3e-journee-du-reseau-des-data-scientists-1664052518879?aff=oddtdtcreator">ouvertes</a>. Si vous souhaitez présenter un sujet, n’hésitez pas à me contacter !</p>
</section>
<section id="présentation-de-cartographia---13-janvier-2026---format-mixte-montrouge-et-en-ligne" class="level2">
<h2 class="anchored" data-anchor-id="présentation-de-cartographia---13-janvier-2026---format-mixte-montrouge-et-en-ligne">Présentation de Cartographia - 📅 13 janvier 2026 - format mixte (Montrouge et en ligne)</h2>
<p><a href="https://bsky.app/profile/fbahoken.bsky.social">Françoise Bahoken</a> et <a href="https://bsky.app/profile/neocarto.bsky.social">Nicolas Lambert</a> vont venir nous parler de leur livre <a href="https://neocarto.hypotheses.org/22669">Cartographia</a> et des questions de cartographie (!) passionnantes qu’ils y abordent. Cela se passera <strong>le 13 janvier 2026</strong> en début d’après-midi, en format mixte : présentiel (à la DG de l’Insee) et à distance. Nicolas Lambert était déjà intervenu pour nous présenter Observable, une librairie Javascript très pratique pour faire des dataviz (<a href="../../event/presentation-dobservable-par-nicolas-lambert/index.html">ici</a>, pour rappel). Si cela vous intéresse, réservez donc votre début d’après-midi !</p>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<p>Ce mois-ci, place aux belles images et à la cartographie. L’IA reste omniprésente : les institutions cherchent à favoriser la réutilisation de leurs données, certains contournent les LLM avec des consignes écrites « en blanc sur blanc », et les données d’entraînement sont au centre de l’attention.</p>
<div class="callout callout-style-default callout-tip callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Astuce
</div>
</div>
<div class="callout-body-container callout-body">
<p>Vous voyez d’autres sujets d’actualité intéressants ? N’hésitez pas à les partager sur le <a href="https://tchap.gouv.fr/#/room/#ssphub:agent.finances.tchap.gouv.fr">groupe Tchap 💬</a> directement !</p>
</div>
</div>
<section id="datavisualisation" class="level2">
<h2 class="anchored" data-anchor-id="datavisualisation">Datavisualisation</h2>
<ul>
<li>Une <a href="https://neocarto.hypotheses.org/21980">belle carte</a> de <strong>migration simulée au niveau infra-national</strong> en zone endémique paludéenne africaine. Françoise Bahoken, son autrice, sera notre invitée début 2026.<br>
</li>
<li>Pour les passionnés d’espace, voici une <a href="https://atlasof.space/"><strong>carte en 3D et dynamique</strong></a> du système solaire, comprenant les planètes mais aussi les astéroïdes! Vous pouvez jouer avec le temps pour savoir où sera la Terre quand vous aurez 30/40/50/60/70 ans (spoiler alert : c’est cyclique), et vérifier aussi qu’aucun astéroïde ne passe sur la Terre d’ici là.</li>
<li>Pour les autres candidats à l’infographie du mois :
<ul>
<li>pour voir l’ensemble des <strong>livres publiés</strong> en une seule carte interactive, cela donne <a href="https://phiresky.github.io/isbn-visualization/?">cela</a>.</li>
<li>la cheffe de l’infographie d’Epsiloon (magazine de sciences) a publié les étapes <a href="https://www.figma.com/proto/C8xDR9mlWX8kBV0crJr1IK/Les-infographies-d-Epsiloon?page-id=3102%3A2581&amp;node-id=3102-2979&amp;viewport=1040%2C640%2C0.18&amp;t=h0dF40xsTRgqYfJi-8&amp;scaling=scale-down-width&amp;content-scaling=fixed&amp;starting-point-node-id=3102%3A2583&amp;hide-ui=1">avant / après</a> de ses infographies. Je vous recommande celle sur les <strong>habitudes de sommeil par pays</strong>.</li>
</ul></li>
<li>Enfin, un petit jeu à la SUTOM en version graphique : un <a href="https://chartle.cc/"><strong>graphique par jour</strong></a>, devinez le pays !</li>
</ul>
</section>
<section id="cartographie" class="level2">
<h2 class="anchored" data-anchor-id="cartographie">Cartographie</h2>
<ul>
<li>Des chercheurs de l’Université de Charles (en Tchéquie) et de Freiburg ont publié une (très belle) <strong>taxonomie des bâtiments urbains</strong>, disponible en ligne. Tout est <a href="https://urbantaxonomy.org">ici</a> et vous pouvez explorer le bâti urbain de six pays d’Europe centrale et de l’est.<br>
</li>
<li>L’IGN a publié <a href="https://www.ign.fr/publications-de-l-ign/institut/kiosque/publications/atlas_anthropocene/2025/Atlas-2025-risque-inondation.pdf">une cartographie</a> très détaillée des <strong>risques d’inondation et de submersion</strong> sur tout le territoire national, notamment grâce aux images LIDAR. Par exemple, vous habitez à Saint-Maur-des-Fossés? Vous pouvez y voir la simulation d’une inondation majeure chez vous.<br>
</li>
<li>Utiliser l’<strong>IA pour faire des fonds de carte</strong> à partir d’image satellite ? Cela semble bien fonctionner d’après ce <a href="https://www.linkedin.com/posts/davidoesch_map-generation-geospatial-activity-7379129420801875968-yNzj">post</a>.</li>
<li>A partir des données d’utilisateurs de Facebook, des <a href="https://www.pnas.org/doi/10.1073/pnas.2409418122">chercheurs</a> ont bâti des <strong>indicateurs mensuels de flux migratoires</strong> couvrant 181 pays.</li>
<li>Après la prévisualisation de données Parquet en ligne, cette fois <a href="https://developmentseed.org/stac-map/">ce site</a> permet de <strong>visualiser très facilement des fichiers de données géographiques</strong> types STAC (dont Geoparquet). Explications sur la plomberie <a href="https://developmentseed.org/blog/2025-09-02-stacmap/">ici</a>.</li>
<li>La communauté Apache Sedona publie <a href="https://sedona.apache.org/latest/blog/2025/09/24/introducing-sedonadb-a-single-node-analytical-database-engine-with-geospatial-as-a-first-class-citizen/"><strong>SedonaDB</strong></a>, un moteur de base de données analytique open source et pensé nativement aussi pour des données spatiales.</li>
</ul>
</section>
<section id="le-reste-cest-le-r" class="level2">
<h2 class="anchored" data-anchor-id="le-reste-cest-le-r">Le reste c’est le R</h2>
<ul>
<li>Le <a href="https://vincentarelbundock.github.io/tinytable/">package R tinytable</a>, permet de faire des <strong>tableaux de qualité</strong> en de multiples formats. L’ambition de ce package est d’être simple, léger (0 dépendance à des packages externes), flexible et de différencier les données de l’affichage.</li>
<li>Le <a href="https://r-consortium.org/all-projects/2025-group-1.html#reviving-redoc">package R redoc</a> devrait être mis à jour. Il permet notamment de <strong>faire le lien entre Quarto, et la suite Office</strong>, par exemple si vous générez des documents qui seront relus par des personnes utilisant Word comme outil de travail 😉.<br>
</li>
<li>En machine learning, quels sont les problèmes posés par des <strong>classes d’apprentissage de tailles très différentes</strong> ? Selon cet <a href="https://datascience.stackexchange.com/questions/134389/is-class-imbalance-really-a-problem-in-machine-learning">article</a>, il s’agit surtout 1/ d’avoir des métriques de performance adéquates, 2/ d’avoir un nombre absolu d’observations dans la classe minoritaire suffisant (et non une part dans le total) et enfin 3/ de faire attention à la fongibilité entre classes.</li>
</ul>
</section>
<section id="ia" class="level2">
<h2 class="anchored" data-anchor-id="ia">IA</h2>
<ul>
<li>Qu’est-ce que les <strong>paramètres des modèles publiés</strong> disent des données d’entraînement sous-jacentes, confidentielles ? Des chercheurs sont <a href="https://fi-le.net/oss/">allés fouiller</a> ce que cache GPT-5.</li>
<li>Du côté de <strong>l’entraînement des modèles</strong>, la gamme des données disponibles s’enrichit pour que ses données soient mieux reprises par l’IA. C’est un nouvel épisode de la course à ne pas finir page 15 des résultats Google ou page 259 des blogs Myspace.
<ul>
<li><strong>Wikidata</strong>, qui stocke les données structurées de Wikipédia et consorts, propose maintenant ses données sous format de <a href="https://www.wikidata.org/wiki/Wikidata:Embedding_Project/October_1_2025_Release">données vectorielles</a>.</li>
<li>Un programme d’<strong>harmonisation des metadata et d’API</strong>, l’<a href="https://www.snowflake.com/en/blog/open-semantic-interchange-ai-standard/">Open Semantic Interchange Initiative</a>, a été lancé pour enrichir les données d’apprentissage et la précision des IA. L’idée est d’avoir un langage YAML commun pour permettre aux IA d’échanger des données de manière robuste, par exemple par API et sans perte de sens au fur et à mesure de leur traitement par des agents d’IA.</li>
<li>Une fois que l’on a les données, on cherche ensuite à savoir de <strong>combien de GPU j’ai besoin pour entraîner mon modèle</strong>. La Dinum a développé <a href="https://github.com/etalab-ia/InfraScale">un outil</a> pour estimer ses besoins pour cette étape.</li>
</ul></li>
<li>Des faiblesses des modèles de LLM sont, comme toujours, remontées, notamment sur <strong>l’importance des données d’apprentissage et d’un prompt propre</strong>. Cela met notamment en valeur le fait que les modèles ne sont pour le moment pas très efficaces quand il s’agit de trier des CV ou des articles.
<ul>
<li>Le “prompt injection” : c’est l’idée de truquer l’IA dans son CV/projet d’article scientifique/sur Linkedin, par exemple avec des instructions écrites en « blanc sur blanc », pour avoir plus de chance d’être sélectionné/de détecter les messages écrits par l’IA. Cela marche à presque 100 % des cas selon <a href="https://arxiv.org/pdf/2509.10248">cet article</a>, d’autant plus que l’IA a un biais positif naturel.</li>
<li>Une <a href="https://www.anthropic.com/research/small-samples-poison">étude</a> confirme que l’IA est <strong>particulièrement sensible à la qualité de la donnée d’apprentissage</strong>. Ainsi, 250 observations fausses suffisent pour empoisonner durablement un LLM, et ce <strong>quel que soit sa taille</strong>. Une <a href="https://www.youtube.com/watch?v=zKW8sVIOCTY">présentation intéressante</a> à une conférence PyData présentait par ailleurs ce qu’il se passait quand on entraîne une IA sur des images générés par une IA, avec des résultats similaires.<br>
</li>
</ul></li>
<li>Le site <a href="https://aidarwinawards.org/nominees-2025.html"><strong>AI Darwin Awards</strong></a> rassemble des exemples d’usage raté d’IA. Globalement, les cas d’usage où l’IA est mis directement face à un client peuvent rapidement mal tourner… Peut-être que <a href="https://www.politico.eu/article/albania-apppoints-worlds-first-virtual-minister-edi-rama-diella/">Diella</a>, la première et seule ministre à être une IA dans le monde, rejoindra cette liste ?</li>
<li>Si vous voulez <strong>comparer le résultat de deux LLM et leur empreinte carbone</strong>, n’oubliez pas l’outil <a href="https://comparia.beta.gouv.fr/">ComparIA</a> créé par une start-up d’État du ministère de la Culture.</li>
</ul>
</section>
</section>
<section id="la-non-interview-du-mois" class="level1">
<h1>La non interview du mois</h1>
<p>Pas d’interview finie en temps et en heure ce mois-ci, priorité au direct, ce sera donc (peut-être) le mois prochain !</p>


</section>

 ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_20/</guid>
  <pubDate>Sat, 25 Oct 2025 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_20/newsletter_20.png" medium="image" type="image/png" height="96" width="144"/>
</item>
<item>
  <title>La rentrée 2025: actualités, nouveautés, interview de rentrée</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_19/</link>
  <description><![CDATA[ 





<section id="la-newsletter-linfolettre-est-morte-vive-linfolettre" class="level1">
<h1><del>La newsletter</del> L’infolettre est morte, vive l’infolettre !</h1>
<p>À l’occasion de cette <strong>dix-neuvième infolettre</strong>, on a discuté, réfléchi et pensé au sens de la vie. On a décidé de revoir le schéma de l’infolettre selon plusieurs critères :</p>
<ul>
<li>une périodicité mensuelle “garantie”, quitte à avoir des infolettres moins denses que d’autres ;</li>
<li>simplifier la rédaction et le contenu ;</li>
<li>continuer de parler à toutes les personnes intéressées par la science des données, quel que soit son niveau d’expertise ;</li>
<li>contribuer à mettre en avant plus facilement des personnes ou des projets au sein du réseau.</li>
</ul>
<p>Nouvelle structure, moins longue, plus ramassée, vous aurez plus de travail pour creuser plus loin les sujets ! L’idée est ainsi d’insérer au moins dans chaque veille :</p>
<ul>
<li>une datavisualisation</li>
<li>les actualités du réseau et une veille</li>
<li>une interview de quelqu’un ou d’une équipe selon un canevas à peu près stable.</li>
</ul>
<p>Bonne lecture 📔 !</p>
</section>
<section id="la-datavisualisation" class="level1">
<h1>La datavisualisation</h1>
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_19/measles-cases-historical-us-states-heatmap.png" class="img-fluid"></p>
<p>Une version interactive est disponible sur le site du <a href="https://graphics.wsj.com/infectious-diseases-and-vaccines/">Wall Street Journal</a>.</p>
</section>
<section id="actus-du-réseau" class="level1">
<h1>Actus du réseau</h1>
<section id="la-troisième-journée-du-réseau-1-décembre---la-tréso-malakoff" class="level2">
<h2 class="anchored" data-anchor-id="la-troisième-journée-du-réseau-1-décembre---la-tréso-malakoff">La troisième journée du réseau 📅 1 décembre - La Tréso (Malakoff)</h2>
<p><strong>Réservez votre 1<sup>er</sup> décembre !</strong> Pour la troisième année consécutive, le SSPLab organise la journée du réseau pour rassembler les data-scientists de la statistique publique. Au menu : présentation de projets innovants, retour d’expérience et moments d’échanges informels (autrement appelés “pots” 🎉).</p>
<p>Comme les années précédentes, l’événement sera en présentiel et à distance pour permettre à tous de participer. Les détails seront publiés sur le <a href="../../event/2025-12-01-network-day/index.html">site du réseau</a> et si jamais vous voulez déjà vous inscrire alors que l’agenda n’est pas finalisé, c’est possible <a href="https://www.eventbrite.com/e/billets-3e-journee-du-reseau-des-data-scientists-1664052518879?aff=oddtdtcreator">ici</a>.</p>
<ul>
<li>👉️ <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2025-12-network/2025_12_3ejournee_SSPHub.ics">Ajouter cet événement à votre agenda <code>Outlook</code></a></li>
</ul>
</section>
<section id="le-site-du-réseau-évolue" class="level2">
<h2 class="anchored" data-anchor-id="le-site-du-réseau-évolue">Le site du réseau évolue</h2>
<p><strong>L’inscription</strong> à la liste de diffusion a été revue et utilise maintenant <a href="https://lasuite.numerique.gouv.fr/produits/grist">Grist</a>. Pour s’inscrire à la liste de diffusion, c’est par <a href="https://grist.numerique.gouv.fr/o/ssphub/forms/jSjAV3L2F8mmiRVuVEpfF7/103">ici</a>. Une fois inscrit, vous pouvez créer un compte sur <a href="https://grist.numerique.gouv.fr">Grist</a> et vous connecter directement sur <a href="https://grist.numerique.gouv.fr/o/ssphub/iTFX7gryL8jK/Annuaire?utm_id=share-doc">l’annuaire</a> pour mettre à jour vos données, demander votre désinscription en cochant la case “Supprimez mon compte”.</p>
<p>Par ailleurs, le <strong>site du réseau devrait évoluer dans les prochaines semaines</strong>. Il va s’étoffer pour présenter plus de projets en cours et permettre ainsi à tout un chacun de savoir qu’un projet existe et pouvoir échanger entre pairs. Si vous souhaitez valoriser un projet, n’hésitez pas à nous le faire savoir !</p>
</section>
</section>
<section id="actualités" class="level1">
<h1>Actualités</h1>
<p>Voici une liste de sujets d’actualité depuis cet été jugés subjectivement intéressants.</p>
<section id="ia" class="level2">
<h2 class="anchored" data-anchor-id="ia">IA</h2>
<p>Comme toujours, une flopée d’articles a été publiée sur l’IA : le nouveau modèle d’OpenAI (GPT-5) a été déployé cet été, l’usage de l’IA se développe, des craintes se font entendre sur l’existence d’une bulle financière et, avec l’augmentation de son utilisation, de plus en plus de failles de sécurité liées sont découvertes. Un petit florilège rapide, <strong>non exhaustif</strong> :</p>
<ul>
<li><p>En France, <strong>l’IA est de plus en plus utilisée par les entreprises</strong> d’après une <a href="https://www.insee.fr/fr/statistiques/8604126#:~:text=En%202024%2C%2010%20%25%20des%20entreprises%20fran%C3%A7aises%20de%2010%20salari%C3%A9s%20ou,quelle%20que%20soit%20leur%20taille">étude de l’Insee</a>. En 2024 ainsi, une entreprise sur dix utilise l’IA, et ce phénomène concerne particulièrement 33% des grandes entreprises et 42% de celles de l’information. L’usage de l’IA augmente de 4 points par rapport à 2023. L’IA est par ailleurs légèrement moins utilisée par les entreprises en France que dans l’Europe, où 13% des entreprises disent utiliser l’IA en 2024.</p></li>
<li><p>Sur l’<strong>impact de l’IA</strong>, notamment sur le travail et la productivité, de nombreuses études continuent d’être publiées. Petit disclaimer, la technologie évolue encore très vite : depuis son arrivée il y a moins de trois ans, les bugs relevés au début ne sont plus du tout d’actualité aujourd’hui : les images sont de bien meilleure qualité, des RAG ont été mis en place … Face à un domaine aussi changeant, les résultats des études varient donc encore beaucoup.</p>
<ul>
<li>Ceci étant dit, les études montrent globalement que l’IA permettrait d’améliorer l’efficacité des travailleurs, particulièrement des <strong>non-experts</strong>, et réduit les <strong>inégalités de performance</strong>, même si les résultats sont contrastés. Selon <a href="https://digitaleconomy.stanford.edu/publications/canaries-in-the-coal-mine/">cette étude</a>, l’IA commence à avoir un impact négatif sur l’emploi, quand <a href="https://arxiv.org/abs/2507.09089">celle-ci</a> estime à l’inverse que les gains de productivité pour les développeurs sont sur-estimés.</li>
<li>L’usage de l’IA serait particulièrement efficace pour effectuer des <strong>tâches moyennement rares</strong>, l’humain restant plus efficace sur les tâches courantes (<em>cf.</em> par exemple <a href="https://www.nber.org/papers/w31161">ce papier</a>). Par ailleurs, sur les tâches complexes ou rares, l’IA serait largement moins efficace que l’humain et produirait des résultats de qualité moindre (<em>cf.</em> ce <a href="https://www.hbs.edu/ris/Publication%20Files/24-013_d9b45b68-9e74-42d6-a1c6-c72fb70c7282.pdf">papier</a>).</li>
</ul></li>
<li><p>Concernant la <strong>technologie en soit</strong>, des chercheurs ont réussi, à partir d’un petit modèle d’IA générative, à classifier du texte aussi efficacement qu’avec un gros modèle et nécessitant bien moins de données. Pour ce faire, ils ont utilisé un modèle de régression pénalisée (type Lasso/Ridge) sur la représentation numérique sous-jacente du texte. Plus de détails dans <a href="https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5303840">leur article</a>.</p></li>
<li><p>De nombreux articles font craindre l’existence d’une <strong>bulle financière autour de l’IA</strong>.</p>
<ul>
<li>Edward Zitron, un publiciste britannique, auteur et podcasteur, rappelle sur <a href="https://www.wheresyoured.at/the-haters-gui/">son blog</a> toutes les raisons pour laquelle une bulle existerait actuellement sur l’IA. Il rappelle notamment que les 560Md$ investis par les GAFAM dans l’IA n’ont généré que très peu de bénéfices et que le seul gagnant est Nvidia. Comme le dit le proverbe, <strong>“Pendant la ruée vers l’or, ce ne sont pas les chercheurs d’or qui se sont le plus enrichis, mais les vendeurs de pelles et de pioches”</strong>.</li>
<li>L’adoption de l’IA par les entreprises prendrait par ailleurs <strong>plus de temps qu’anticipé</strong> et n’aurait pas des rendements aussi rapides qu’espéré.</li>
<li>Plus généralement, des articles, comme cet article de <a href="https://www.forbes.com/sites/paulocarvao/2025/08/21/is-the-ai-bubble-bursting-lessons-from-the-dot-com-era/">Forbes</a>, rappellent que l’IA reste très utilisée aujourd’hui et que, même si aujourd’hui des investissements sont fait vers des projets peu productifs, <strong>l’adoption de nouvelles technologies prend du temps</strong>. Les articles citent beaucoup l’exemple d’internet, et de la bulle du début des années 2000 : les attentes du marché étaient trop hautes par rapport à tout le travail qu’il restait à faire, et cela n’empêche pas que aujourd’hui, 25 ans après cette bulle, les investissements dans le réseau internet ont permis de changer la société.</li>
</ul></li>
<li><p>Enfin, avec l’augmentation de son utilisation, la <strong>sécurité</strong> de la technologie est un enjeu qui est de plus en plus discuté, au-delà du <strong>détournement à des fins illégales</strong> qui attend toute innovation numérique :</p>
<ul>
<li>Des <strong>données confidentielles de Microsoft</strong> ont fuité après le piratage d’agents Copilot. Les <a href="https://x.com/mbrg0/status/1953815729947447770/photo/1">hackeurs</a> ont ainsi reçu par mail des extraits des contacts et des ventes de Microsoft.</li>
<li>Selon le <a href="https://www-cdn.anthropic.com/b2a76c6f6992465c09a6f2fce282f6c0cea8c200.pdf">rapport d’Anthropic</a> sur les menaces liées à l’IA, cette technologie a notamment été détournée pour :
<ul>
<li>s’assurer des postes bien payés pour des <strong>Nord-Coréens</strong>, qui leur ont permis de rapatrier les capitaux au pays ;</li>
<li>massifier les <strong>fraudes aux données personnelles</strong> ;</li>
<li><strong>automatiser les attaques par ransomware</strong>.</li>
</ul></li>
</ul></li>
</ul>
</section>
<section id="parquet" class="level2">
<h2 class="anchored" data-anchor-id="parquet">Parquet</h2>
<ul>
<li>Le site <a href="https://hyperparam.app/">Hyperparam</a> permet <strong>d’afficher très rapidement des données Parquet volumineuses</strong> sur son explorateur web très rapidement (en moins de 500ms). Pour la tuyauterie, tout est expliqué <a href="https://blog.hyperparam.app/2025/07/24/quest-for-instant-data/">sur ce blog</a>.</li>
</ul>
</section>
<section id="kubernetes" class="level2">
<h2 class="anchored" data-anchor-id="kubernetes">Kubernetes</h2>
<ul>
<li><strong>Comment détecter facilement des pods Kubernetes peu actifs et les désactiver?</strong> Un début de processus a été publié sur <a href="https://blog.devops.dev/reclaiming-idle-gpus-in-kubernetes-a-practical-approach-and-a-call-for-ideas-08cbad89f988">Devops.dev</a>.</li>
</ul>
</section>
<section id="nouveautés" class="level2">
<h2 class="anchored" data-anchor-id="nouveautés">Nouveautés</h2>
<ul>
<li>Une <strong>nouvelle version des notebooks Observable</strong> est disponible en pré-production, avec un kit open source pour générer des notebooks et des sites statiques et une application pour Mac pour éditer ses notebooks en local, intégrant de manière plus fluide les apports de l’IA. Plus de détails par <a href="https://observablehq.com/notebook-kit/">ici</a> et une <a href="https://observablehq.com/notebook-kit/gallery">galerie</a> d’exemples de sites.</li>
<li>L’université allemande de Hanovre <a href="https://geovectors.l3s.uni-hannover.de/">a publié</a> une <strong>base d’embedding des entités d’Openstreetmap</strong> directement utilisable pour entraîner des modèles de machine learning.</li>
<li>Selon une <a href="https://posit.co/blog/python-llm-evaluation/">étude de Posit</a>, le <strong>meilleur modèle d’IA pour aider à coder en Python</strong> serait ceux d’OpenAI (o3-mini, o4-mini) ou d’Anthropic (Claude Sonnet 4).</li>
</ul>
</section>
<section id="fun" class="level2">
<h2 class="anchored" data-anchor-id="fun">Fun</h2>
<ul>
<li>Vous vous êtes déjà demandé comment résoudre un <a href="https://sutom.nocle.fr/">SUTOM</a> avec les <strong>dépendances de Python</strong> ? Non ? Et bien quelqu’un a trouvé le moyen de résoudre des Sudoku et des Motus grâce à cela ! Tout est expliqué <a href="https://mildbyte.xyz/blog/solving-wordle-with-uv-dependency-resolver/">ici</a></li>
<li>Avez-vous déjà vu une <strong>intelligence artificielle jouer au Loup-Garou</strong> ? Des étudiants de l’ENSAE <del>se sont amusés</del> ont <a href="https://werewolf.foaster.ai/">étudié</a> quelles IA étaient meilleures au jeu du Loup-Garou. Ce jeu nécessite en effet de mentir, de convaincre, et d’adapter sa stratégie pour survivre (pour les villageois) ou tuer tous les villageois (pour les loup-garous). A la fin, <strong>GPT-5 gagne dans 97 % des 60 matchs joués, contre 15% pour GPT-OSS-120b</strong>.</li>
</ul>
<div class="callout callout-style-default callout-tip callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Astuce
</div>
</div>
<div class="callout-body-container callout-body">
<p>Vous voyez d’autres sujets d’actualité intéressants ? N’hésitez pas à les partager sur le <a href="https://tchap.gouv.fr/#/room/#ssphub:agent.finances.tchap.gouv.fr">groupe Tchap 💬</a> directement !</p>
</div>
</div>
</section>
</section>
<section id="linterview" class="level1">
<h1>L’interview</h1>
<p>Première interview, je propose donc humblement de m’auto-interviewer pour lancer ce format et de comparer les questions que j’ai trouvées avec celles proposées par une IA.</p>
<section id="première-interview-avec-nicolas-qui-travaille-à-linsee-ssplab" class="level2">
<h2 class="anchored" data-anchor-id="première-interview-avec-nicolas-qui-travaille-à-linsee-ssplab">Première interview avec Nicolas, qui travaille à l’Insee (SSPLab)</h2>
<table class="caption-top table">
<tbody>
<tr class="odd">
<td><strong>Peux-tu te présenter?</strong></td>
<td>De formation ingénieur, j’ai <strong>travaillé huit ans dans l’administration publique</strong> avec un parcours que certains ont dit plutôt atypique (ce n’est pas totalement mon avis 🙃). J’ai notamment travaillé au sein de la DG Trésor et à la Commission européenne, sur des sujets de prévision de finances publiques, de négociations européennes et de suivi de la Banque centrale européenne. Le traitement de la donnée n’a pas été jusque-là au centre de mes postes mais l’importance des outils et de traitement plus robuste aurait facilité la vie à certains moments. J’arrive donc à l’<strong>Insee pour la première fois</strong> mais je suis content de “découvrir la maison”. <br> A l’Insee, je travaille au sein du SSPLab, le laboratoire de l’innovation en data sciences de l’Insee. L’équipe est chargée de faire de la veille et d’épauler les équipes métiers dans leurs projets. J’ai tout particulièrement l’honneur de succéder à Lino au poste d’<strong>animateur du SSPHub</strong>, big up à lui pour tout ce qu’il a fait ces trois dernières années !</td>
</tr>
<tr class="even">
<td><strong>Peux-tu donner un conseil que tu aurais aimé recevoir en lien avec la data ?</strong></td>
<td>Question difficile, étant donné que je n’ai pas mené <del>beaucoup</del> de projets data jusqu’ici. Mais j’ai remarqué que <strong>l’ordinateur avait rarement tort</strong>, ce qui est assez frustrant, et qu’être persévérant était nécessaire. Avoir un code propre aussi, quand on n’est même pas capable de comprendre ce qu’on a codé soi-même en rentrant de vacances, cela donne une leçon pour la suite. J’aurai sûrement plus d’exemples d’ici un an ou deux 😉</td>
</tr>
<tr class="odd">
<td><strong>As-tu un projet qui a particulièrement marché, et pourquoi a-t-il marché ? A l’inverse, as-tu un projet qui n’a pas marché et pourquoi ?</strong></td>
<td>J’avais codé des petits programmes pour m’aider dans mon travail quotidien, sans rapport direct avec la donnée. Ce qui a aidé dans les deux cas c’est que <strong>le besoin métier était bien défini et bien compris</strong>, puisque j’étais à la fois le métier et le développeur. Cependant, ces programmes faisaient partie d’un shadow IT qui n’a pas dû me survivre bien longtemps. J’ai quand même réussi à pousser un programme qui faisait du publipostage jusqu’à sa mise en production. À ma surprise, c’est la phase de déploiement qui a été bien plus longue que la phase de développement : cela a dû me prendre quelques jours de code contre plusieurs semaines avant le déploiement.</td>
</tr>
<tr class="even">
<td><strong>Dans quel domaine le service public pourrait être aidé par une utilisation plus importante des données ?</strong></td>
<td>Un usage plus important de la donnée serait fort bénéfique pour la simplification des démarches pour les citoyens, permettre de diminuer le non-recours aux subventions et différents dispositifs publics tout en renforçant la qualité des données échangées entre administrations.</td>
</tr>
<tr class="odd">
<td><strong>La dernière découverte technologique qui t’a marqué</strong></td>
<td>J’avais un peu laissé de côté <strong>R Markdown</strong> depuis huit ans. En revenant dans le domaine de la data, je découvre à quel point ce milieu a évolué grâce à <strong>Posit, Quarto et l’apport de tous ces projets open source</strong>, auxquels des gens contribuent souvent naturellement. L’open source, c’est un peu comme les pompiers ou le secours en mer : ce sont des bénévoles qui font tenir et maintiennent des outils extraordinaires. Et plus récemment encore avec ma prise de poste à l’Insee, la découverte d’<a href="https://onyxia.sh/">Onyxia</a>, de <code>duckDB</code> et de <code>Parquet</code> m’ont aussi marqués.</td>
</tr>
</tbody>
</table>
</section>
<section id="linterview-à-laquelle-vous-avez-échappé" class="level2">
<h2 class="anchored" data-anchor-id="linterview-à-laquelle-vous-avez-échappé">L’interview à laquelle vous avez échappé</h2>
<p>Quelle est la plus-value de l’IA par rapport à un travail humain ? J’ai comparé les questions que j’avais trouvées avec des idées produites par une IA. Voici les questions qu’il m’a proposées, que j’ai proposé de ne pas suivre. Remarquez, ces questions sont le résultat de deux ou trois échanges avec l’IA, je n’y ai pas passé beaucoup plus de temps.</p>
<blockquote class="blockquote">
<p>Voici une proposition de questions adaptées à des data scientists ou des managers de data scientists travaillant dans l’administration publique :</p>
<ol type="1">
<li><p><strong>Formations et influences</strong> <em>“Quelle formation ou influence majeure a façonné votre approche des données et de la gestion dans l’administration ?”</em></p></li>
<li><p><strong>Expériences professionnelles</strong> <em>“Quelles ont été les étapes clés de votre carrière dans l’administration qui ont influencé votre façon de gérer ou d’analyser les données ?”</em></p></li>
<li><p><strong>Motivations et passions</strong> <em>“Qu’est-ce qui vous motive le plus dans l’analyse ou la gestion des données au sein de l’administration publique ?”</em></p></li>
<li><p><strong>Réalisations majeures</strong> <em>“Quels sont vos principaux accomplissements en matière de gestion ou d’analyse de données dans votre rôle actuel ?”</em></p></li>
<li><p><strong>Développement personnel</strong> <em>“Quels défis spécifiques aux données avez-vous rencontrés dans le secteur public et comment les avez-vous surmontés ?”</em></p></li>
<li><p><strong>Projets actuels</strong> <em>“Sur quels projets liés aux données travaillez-vous actuellement, et qu’est-ce qui les rend particulièrement intéressants ou innovants ?”</em></p></li>
<li><p><strong>Regrets ou aspirations</strong> <em>“Y a-t-il des projets ou réalisations en lien avec les données que vous auriez aimé accomplir dans votre carrière mais qui ne se sont pas concrétisés ?”</em></p></li>
<li><p><strong>Vision future</strong> <em>“Comment voyez-vous l’évolution de l’importance des données dans l’administration publique dans les années à venir, et quel rôle aimeriez-vous y jouer ?”</em></p></li>
<li><p><strong>Conseils aux jeunes générations</strong> <em>“Quel conseil donneriez-vous à un jeune professionnel qui souhaite devenir data scientist ou manager de data scientists dans le secteur public ?”</em></p></li>
<li><p><strong>Philosophie personnelle</strong> <em>“Si vous deviez partager une philosophie ou un credo concernant la gestion ou l’analyse des données dans l’administration, quelle serait-elle ?”</em></p></li>
</ol>
<p>Ces questions devraient aider à explorer les nuances spécifiques du travail des data scientists et de leurs managers dans le secteur public. Si vous souhaitez ajuster davantage ou ajouter des thèmes spécifiques, n’hésitez pas à me le faire savoir !</p>
</blockquote>


</section>
</section>

 ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_19/</guid>
  <pubDate>Mon, 29 Sep 2025 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_19/2025_09_back_school.png" medium="image" type="image/png" height="107" width="144"/>
</item>
<item>
  <title>Comparaison des prévisions entre nowcasting et approche ascendante</title>
  <link>https://ssphub-test.netlify.app/project/2025_nowcasting/</link>
  <description><![CDATA[ 





<section id="synthèse-du-projet" class="level1">
<h1>Synthèse du projet</h1>
<table class="caption-top table">
<thead>
<tr class="header">
<th></th>
<th>Comparaison des méthodes de prévision du PIB en continu avec une méthode ascendante</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>Détail du projet</strong></td>
<td>L’Insee effectue ses prévisions de croissance du PIB à partir d’un modèle dit ascendant, permettant de répliquer la mécanique des comptes trimestriels en agrégeant les prévisions fines sur chaque poste. Se pose toutefois la question de la performance d’une telle approche pour prévoir le PIB par rapport à celle des approches directes, ou <em>nowcasting</em>. Une approche directe permet de prévoir directement la croissance du PIB à partir de séries conjoncturelles, sans utiliser de comptes trimestriels. Afin d’étudier les performances relatives des deux approches, un nouveau modèle de prévision ascendant de la croissance du PIB de la France, inspiré du <em>« GDPnow »</em> de la Réserve Fédérale d’Atlanta, a été mis au point dans le cadre de cette étude.</td>
</tr>
<tr class="even">
<td><strong>Acteurs</strong></td>
<td>Insee</td>
</tr>
<tr class="odd">
<td><strong>Résultats du projet</strong></td>
<td>En début de trimestre, l’approche directe est légèrement plus performante que l’approche ascendante : en effet, peu d’indicateurs quantitatifs sont alors disponibles et la plus-value que représente l’utilisation d’un cadre comptable complet est limitée par rapport à un modèle direct, naturellement plus parcimonieux. À partir de la fin du deuxième mois en revanche, les indicateurs quantitatifs disponibles deviennent plus nombreux et l’approche ascendante présente des performances légèrement meilleures que l’approche directe estimée dans cette étude, c’est en particulier le cas au moment de la publication de la Note de conjoncture. Enfin, la différence de performance entre les deux approches est nette entre la fin du trimestre et la publication des premières estimations des comptes trimestriels trente jours plus tard : au cours de cette période, il est largement préférable d’exploiter l’information disponible via une approche ascendante plutôt que par une approche directe.</td>
</tr>
<tr class="even">
<td><strong>Produits et documentation du projet</strong></td>
<td>- <a href="https://www.insee.fr/fr/statistiques/8638815?sommaire=8638823">Comment se comparent les approches directe et ascendante pour prévoir le PIB du trimestre courant ?</a>, Note de conjoncture de l’Insee - septembre 2025</td>
</tr>
</tbody>
</table>
</section>
<section id="projets-similaires" class="level1">
<h1>Projets similaires</h1>
<div id="listing-similar-project" class="quarto-listing quarto-listing-container-grid">
<div class="list grid quarto-listing-cols-3">
<div class="g-col-1" data-index="0" data-categories="SW5zZWUlMkNwciVDMyVBOXZpc2lvbnMlMkNkb25uJUMzJUE5ZXMlMjBjb21wdGVzJTIwYmFuY2FpcmVzJTJDZXhwJUMzJUE5cmltZW50YXRpb24=" data-listing-date-sort="1748736000000" data-listing-file-modified-sort="1778082287083" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="4" data-listing-word-count-sort="788">
<a href="../../project/2025_comptes_bancaires_conj/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/money.jpg" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title" data-anchor-id="projets-similaires">
Exploitation de données bancaires pour les prévisions de croissance du PIB
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwY29tcHRlcyUyMGJhbmNhaXJlcw=='); return false;">données comptes bancaires</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

</div>
<div class="card-text listing-description delink">
<p>Analyse du comportement des ménages à partir de données de comptes bancaires pour les prévisions de croissance économique, pendant la crise sanitaire et entre 2023 et 2024</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 juin 2025
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="1" data-categories="SW5zZWUlMkNtYWNoaW5lJTIwbGVhcm5pbmclMkNleHAlQzMlQTlyaW1lbnRhdGlvbiUyQ3ByJUMzJUE5dmlzaW9ucyUyQ3dlYnNjcmFwaW5n" data-listing-date-sort="1614556800000" data-listing-file-modified-sort="1778082287080" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="340">
<a href="../../project/2021_gdp_media/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2021_gdp_media/gdp_media.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Prévoir la croissance en lisant le journal
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('bWFjaGluZSUyMGxlYXJuaW5n'); return false;">machine learning</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('d2Vic2NyYXBpbmc='); return false;">webscraping</div>

</div>
<div class="card-text listing-description delink">
<p>Utiliser les articles de presse en continu pour construire un indicateur aidant à prévoir la croissance</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 mars 2021
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="2" data-categories="cHIlQzMlQTl2aXNpb25zJTJDZXhwJUMzJUE5cmltZW50YXRpb24lMkNJbnNlZSUyQ2Rvbm4lQzMlQTllcyUyMENCJTJDZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ==" data-listing-date-sort="1606780800000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="4" data-listing-word-count-sort="718">
<a href="../../project/2020_cb_conj/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2020_cb_conj/cb_conj.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Utilisation de données de cartes bancaires et de téléphonie mobile pour prévoir l’activité économique
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwQ0I='); return false;">données CB</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ=='); return false;">données de téléphonie mobile</div>

</div>
<div class="card-text listing-description delink">
<p>La crise sanitaire de 2020 a nécessité de revoir les processus de prévision pour être plus réactif face aux événements. Dans ce cadre, l’Insee s’est appuyé sur les données…</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 déc. 2020
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="3" data-categories="SW5zZWUlMkNwciVDMyVBOXZpc2lvbnMlMkNkb25uJUMzJUE5ZXMlMjBwcml2JUMzJUE5ZXMlMkNleHAlQzMlQTlyaW1lbnRhdGlvbg==" data-listing-date-sort="1606780800000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="3" data-listing-word-count-sort="414">
<a href="../../project/2020_electricite_conj/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2020_electricite_conj/electricity.jpg" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Que disent les données de production et de consommation d’électricité sur l’activité économique en période de confinement ?
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwcHJpdiVDMyVBOWVz'); return false;">données privées</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

</div>
<div class="card-text listing-description delink">
<p>Utilisation des données de production et de consommation d’électricité pour prévoir l’activité économique</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 déc. 2020
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="4" data-categories="bWFjaGluZSUyMGxlYXJuaW5nJTJDZXhwJUMzJUE5cmltZW50YXRpb24lMjBhcnIlQzMlQUF0JUMzJUE5ZSUyQ3ByJUMzJUE5dmlzaW9ucyUyQ0luc2VlJTJDbm93Y2FzdGluZw==" data-listing-date-sort="1575158400000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="374">
<a href="../../project/2019_gdp_tracker/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2019_gdp_tracker/evol_croissance_fr.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
« GDP Tracker » : un outil pour des prévisions économiques en continu
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('bWFjaGluZSUyMGxlYXJuaW5n'); return false;">machine learning</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24lMjBhcnIlQzMlQUF0JUMzJUE5ZQ=='); return false;">expérimentation arrêtée</div>

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('bm93Y2FzdGluZw=='); return false;">nowcasting</div>

</div>
<div class="card-text listing-description delink">
<p>Modèles de <em>machine learning</em> pour effectuer des prévisions en temps réel (<em>nowcasting</em>) pour alimenter les analyses conjoncturelles de l’Insee</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 déc. 2019
</div>
</div>
</div>
</div></a>
</div>
</div>
<div class="listing-no-matching d-none">Aucun article correspondant</div>
</div>



</section>

 ]]></description>
  <category>étude</category>
  <category>nowcasting</category>
  <category>prévisions</category>
  <category>Insee</category>
  <guid>https://ssphub-test.netlify.app/project/2025_nowcasting/</guid>
  <pubDate>Mon, 01 Sep 2025 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/project/2025_nowcasting/comp_fr.png" medium="image" type="image/png" height="53" width="144"/>
</item>
<item>
  <title>Exploitation de données bancaires pour les prévisions de croissance du PIB</title>
  <link>https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/</link>
  <description><![CDATA[ 





<section id="synthèse-du-projet" class="level1">
<h1>Synthèse du projet</h1>
<table class="caption-top table">
<thead>
<tr class="header">
<th></th>
<th>Exploitation de données bancaires pour les prévisions économiques de l’Insee</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td><strong>Détail du projet</strong></td>
<td>Les données de comptes bancaires constituent une source d’information avancée sur la consommation et l’épargne des ménages, aussi bien à l’échelle microéconomique qu’infra-annuelle. L’Insee les a utilisées ainsi à plusieurs reprises dans le cadre de ses prévisions économiques. <br> <br> En 2020, à travers l’exploitation de données anonymisées mises à disposition par le Crédit Mutuel Alliance Fédérale, il est possible d’étudier comment la crise sanitaire a pu modifier la situation financière des ménages clients de cette banque, selon leur niveau de revenu, leur âge ou encore leur catégorie socio-professionnelle. <br> Les données bancaires utilisées ne permettent pas d’identifier directement les revenus des ménages mais peuvent tout de même être mobilisées pour en déduire une approximation, grâce à l’ensemble des virements et chèques entrant sur les comptes. Ces flux entrants chutent lors du premier confinement avant de rebondir en juin. Le deuxième confinement n’aurait pas provoqué de baisse de ces flux entrants, en moyenne. <br> <br> Enfin, en 2025, l’Insee a utilisé des données anonymisées de La Banque Postale pour apporter un éclairage sur l’évolution de l’épargne depuis 2020, et notamment d’identifier les ménages qui ont épargné plus en 2024 qu’en 2023.</td>
</tr>
<tr class="even">
<td><strong>Acteurs</strong></td>
<td>Insee</td>
</tr>
<tr class="odd">
<td><strong>Résultats du projet</strong></td>
<td>Ces études se situent dans le prolongement des travaux menés sur les ménages à partir des données de compte bancaire. <br> <br> Pendant les deux confinements de 2020, tous les groupes de ménages étudiés, quels que soient leurs niveaux de revenus, auraient diminué leur consommation, laquelle s’est recentrée, en particulier en avril, aux biens de première nécessité. Les ménages qui consommaient le plus avant la crise, essentiellement des cadres et des hauts revenus, auraient donc davantage diminué leur consommation. <br> La chute de la consommation a provoqué un surcroît d’épargne qui a alimenté les comptes courants des ménages et leurs comptes sur livrets. Le patrimoine financier brut des ménages (épargne liquide, comptes-titres et assurances- vie, crédits exclus) aurait fortement augmenté en 2020. Cette hausse s’observe chez tous les groupes de ménages, quel que soit leur niveau de patrimoine financier. Elle est plus élevée en euros chez les ménages à hauts patrimoines financiers, qui ont pu épargner davantage en diminuant leur consommation. Les ménages à faibles patrimoines, ont également mis de l’argent de côté notamment pendant le premier confinement. Cependant, les montants en jeu pour ces ménages, quelques dizaines ou centaines d’euros en général, demeurent faibles bien qu’ils représentent une part importante de leur patrimoine initial. Parmi les ménages actifs, certains auraient été davantage touchés que d’autres par une baisse de leurs revenus et auraient donc moins augmenté leur épargne : c’est le cas des artisans et commerçants, ou encore des salariés du secteur privé, par contraste avec ceux du secteur public. <br> <br> L’analyse menée pour la note de conjoncture de juin 2025 permet de montrer que les évolutions des agrégats de revenu, de consommation et du taux d’épargne issues des données de ces comptes bancaires sont cohérentes avec celles de la comptabilité nationale. Depuis le quatrième trimestre 2023, le revenu disponible des ménages a connu une tendance haussière, les dépenses de consommation ont ralenti et le taux d’épargne des ménages augmente tendanciellement en glissement annuel. Si le taux d’épargne moyen a augmenté dans la quasi-totalité des regroupements entre 2023 et 2024, c’est parmi les plus âgés que la hausse du taux d’épargne en 2023 et 2024 est la plus forte : les personnes âgées de 65 ans ou plus ont contribué pour environ deux tiers de la hausse du taux d’épargne entre 2023 et 2024 selon ces données.</td>
</tr>
<tr class="even">
<td><strong>Produits et documentation du projet</strong></td>
<td>- <a href="https://www.insee.fr/fr/statistiques/5232043">En 2020, la chute de la consommation a alimenté l’épargne, faisant progresser notamment les hauts patrimoines financiers : quelques résultats de l’exploitation de données bancaires</a>, Note de conjoncture de l’Insee - mars 2021 ; <br> - <a href="https://www.insee.fr/fr/statistiques/8594932?sommaire=8594943">En 2024, les revenus des retraités clients de La Banque Postale ont fortement augmenté mais leur consommation n’a pas suivi, ce qui contribuerait aux deux tiers de la hausse du taux d’épargne</a>, Note de conjoncture de l’Insee - juin 2025</td>
</tr>
</tbody>
</table>
</section>
<section id="projets-similaires" class="level1">
<h1>Projets similaires</h1>
<div id="listing-similar-project" class="quarto-listing quarto-listing-container-grid">
<div class="list grid quarto-listing-cols-3">
<div class="g-col-1" data-index="0" data-categories="ZXhwJUMzJUE5cmltZW50YXRpb24lMkNkb25uJUMzJUE5ZXMlMjBkZSUyMHQlQzMlQTlsJUMzJUE5cGhvbmllJTIwbW9iaWxlJTJDZG9ubiVDMyVBOWVzJTIwQ0IlMkNJbnNlZQ==" data-listing-date-sort="1704067200000" data-listing-file-modified-sort="1778082287083" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="382">
<a href="../../project/2024_cb_mno_tabac/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2024_cb_mno_tabac/tabac.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title" data-anchor-id="projets-similaires">
Une évaluation des achats transfrontaliers de tabac et des pertes fiscales associées en France
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ=='); return false;">données de téléphonie mobile</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwQ0I='); return false;">données CB</div>

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

</div>
<div class="card-text listing-description delink">
<p>Exploitation d’une expérience naturelle, la fermeture des frontières en 2020, pour mesurer la part d’achats transfrontaliers de tabac</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2024
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="1" data-categories="Y29kaWZpY2F0aW9uJTIwYXV0b21hdGlxdWUlMkNleHRyYWN0aW9uJTIwZGUlMjBkb25uJUMzJUE5ZXMlMkNkb25uJUMzJUE5ZXMlMjBkZSUyMGNhaXNzZQ==" data-listing-date-sort="1640995200000" data-listing-file-modified-sort="1778082287080" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="323">
<a href="../../project/2022_Enquete_Budget_Famille/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2022_Enquete_Budget_Famille/visuel_Budget_des_familles_1.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Travaux méthodologiques sur l’enquête Budget de Famille
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('Y29kaWZpY2F0aW9uJTIwYXV0b21hdGlxdWU='); return false;">codification automatique</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXh0cmFjdGlvbiUyMGRlJTIwZG9ubiVDMyVBOWVz'); return false;">extraction de données</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjBjYWlzc2U='); return false;">données de caisse</div>

</div>
<div class="card-text listing-description delink">
<p>Modernisation de l’enquête budget des familles par utilisation d’outils de classification automatique</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2022
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="2" data-categories="cHIlQzMlQTl2aXNpb25zJTJDZXhwJUMzJUE5cmltZW50YXRpb24lMkNJbnNlZSUyQ2Rvbm4lQzMlQTllcyUyMENCJTJDZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ==" data-listing-date-sort="1606780800000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="4" data-listing-word-count-sort="718">
<a href="../../project/2020_cb_conj/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2020_cb_conj/cb_conj.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Utilisation de données de cartes bancaires et de téléphonie mobile pour prévoir l’activité économique
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwQ0I='); return false;">données CB</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ=='); return false;">données de téléphonie mobile</div>

</div>
<div class="card-text listing-description delink">
<p>La crise sanitaire de 2020 a nécessité de revoir les processus de prévision pour être plus réactif face aux événements. Dans ce cadre, l’Insee s’est appuyé sur les données…</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 déc. 2020
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="3" data-categories="SW5zZWUlMkNwciVDMyVBOXZpc2lvbnMlMkNkb25uJUMzJUE5ZXMlMjBwcml2JUMzJUE5ZXMlMkNleHAlQzMlQTlyaW1lbnRhdGlvbg==" data-listing-date-sort="1606780800000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="3" data-listing-word-count-sort="414">
<a href="../../project/2020_electricite_conj/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2020_electricite_conj/electricity.jpg" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Que disent les données de production et de consommation d’électricité sur l’activité économique en période de confinement ?
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('cHIlQzMlQTl2aXNpb25z'); return false;">prévisions</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwcHJpdiVDMyVBOWVz'); return false;">données privées</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

</div>
<div class="card-text listing-description delink">
<p>Utilisation des données de production et de consommation d’électricité pour prévoir l’activité économique</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 déc. 2020
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="4" data-categories="ZGF0YXZpc3VhbGlzYXRpb24lMkNtYWNoaW5lJTIwbGVhcm5pbmclMkNJbnNlZSUyQ2V4cCVDMyVBOXJpbWVudGF0aW9uJTJDb3Blbi1kYXRhJTJDZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ==" data-listing-date-sort="1604188800000" data-listing-file-modified-sort="1778082287080" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="3" data-listing-word-count-sort="480">
<a href="../../project/2020_mvtpop/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2020_mvtpop/mvtpop.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Mouvements de population autour du confinement de mars 2020 grâce aux données de téléphonie mobile
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('ZGF0YXZpc3VhbGlzYXRpb24='); return false;">datavisualisation</div>

<div class="listing-category" onclick="window.quartoListingCategory('bWFjaGluZSUyMGxlYXJuaW5n'); return false;">machine learning</div>

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

<div class="listing-category" onclick="window.quartoListingCategory('b3Blbi1kYXRh'); return false;">open-data</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ=='); return false;">données de téléphonie mobile</div>

</div>
<div class="card-text listing-description delink">
<p>L’Insee a eu accès à des données de téléphonie mobile dans le cadre du suivi de la crise sanitaire de 2020. Ces données ont permis de produire les statistiques sur les…</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 nov. 2020
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="5" data-categories="UHl0aG9uJTJDY29kaWZpY2F0aW9uJTIwYXV0b21hdGlxdWUlMkNkb25uJUMzJUE5ZXMlMjBkZSUyMGNhaXNzZSUyQ0NPSUNPUCUyQ0lQQyUyQ2VuJTIwcHJvZHVjdGlvbg==" data-listing-date-sort="1577836800000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="3" data-listing-word-count-sort="516">
<a href="../../project/2020_donnees_caisse/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2020_donnees_caisse/2020_donnees_caisse.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Classification des données de caisse à partir de machine learning
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('UHl0aG9u'); return false;">Python</div>

<div class="listing-category" onclick="window.quartoListingCategory('Y29kaWZpY2F0aW9uJTIwYXV0b21hdGlxdWU='); return false;">codification automatique</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjBjYWlzc2U='); return false;">données de caisse</div>

<div class="listing-category" onclick="window.quartoListingCategory('Q09JQ09Q'); return false;">COICOP</div>

<div class="listing-category" onclick="window.quartoListingCategory('SVBD'); return false;">IPC</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZW4lMjBwcm9kdWN0aW9u'); return false;">en production</div>

</div>
<div class="card-text listing-description delink">
<p>Classifier des données de caisse dans la nomenclature COICOP par machine learning pour le calcul de l’IPC</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2020
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="6" data-categories="SW5zZWUlMkNleHAlQzMlQTlyaW1lbnRhdGlvbiUyQ2Rvbm4lQzMlQTllcyUyMGRlJTIwdCVDMyVBOWwlQzMlQTlwaG9uaWUlMjBtb2JpbGUlMkNkb25uJUMzJUE5ZXMlMjBhZG1pbmlzdHJhdGl2ZXM=" data-listing-date-sort="1514764800000" data-listing-file-modified-sort="1778082287079" data-listing-date-modified-sort="NaN" data-listing-reading-time-sort="2" data-listing-word-count-sort="277">
<a href="../../project/2018_segregation/index.html" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" data-src="../../project/2018_segregation/indice_segregation.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Ségrégation urbaine : un éclairage par les données de téléphonie mobile
</h5>
<div class="listing-categories">

<div class="listing-category" onclick="window.quartoListingCategory('SW5zZWU='); return false;">Insee</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZXhwJUMzJUE5cmltZW50YXRpb24='); return false;">expérimentation</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwZGUlMjB0JUMzJUE5bCVDMyVBOXBob25pZSUyMG1vYmlsZQ=='); return false;">données de téléphonie mobile</div>

<div class="listing-category" onclick="window.quartoListingCategory('ZG9ubiVDMyVBOWVzJTIwYWRtaW5pc3RyYXRpdmVz'); return false;">données administratives</div>

</div>
<div class="card-text listing-description delink">
<p>Croisement de données administratives et de données de téléphonie pour analyser la ségrégation au niveau local</p>
</div>
<div class="card-attribution card-text-small justify">
<div class="listing-author">

</div>
<div class="listing-date">
1 janv. 2018
</div>
</div>
</div>
</div></a>
</div>
</div>
<div class="listing-no-matching d-none">Aucun article correspondant</div>

</div>
</section>
<section id="autres-études-menées-grâces-aux-données-bancaires" class="level1">
<h1>Autres études menées grâces aux données bancaires</h1>
<p>Par ailleurs, d’autres études ont été menées par l’Insee en utilisant des données de compte bancaires. Elles sont disponibles sur le site de l’Insee :</p>
<div id="listing-autres-comptes-bancaires" class="quarto-listing quarto-listing-container-grid">
<div class="list grid quarto-listing-cols-3">
<div class="g-col-1" data-index="0" data-listing-date-sort="1733011200000">
<a href="https://www.insee.fr/fr/information/8264558?sommaire=8264562" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/2024_courrier_stats.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title" data-anchor-id="autres-études-menées-grâces-aux-données-bancaires">
L’économie racontée par les données bancaires - Ce que nos relevés de comptes disent de nous
</h5>
<div class="card-text listing-description delink">
<p>Courrier des statistiques n°12, Insee, Décembre 2024</p>
</div>
<div class="card-attribution card-text-small end">
<div class="listing-date">
1 déc. 2024
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="1" data-listing-date-sort="1714521600000">
<a href="https://www.insee.fr/fr/statistiques/8183836" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/2024_DT2024_08.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Achats transfrontaliers de carburant à la frontière franco-allemande
</h5>
<div class="card-text listing-description delink">
<p>Documents de travail de l’Insee n°2024-08, mai 2024</p>
</div>
<div class="card-attribution card-text-small end">
<div class="listing-date">
1 mai 2024
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="2" data-listing-date-sort="1701388800000">
<a href="https://www.insee.fr/fr/statistiques/7721885" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/2023_InseeA90.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
La situation financière des ménages au jour le jour
</h5>
<div class="card-text listing-description delink">
<p>Insee Analyses n°90, décembre 2023</p>
</div>
<div class="card-attribution card-text-small end">
<div class="listing-date">
1 déc. 2023
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="3" data-listing-date-sort="1664582400000">
<a href="https://www.insee.fr/fr/statistiques/6542263" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/2022_InseeA76.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Avec l’inflation, une précarité financière en légère hausse, mais inférieure en août 2022 à son niveau d’avant-crise sanitaire
</h5>
<div class="card-text listing-description delink">
<p>Insee Analyses n°76, octobre 2022</p>
</div>
<div class="card-attribution card-text-small end">
<div class="listing-date">
1 oct. 2022
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="4" data-listing-date-sort="1664582400000">
<a href="https://journees-methodologie-statistique.insee.net/une-mesure-de-la-reponse-en-consommation-a-des-chocs-de-revenus-a-partir-des-donnees-bancaires/" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/assets/media/logo_Insee.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Une mesure de la réponse en consommation à des chocs de revenus à partir des données bancaires
</h5>
<div class="card-text listing-description delink">
<p>Journées de méthodologie statistique 2022</p>
</div>
<div class="card-attribution card-text-small end">
<div class="listing-date">
1 oct. 2022
</div>
</div>
</div>
</div></a>
</div>
<div class="g-col-1" data-index="5" data-listing-date-sort="1635724800000">
<a href="https://www.insee.fr/fr/statistiques/5760458" class="quarto-grid-link">
<div class="quarto-grid-item card h-100 card-left">
<p class="card-img-top">
<img loading="lazy" src="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/2021_InseeA69.png" class="thumbnail-image card-img" style="height: 150px;">
</p>
<div class="card-body post-contents">
<h5 class="no-anchor card-title listing-title">
Impact de la crise sanitaire sur un panel anonymisé de clients de La Banque Postale
</h5>
<div class="card-text listing-description delink">
<p>Insee Analyses n°69, novembre 2021</p>
</div>
<div class="card-attribution card-text-small end">
<div class="listing-date">
1 nov. 2021
</div>
</div>
</div>
</div></a>
</div>
</div>
<div class="listing-no-matching d-none">Aucun article correspondant</div>
</div>



</section>

 ]]></description>
  <category>Insee</category>
  <category>prévisions</category>
  <category>données comptes bancaires</category>
  <category>expérimentation</category>
  <guid>https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/</guid>
  <pubDate>Sun, 01 Jun 2025 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/project/2025_comptes_bancaires_conj/money.jpg" medium="image" type="image/jpeg"/>
</item>
<item>
  <title>Atelier - Comment récupérer des données sous format Parquet ?</title>
  <link>https://ssphub-test.netlify.app/event/2025-04-16-Parquet/</link>
  <description><![CDATA[ 





<p>L’atelier a eu lieu le <strong>16 avril 2025 (15h - 16h30)</strong>, en présentiel à l’Insee et en distanciel pour les membres du réseau du SSP Hub. Environ 35 personnes ont participé de l’Insee (DG ou directions régionales), de différents services statistiques ministériels ou d’autres horizons. Merci à tous pour les échanges !</p>
<section id="slides-de-la-présentation" class="level1">
<h1>Slides de la présentation</h1>
<div>
<iframe class="slide-deck" style="width: 100%; height: 500px" src="https://inseefrlab.github.io/ssphub-ateliers-slides/slides-data/parquet#/title-slide"></iframe>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="26" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 25;"><span id="cb1-26"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides_button<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="32" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 31;"><span id="cb2-32">slides_button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`&lt;p class="text-center"&gt;</span></span>
<span id="cb2-33"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;a class="btn btn-primary btn-lg cv-download" href="https://inseefrlab.github.io/ssphub-ateliers-slides/slides-data/parquet#/title-slide" target="_blank"&gt;</span></span>
<span id="cb2-34"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;Voir les slides</span></span>
<span id="cb2-35"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/a&gt;</span></span>
<span id="cb2-36"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">&lt;/p&gt;`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="declaration">

</div>
</div>
</div>
</section>
<section id="documentation-de-latelier-replay" class="level1">
<h1>Documentation de l’atelier &amp; <em>replay</em></h1>
<p>Le matériel lié à l’atelier, y compris le replay, est disponible <a href="https://ssphub.github.io/ssphub-ateliers-parquet/" target="_blank">ici</a>. <img src="https://ssphub-test.netlify.app/event/2025-04-16-Parquet/Parquet-site-preview.png" class="img-fluid"></p>
</section>
<section id="questions-contact" class="level1">
<h1>Questions / contact</h1>
<p>Si vous avez la moindre question 🤨, n’hésitez pas à contacter 📧 <em><a href="mailto:contact-ssphub@insee.fr" class="email">contact-ssphub@insee.fr</a></em>.</p>


</section>

 ]]></description>
  <category>Parquet</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2025-04-16-Parquet/</guid>
  <pubDate>Wed, 16 Apr 2025 14:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2025-04-16-Parquet/Atelier-Parquet.png" medium="image" type="image/png" height="144" width="144"/>
</item>
<item>
  <title>Atelier - Comment récupérer des données par API ?</title>
  <link>https://ssphub-test.netlify.app/event/2025-04-09-API/</link>
  <description><![CDATA[ 





<p>L’atelier a eu lieu le <strong>9 avril 2025 (15h - 16h30)</strong>, en présentiel à l’Insee et en distanciel pour les membres du réseau du SSP Hub. Environ 35 personnes ont participé de l’Insee (DG ou directions régionales), de différents services statistiques ministériels ou d’autres horizons. Merci à tous pour les échanges !</p>
<section id="slides-de-la-présentation" class="level1">
<h1>Slides de la présentation</h1>
<div>
<iframe class="slide-deck" style="width: 100%; height: 500px" src="https://inseefrlab.github.io/ssphub-ateliers-slides/slides-data/api.html#/title-slide/"></iframe>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="26" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 25;"><span id="cb1-26"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides_button<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="32" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 31;"><span id="cb2-32">slides_button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`&lt;p class="text-center"&gt;</span></span>
<span id="cb2-33"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;a class="btn btn-primary btn-lg cv-download" href="https://inseefrlab.github.io/ssphub-ateliers-slides/slides-data/api.html#/title-slide" target="_blank"&gt;</span></span>
<span id="cb2-34"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;Voir les slides</span></span>
<span id="cb2-35"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/a&gt;</span></span>
<span id="cb2-36"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">&lt;/p&gt;`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="declaration">

</div>
</div>
</div>
</section>
<section id="documentation-de-latelier-replay" class="level1">
<h1>Documentation de l’atelier &amp; <em>replay</em></h1>
<p>Le matériel lié à l’atelier, y compris le replay, est disponible <a href="https://inseefrlab.github.io/ssphub-ateliers/sessions/api.html" target="_blank">ici</a>. <img src="https://ssphub-test.netlify.app/event/2025-04-09-API/API-site-preview.png" class="img-fluid"></p>
</section>
<section id="questions-contact" class="level1">
<h1>Questions / contact</h1>
<p>Si vous avez la moindre question 🤨, n’hésitez pas à contacter 📧 <em><a href="mailto:contact-ssphub@insee.fr" class="email">contact-ssphub@insee.fr</a></em>.</p>


</section>

 ]]></description>
  <category>API</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2025-04-09-API/</guid>
  <pubDate>Wed, 09 Apr 2025 14:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2025-04-09-API/Atelier-API.png" medium="image" type="image/png" height="108" width="144"/>
</item>
<item>
  <title>Deuxième journée du SSPHub</title>
  <link>https://ssphub-test.netlify.app/event/2024-10-14-network-day/</link>
  <description><![CDATA[ 





<section id="replay-de-la-deuxième-journée-du-ssphub-le-14-octobre-2024" class="level2">
<h2 class="anchored" data-anchor-id="replay-de-la-deuxième-journée-du-ssphub-le-14-octobre-2024">Replay de la deuxième journée du SSPHub le 14 octobre 2024</h2>
<p>Les sessions plénières de la journée du réseau sont disponibles ci-dessous:</p>
<details>
<summary>
Séquencement de la vidéo et <em>slides</em>
</summary>
<ul>
<li><p><strong>00:00-03:30</strong>: Introduction de la journée par Romain Lesur</p></li>
<li><p><strong>03:30-46:30</strong>: <em>“Le blé vu du ciel : images satellitaires et prédiction des rendements agricoles à l’échelle de la parcelle”</em> (Service statistique ministériel du Ministère de l’Agriculture, de la souveraineté alimentaire et de la Forêt).</p></li>
</ul>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="33" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 32;"><span id="cb1-33"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb1-34">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/agriculture.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb1-35">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides du SSM Agriculture"</span></span>
<span id="cb1-36">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<ul>
<li><strong>46:30-83:00</strong>: <em>“Identifier et classer les causes de décès en automatisant le traitement des certificats en langage naturel”</em> (CépiDC, Inserm)</li>
</ul>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="42" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 41;"><span id="cb2-42"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb2-43">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/cepidc.pdf"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb2-44">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides du CépiDC"</span></span>
<span id="cb2-45">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="expression">

</div>
</div>
</div>
<ul>
<li><p><strong>86:00-123:00</strong>: <em>Keynote</em> de Pascal Rivière (chef de l’Inspection générale de l’Insee) <em>“Data science et statistique publique : contexte institutionnel et évolutions”</em></p></li>
<li><p><strong>123:00-164:00</strong>: <em>“Extraction automatisée de tableaux dans des PDF pour la construction de statistiques d’entreprises”</em> (Insee)</p></li>
</ul>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb3" data-startfrom="53" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 52;"><span id="cb3-53"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb3-54">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://ssplab.pages.lab.sspcloud.fr/table-extraction-evaluation/#/title-slide"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb3-55">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Voir les slides de l'Insee"</span></span>
<span id="cb3-56">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-3" data-nodetype="expression">

</div>
</div>
</div>
<ul>
<li><strong>164:00-205:00</strong>: <em>“Scraper et retravailler les offres d’emploi en ligne pour permettre des analyses fines du marché du travail, le projet JOCAS”</em> (Dares: Service statistique ministériel du Ministère du Travail et de l’Emploi)</li>
</ul>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb4" data-startfrom="62" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 61;"><span id="cb4-62"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb4-63">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/jocas.pptx"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb4-64">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides de la DARES"</span></span>
<span id="cb4-65">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-4" data-nodetype="expression">

</div>
</div>
</div>
<ul>
<li><strong>A partir de 205:00</strong>: <em>Keynote</em> de Pierre Etienne Devineau (ex-DINUM) sur les enjeux rencontrés par le projet Albert autour de l’entraînement et de la mise en production de grands modèles de langage (LLM) francophones.</li>
</ul>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb5" data-startfrom="71" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 70;"><span id="cb5-71"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(</span>
<span id="cb5-72">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/albert.pptx"</span><span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span></span>
<span id="cb5-73">  <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides de la keynote"</span></span>
<span id="cb5-74">)</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-5" data-nodetype="expression">

</div>
</div>
</div>
</details>
<p>Quelques photos de l’événement:</p>
<div class="quarto-video"><video id="video_shortcode_videojs_video1" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/GMT20241014-080309_Recording_3840x2160.mp4"></video></div>
<div id="fig-ssphub-images" class="quarto-layout-panel">
<figure class="quarto-float quarto-float-fig figure">
<div aria-describedby="fig-ssphub-images-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
<div class="quarto-layout-row">
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img1.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img1.jpg" class="img-fluid figure-img"></a></p>
</div>
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img2.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img2.jpg" class="img-fluid figure-img"></a></p>
</div>
</div>
<div class="quarto-layout-row">
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img3.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img3.jpg" class="img-fluid figure-img"></a></p>
</div>
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img4.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img4.jpg" class="img-fluid figure-img"></a></p>
</div>
</div>
<div class="quarto-layout-row">
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img5.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img5.jpg" class="img-fluid figure-img"></a></p>
</div>
<div class="quarto-layout-cell" style="flex-basis: 50.0%;justify-content: center;">
<p><a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img6.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img6.jpg" class="img-fluid figure-img"></a></p>
</div>
</div>
</div>
<figcaption class="quarto-float-caption-bottom quarto-float-caption quarto-float-fig" id="fig-ssphub-images-caption-0ceaefa1-69ba-4598-a22c-09a6ac19f8ca">
Figure&nbsp;1: <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img7.jpg" class="lightbox" data-gallery="my-gallery" title="Figure&nbsp;1: "><img src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-10-14-network/img7.jpg" class="img-fluid figure-img"></a>
</figcaption>
</figure>
</div>
<p>Les <em>slides</em> des différentes présentations peuvent être téléchargées ⬆️</p>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb6" data-startfrom="107" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 106;"><span id="cb6-107"><span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">function</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">createButton</span>(slides<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">,</span> message<span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span><span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"Télécharger les slides"</span>){</span>
<span id="cb6-108">  <span class="kw" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">const</span> button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span>
<span id="cb6-109"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;p class="text-center"&gt;</span></span>
<span id="cb6-110"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;a class="btn btn-primary btn-lg cv-download" href="</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">" target="_blank"&gt;</span></span>
<span id="cb6-111"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">      &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>message<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span></span>
<span id="cb6-112"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;/a&gt;</span></span>
<span id="cb6-113"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/p&gt;`</span></span>
<span id="cb6-114">  <span class="cf" style="color: #003B4F;
background-color: null;
font-weight: bold;
font-style: inherit;">return</span> button</span>
<span id="cb6-115">}</span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-6" data-nodetype="declaration">

</div>
</div>
</div>
<details>
<summary>
Rappel du programme de la journée
</summary>
<ul>
<li><strong>9h30-10h</strong>: <strong>Accueil</strong>, moment de convivialité autour d’un café.</li>
<li><strong>10h-11h30</strong>: <strong>Retours d’expérience</strong> de projets innovants autour de la classification de textes ou d’images :
<ul>
<li>Le blé vu du ciel : images satellitaires et prédiction des rendements agricoles à l’échelle de la parcelle (SSM Agriculture) ;</li>
<li>Identifier et classer les causes de décès en automatisant le traitement des certificats en langage naturel (CépiDC, Inserm).</li>
</ul></li>
<li><strong>11h30-12h15</strong>: <strong>Atelier de réflexion</strong> autour des applications des méthodes de classification de textes ou d’images sur les données des * participants.</li>
<li><strong>12h15-14h</strong>: <strong>Pause déjeuner</strong>, moment de convivialité.</li>
<li><strong>14h-14h30</strong>: Pascal Rivière (Chef de l’inspection générale de l’Insee) interviendra sur le thème <strong>“Data science et statistique publique : contexte institutionnel et évolutions”</strong>.</li>
<li><strong>14h30-16h</strong>: <strong>Retours d’expérience</strong> de projets faisant intervenir un processus innovant d’extraction de données :
<ul>
<li>Extraction automatisée de tableaux dans des PDF pour la construction de statistiques d’entreprises (Insee) ;</li>
<li>Scraper et retravailler les offres d’emploi en ligne pour permettre des analyses fines du marché du travail, le projet JOCAS (Dares, SSM Travail) ;</li>
</ul></li>
<li><strong>16h-16h30</strong>: <strong>Pause</strong>, moment de convivialité.</li>
<li><strong>16h30-17h30</strong>: <strong><em>Keynote</em></strong> par Pierre Etienne Devineau (Ministères sociaux) et Léo Guillaume (Dinum). Les enjeux rencontrés par le projet Albert autour de l’entraînement et de la mise en production de grands modèles de langage (LLM) francophones.</li>
<li><strong>17h30-19h30</strong>: <strong>Pot</strong>, moment de convivialité.</li>
</ul>
</details>
<p>Pour toute information : <a href="mailto:contact-ssphub@insee.fr" class="email">contact-ssphub@insee.fr</a></p>
<p>📺️ La première journée du réseau ayant eu lieu en 2023 est également <a href="../../event/2023-ssphubday/index.html">disponible en replay</a>.</p>


</section>

 ]]></description>
  <category>dataviz</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2024-10-14-network-day/</guid>
  <pubDate>Mon, 14 Oct 2024 15:00:00 GMT</pubDate>
  <media:content url="https://custom-images.strikinglycdn.com/res/hrscywv4p/image/upload/c_limit,fl_lossy,h_1440,w_720,f_auto,q_auto/1934057/633539_443779.png" medium="image" type="image/png"/>
</item>
<item>
  <title>Quarto : Une évolution de R Markdown pour des travaux statistiques reproductibles</title>
  <link>https://ssphub-test.netlify.app/event/2024-05-02-quarto/</link>
  <description><![CDATA[ 





<section id="christophe-dervieux-quarto-une-évolution-de-r-markdown-pour-des-travaux-statistiques-reproductibles" class="level2">
<h2 class="anchored" data-anchor-id="christophe-dervieux-quarto-une-évolution-de-r-markdown-pour-des-travaux-statistiques-reproductibles">Christophe Dervieux, "<code>Quarto</code> : Une évolution de <code>R Markdown</code> pour des travaux statistiques reproductibles"</h2>
<p><strong>2 mai (15h - 16h30)</strong></p>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="29" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 28;"><span id="cb1-29"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides_button<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<div class="quarto-video"><video id="video_shortcode_videojs_video1" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-05-02-quarto/dervieux_quarto_20240502.mp4"></video></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="37" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 36;"><span id="cb2-37">slides <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://cderv.github.io/2024-quarto-evolution-rmd/#/title-slide"</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="declaration">

</div>
</div>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb3" data-startfrom="41" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 40;"><span id="cb3-41">slides_button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`&lt;p class="text-center"&gt;</span></span>
<span id="cb3-42"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;a class="btn btn-primary btn-lg cv-download" href="</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">" target="_blank"&gt;</span></span>
<span id="cb3-43"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;Voir les slides</span></span>
<span id="cb3-44"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/a&gt;</span></span>
<span id="cb3-45"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">&lt;/p&gt;`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-3" data-nodetype="declaration">

</div>
</div>
</div>
<div>
<iframe class="slide-deck" style="width: 100%; height: 500px" src="https://cderv.github.io/2024-quarto-evolution-rmd/#/title-slide/"></iframe>
</div>


</section>

 ]]></description>
  <category>quarto</category>
  <category>event</category>
  <guid>https://ssphub-test.netlify.app/event/2024-05-02-quarto/</guid>
  <pubDate>Thu, 02 May 2024 15:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/event/2024-05-02-quarto/quarto.png" medium="image" type="image/png" height="53" width="144"/>
</item>
<item>
  <title>Sora, la nouvelle IA d’OpenIA pour générer des vidéos ; Le Chat, le nouveau modèle de Mistral ; Observable, pour s’abstraire des notebooks</title>
  <link>https://ssphub-test.netlify.app/infolettre/infolettre_18/</link>
  <description><![CDATA[ 





<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_18/infolettre18.png" class="img-fluid"></p>
<div class="callout callout-style-default callout-tip callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
Astuce
</div>
</div>
<div class="callout-body-container callout-body">
<p><strong><em>Vous désirez intégrer la liste de diffusion ? L’inscription se fait <a href="https://grist.numerique.gouv.fr/o/ssphub/forms/jSjAV3L2F8mmiRVuVEpfF7/103">ici</a>.</em></strong></p>
</div>
</div>
<p>Ce mois-ci, la première partie de la <em>newsletter</em> est consacrée à l’actualité dense dans le domaine des IA génératives et à l’annonce d’un nouveau générateur de site web pour les <em>data scientists</em>. Suivent les actualités du réseau, notamment une présentation de <code>Quarto</code> par Christophe Dervieux (Posit) et le replay de la présentation d’Eric Mauvière sur le sujet des bonnes pratiques de <em>dataviz</em>.</p>
<section id="sora-la-nouvelle-ia-dopenai-pour-générer-des-vidéos" class="level2">
<h2 class="anchored" data-anchor-id="sora-la-nouvelle-ia-dopenai-pour-générer-des-vidéos"><code>Sora</code>, la nouvelle IA d’OpenAI pour générer des vidéos</h2>
<p><br></p>
<p></p><div class="quarto-video"><video id="video_shortcode_videojs_video2" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://vp.nyt.com/video/2024/02/14/115628_1_15OPENAI-VIDEO-1_wg_720p.mp4"></video></div> <em>Source : <a href="https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html">New York Times</a> d’après OpenAI.</em><p></p>
<details>
<summary>
Instruction utilisée par OpenAI pour générer cette vidéo
</summary>
<em>“Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.”</em>
</details>
<p><br></p>
<p>Après avoir révolutionné le champ de la génération d’image avec <code>DallE</code> (texte <img src="https://latex.codecogs.com/png.latex?%5Cto"> image), de la génération de textes avec <code>ChatGPT</code> (texte <img src="https://latex.codecogs.com/png.latex?%5Cto"> texte), OpenAI a rendu public les premières productions d’un modèle de génération de vidéos à partir d’instructions (texte <img src="https://latex.codecogs.com/png.latex?%5Cto"> vidéo). Ce produit, nommé <code>Sora</code>, génère des vidéos d’un réalisme qui n’avait encore jamais été atteint par les IA génératrices de vidéos. Jusqu’à présent, les modèles de ce type généraient des images dont les formes étaient grossières, la résolution d’une qualité faible et dont les mouvements étaient peu vraisemblables.</p>
<br>
<div style="position:relative;padding-bottom:56.25%;height:0;overflow:hidden;"> <iframe style="width:100%;height:100%;position:absolute;left:0px;top:0px;overflow:hidden" frameborder="0" type="text/html" src="https://www.dailymotion.com/embed/video/x8sw8om" width="100%" height="100%" allowfullscreen="" title="Dailymotion Video Player"> </iframe> </div>
<p><em>Source</em> : <a href="https://www.lemonde.fr/videos/video/2024/02/18/openai-devoile-sora-un-outil-qui-transforme-les-textes-en-videos-ultrarealistes_6217183_1669088.html">Le Monde</a></p>
<br>
<p><code>Sora</code> n’est pas directement mis à disposition du grand public, contrairement aux autres services d’OpenAI. Ce produit n’est partagé qu’à des utilisateurs identifiés par OpenAI comme pouvant représenter le public cible - des réalisateurs par exemple - ou ayant une expertise sur des sujets comme la désinformation, les biais, la connaissance des algorithmes de recommandation, etc. Cette diffusion restreinte vise à recevoir des retours de la part de potentiels clients ou d’experts sur les risques de ces technologies. La communication par le biais de quelques vidéos choisies par OpenAI permet, dans le même temps, de créer une attente du grand public avant la mise à disposition plus large.</p>
<p>Comme <code>Dall-E</code>, <code>Midjourney</code> et consorts qui généraient des mains avec <a href="https://www.newyorker.com/culture/rabbit-holes/the-uncanny-failures-of-ai-generated-hands">trop de doigts</a>, le réseau de neurones derrière <code>Sora</code> a encore des difficultés à respecter certaines règles élémentaires de vraisemblance. Par exemple, dans la vidéo ci-dessous, les événements liés à un bris de verre s’enchaînent dans un ordre incohérent.</p>
<p></p><div class="quarto-video"><video id="video_shortcode_videojs_video3" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://cdn.openai.com/tmp/s/discussion_0.mp4"></video></div> <em>Source : <a href="https://openai.com/research/video-generation-models-as-world-simulators">OpenAI</a></em><p></p>
<p>OpenAI a déjà prévu de <a href="https://openai.com/research/video-generation-models-as-world-simulators">nombreuses applications</a> à ce modèle. Outre la génération de vidéos à partir d’instructions verbales, <code>Sora</code> est capable d’animer une image, de compléter une vidéo déjà existante avec une vidéo fictionnelle, d’éditer une vidéo déjà existante pour changer des éléments… Les secteurs de la communication, de la création et de la diffusion de contenu sont concernés au premier chef mais la richesse des fonctionnalités possibles et la simplicité d’usage des produits d’OpenAI laissent penser que les applications iront bien au-delà de ces secteurs économiques ; la vidéo occupe maintenant une place prédominante sur internet et sur les réseaux sociaux pour de multiples usages.</p>
<p>Ce modèle soulève, comme <code>Dall-E</code> ou <code>ChatGPT</code> avant lui, des enjeux de propriété intellectuelle puisqu’il a aussi été entraîné sur des corpus massifs collectés depuis internet. Le réalisme des vidéos générées peut également laisser craindre, sans marque d’identification claire du fait que la vidéo est générée numériquement (principe du <a href="https://fr.wikipedia.org/wiki/Tatouage_num%C3%A9rique"><em>watermark</em></a>), des dérives autour de la mésinformation, notamment des vidéos malveillantes et réalistes de personnes dans des situations inventées (des <em>deepfakes</em>) ou la prolifération de contenus choquants si les garde-fous dans la génération de contenus sont outrepassés.</p>
<div class="callout callout-style-default callout-note callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
<span class="screen-reader-only">Note</span>Pour en savoir plus
</div>
</div>
<div class="callout-body-container callout-body">
<ul>
<li>La <a href="https://openai.com/sora">présentation de <code>Sora</code></a> sur le site d’OpenAI ;</li>
<li>Un <a href="https://openai.com/research/video-generation-models-as-world-simulators">article</a> plus technique d’OpenAI sur les fonctionnalités de Sora ;</li>
<li>Les <a href="https://www.youtube.com/watch?v=HK6y8DAPN_0">10mn de vidéos de présentation</a> de <code>Sora</code> par OpenAI ;</li>
<li>Un <a href="https://www.nytimes.com/2024/02/15/technology/openai-sora-videos.html">article</a> du <em>New York Times</em> présentant <code>Sora</code></li>
<li>Un <a href="https://theconversation.com/openais-new-generative-tool-sora-could-revolutionize-marketing-and-content-creation-223806">article</a> sur le site <em>The Conversation</em> sur les enjeux pour certains secteurs économiques.</li>
</ul>
</div>
</div>
</section>
<section id="le-chat-un-concurrent-à-chatgpt-par-mistral-ai" class="level2">
<h2 class="anchored" data-anchor-id="le-chat-un-concurrent-à-chatgpt-par-mistral-ai">“<code>Le Chat</code>” : un concurrent à <code>ChatGPT</code> par Mistral AI 🐱</h2>
<p>Fin février, la <em>startup</em> française Mistral AI a rendu public, en accès libre, une IA conversationnelle aux fonctionnalités similaires à <code>ChatGPT</code> nommée <a href="https://mistral.ai/fr/news/le-chat-mistral/"><em>“Le Chat”</em></a>.</p>
<p>Ce service utilise le grand modèle de langage (LLM) <code>Mistral Large</code>, dernier né des LLM multilangues entraînés par Mistral AI. Contrairement à d’autres modèles de Mistral AI, celui-ci n’est pas ouvert ; l’accès n’y est possible que par le biais des services de Mistral ou par le biais du <em>cloud</em> Microsoft Azure, suite à un partenariat entre l’entreprise américaine et la startup française (tarification en fonction du volume de requêtes).</p>
<p>Selon les évaluations réalisées fin février, avant la sortie de Claude 3 (voir plus bas 👇️), ce modèle présentait des performances supérieures à celles des modèles <em>open source</em>, notamment <code>LLaMa-2</code>, sur une série d’évaluations de la véracité des réponses proposées par une IA et sur les capacités de raisonnement de celle-ci à partir de tests standardisés. Sur des questions d’un niveau de premier cycle universitaire (métrique MMLU proposée par <span class="citation" data-cites="hendrycks2021measuring">Hendrycks et al. (2021)</span>), Mistral Large propose la bonne réponse dans 81% des cas, ce qui l’amène presque au niveau de GPT-4 (86%) et bien au-dessus de Llama-2 (70%), le meilleur modèle <em>opensource</em> à l’heure actuelle.</p>
<details>
<summary>
Classement des principaux modèles de langage lors de la sortie de <code>Mistral Large</code>
</summary>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://mistral.ai/images/news/mistral-large/mistral-large-bar-plot.png" class="img-fluid figure-img"></p>
<figcaption>Performance des principaux LLM sur la métrique <a href="https://arxiv.org/abs/2009.03300">MMLU</a>, une série de 57 tests sur la fiabilité des réponses et les capacités de raisonnement des IA conversationnelles. Source : <a href="https://mistral.ai/fr/news/mistral-large/">Mistral AI</a>, fin février</figcaption>
</figure>
</div>
</details>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://ssphub-test.netlify.app/infolettre/infolettre_18/MMLU_examples.png" class="img-fluid figure-img"></p>
<figcaption>Exemple de questions de niveau licence posées pour évaluer la qualité d’un modèle selon la métrique MMLU proposée par <span class="citation" data-cites="hendrycks2021measuring">Hendrycks et al. (2021)</span> (<a href="https://arxiv.org/abs/2009.03300">accéder à l’article de recherche</a>)</figcaption>
</figure>
</div>
<div class="callout callout-style-default callout-note callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
<span class="screen-reader-only">Note</span>Pour en savoir plus
</div>
</div>
<div class="callout-body-container callout-body">
<ul>
<li><a href="https://chat.mistral.ai/chat">https://chat.mistral.ai/</a>, l’IA conversationnelle proposée par Mistral AI ;</li>
<li>Le <a href="https://mistral.ai/fr/news/mistral-large/"><em>post</em> de blog</a> par Mistral AI annonçant <code>Mistral Large</code> ;</li>
<li>La <a href="https://info.deeplearning.ai/mistral-living-large-googles-open-source-challenger-robot-chemist-schooling-language-models-in-math-1"><em>newsletter</em> d’Andrew Ng</a> consacrée à Mistral Large ;</li>
<li>L’<a href="https://arxiv.org/abs/2009.03300">article d’Hendrycks et al.&nbsp;(2021)</a> à l’origine de la métrique MMLU utilisée pour classer les modèles.</li>
</ul>
</div>
</div>
</section>
<section id="les-performances-de-gpt-4-dépassées-pour-la-première-fois" class="level2">
<h2 class="anchored" data-anchor-id="les-performances-de-gpt-4-dépassées-pour-la-première-fois">Les performances de GPT-4 dépassées pour la première fois</h2>
<p>Quelques jours seulement après la sortie de Mistral Large, un autre modèle de langage est venu concurrencer le modèle d’OpenAI GPT-4. Ce modèle nommé <code>Claude 3</code> est le premier à obtenir des performances supérieures à GPT-4 (le modèle derrière la version Pro de <code>ChatGPT</code>) sur les principaux tests de qualité des modèles. Ce modèle, créé par Anthropic et disponible en trois versions plus ou moins puissantes (<em>Haiku</em>, <em>Sonnet</em> et <em>Opus</em>), n’est pas encore disponible pour les utilisateurs résidant dans l’Union Européenne.</p>
<details>
<summary>
Les trois modèles <code>Claude-3</code> disponibles
</summary>
<div class="quarto-figure quarto-figure-center">
<figure class="figure">
<p><img src="https://www.anthropic.com/_next/image?url=https%3A%2F%2Fcdn.sanity.io%2Fimages%2F4zrzovbb%2Fwebsite%2F5d20371eeb8d045465bb22cacfd269b5958b004d-2200x1174.png&amp;w=3840&amp;q=75" class="img-fluid figure-img"></p>
<figcaption>Source : <a href="https://www.anthropic.com/news/claude-3-family">Anthropic</a></figcaption>
</figure>
</div>
</details>
<details>
<summary>
Comparaison des performances des LLM
</summary>
<img src="https://ssphub-test.netlify.app/infolettre/infolettre_18/eval_llm_generales.png" class="img-fluid" alt="Figure construite avec DataWrapper à partir des données fournies par Anthropic"> <img src="https://ssphub-test.netlify.app/infolettre/infolettre_18/eval_llm_math.png" class="img-fluid" alt="Figure construite avec DataWrapper à partir des données fournies par Anthropic">
</details>
<p>Les modèles <code>Claude</code> sont développés par l’entreprise Anthropic, créée par des anciens employés d’OpenAI considérant que la problématique de la <a href="https://fr.wikipedia.org/wiki/S%C3%BBret%C3%A9_des_intelligences_artificielles">sécurité des IA</a> n’était pas assez mise en avant par OpenAI. Valorisée autour de 18 milliards d’euros en ce début d’année 2024, elle a bénéficié de financements importants d’Amazon et de Google, ces deux entreprises ayant investi respectivement 4 et 2 milliards de dollars. Les modèles <code>Claude</code> sont disponibles pour les utilisateurs des <em>cloud</em> d’Amazon (AWS) ou de <em>Google</em> (GCP) à l’instar des modèles GPT disponibles aux utilisateurs du <em>cloud</em> de Microsoft (Azure). La concurrence entre OpenAI et Anthropic est ainsi l’occasion d’un affrontement entre les trois principaux acteurs du <em>cloud</em>. Au-delà de la concurrence entre leurs investisseurs, les modèles économiques d’Anthropic et d’OpenAI diffèrent. Anthropic vise plutôt à proposer des services à des entreprises accessibles par le biais d’API là où OpenAI propose plutôt des outils grands publics avec des fonctionnalités supplémentaires pour les acteurs spécialisés. Parmi les partenaires principaux d’Anthropic, on retrouve Gitlab, Quora ou Salesforce (l’éditeur de logiciel derrière Slack). A l’instar des modèles Mistral Large ou GPT-4, le modèle Claude 3 n’est pas <em>open source</em>.</p>
<div class="callout callout-style-default callout-note callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
<span class="screen-reader-only">Note</span>Pour en savoir plus
</div>
</div>
<div class="callout-body-container callout-body">
<ul>
<li>L’<a href="https://www.anthropic.com/news/claude-3-family">annonce de Claude 3</a> par Anthropic ;</li>
<li>Un <a href="https://www.nytimes.com/2024/02/20/technology/anthropic-funding-ai.html">article</a> sur Anthropic par le <em>New York Times</em> et <a href="https://www.forbes.com/sites/alexkonrad/2024/03/04/anthropic-releases-claude-3-claims-beat-openai/">un autre</a> par Forbes.</li>
</ul>
</div>
</div>
</section>
<section id="observable-propose-un-constructeur-de-sites-statiques-pour-sabstraire-des-notebooks" class="level2">
<h2 class="anchored" data-anchor-id="observable-propose-un-constructeur-de-sites-statiques-pour-sabstraire-des-notebooks"><code>Observable</code> propose un constructeur de sites statiques, pour s’abstraire des <em>notebooks</em></h2>
<p>Afin de démocratiser l’utilisation de <code>Javascript</code> au-delà du cercle des développeurs <em>web</em>, Mike Bostock, ancien responsable des <em>dataviz</em> du <em>New York Times</em>, la référence en la matière, a créé il y a quelques années <code>Observable</code>.</p>
<p>En plus d’être une extension du langage <code>Javascript</code> à la grammaire familière aux connaisseurs de <code>Python</code> et <code>R</code>, <code>Observable</code> vise à créer une communauté d’utilisateurs de <code>Javascript</code> à l’interface entre <em>data scientists</em> et développeurs <em>web</em>. Pour cela, le site <a href="https://observablehq.com/">observablehq.com</a> se propose d’être un réseau social de <em>notebooks</em> en <code>Javascript</code>, un peu comme <code>Github</code> faisant office de réseau social du code. Les notebooks <em>Observable</em> permettent de rapidement prendre en main du code <code>Javascript</code> pour créer des analyses de données interactives qui peuvent ensuite être facilement partagées par le biais du site <a href="https://observablehq.com/">observablehq.com</a> pour simplifier les réutilisations du code proposé ou des données sous-jacentes.</p>
<p>Cependant, si les <em>notebooks</em> sont un terrain fertile pour l’expérimentation, ils montrent rapidement leurs limites dès qu’on désire s’abstraire de l’hébergement sur <a href="observablehq.com/">observablehq.com</a>. Pour mettre à disposition des visualisations interactives sur d’autres sites, les sites statiques sont plus simples d’usage. Historiquement, l’écosystème Javascript est construit autour d’imposants <em>frameworks</em> comme <a href="https://fr.legacy.reactjs.org/"><code>React</code></a>, bien connus des développeurs web mais méconnus des <em>data scientists</em> qui sont néanmoins amenés à livrer de plus en plus d’applications interactives pour valoriser des données.</p>
<p>L’annonce d’<a href="https://observablehq.com/blog/observable-2-0"><code>Observable Framework</code></a>, un constructeur de sites statiques, représente un changement d’approche. <code>Observable Framework</code> vise à être un <em>framework</em> permettant aux <em>data scientists</em> de construire des sites web en mélangeant des étapes de préparation de données en <code>R</code>, <code>Python</code> ou <code>SQL</code> (via <code>DuckDB</code>), du formattage de texte en <code>Markdown</code> et de l’interactivité grâce au langage <code>Observable</code>. L’approche est ainsi similaire à celle de <code>Quarto</code>, la référence pour les <em>data scientists</em> désirant construire des publications reproductibles (voir la section événements 👇️ pour en apprendre plus). Ce dernier écosystème permet déjà depuis quelques temps de compléter du travail de données en <code>R</code> ou <code>Python</code> avec des traitements en <code>Observable</code> pour obtenir un site web interactif sans besoin de solutions techniques complexes comme <code>Shiny</code> ou <code>Streamlit</code>.</p>
<p>Les évolutions à venir d’<code>Observable Framework</code> sont donc à surveiller, cet écosystème pouvant être amené, s’il rencontre du succès, à rentrer dans la boîte à outil standard des <em>data scientists</em> comme <code>Quarto</code> est déjà en train de le faire. Le site <a href="observablehq.com/">observablehq.com</a> ne va pas pour autant disparaître : celui-ci restera un lieu où on peut tirer avantage de la simplicité des <em>notebooks</em> pour l’expérimentation ou pour la mise à disposition de tutoriels pédagogiques. Ce virage est similaire à celui pris par <code>Python</code> dans la communauté des <em>data scientists</em> où les <em>notebooks</em>, après avoir connu une phase hégémonique, sont revenus à leur fonction initiale : des carnets pour expérimenter servant de brouillon avant l’écriture de scripts ou alors de belles pages, mêlant texte et code, pour présenter une démarche de manière pédagogique.</p>
<div class="callout callout-style-default callout-note callout-titled">
<div class="callout-header d-flex align-content-center">
<div class="callout-icon-container">
<i class="callout-icon"></i>
</div>
<div class="callout-title-container flex-fill">
<span class="screen-reader-only">Note</span>Pour en savoir plus
</div>
</div>
<div class="callout-body-container callout-body">
<ul>
<li>L’annonce d’<a href="https://observablehq.com/framework/"><code>Observable Framework</code></a> ;</li>
<li>L’<a href="https://quarto.org/docs/interactive/ojs/">interactivité dans <code>Quarto</code></a> grâce aux cellules <code>Observable</code> ;</li>
<li>Le <a href="https://ensae-reproductibilite.github.io/website/">cours de “Mise en production de projets data science”</a> de l’ENSAE où les enjeux techniques et humains de la mise à disposition de tels sites sont évoqués.</li>
</ul>
</div>
</div>
</section>
<section id="actus-du-réseau" class="level1">
<h1>Actus du réseau</h1>
<section id="chistophe-dervieux-quarto-une-évolution-de-r-markdown-pour-des-travaux-statistiques-reproductibles-2-mai" class="level2">
<h2 class="anchored" data-anchor-id="chistophe-dervieux-quarto-une-évolution-de-r-markdown-pour-des-travaux-statistiques-reproductibles-2-mai">Chistophe Dervieux, “<code>Quarto</code> : Une évolution de <code>R Markdown</code> pour des travaux statistiques reproductibles” (📅 <strong>2 mai</strong>)</h2>
<p>Pour fiabiliser la production de documents construits en valorisant des données (tableaux, graphiques, etc.), <em>RStudio</em> (devenu <em>Posit</em> depuis) a construit il y a quelques années l’écosystème <code>R Markdown</code> permettant de produire du document en mélangeant code et texte.</p>
<p>Cette problématique des publications reproductibles est devenue incontournable dans l’écosystème <code>R</code> et la solution <code>R Markdown</code> est dorénavant largement utilisée. Pour étendre les vertus de cette approche à d’autres langages, <em>Posit</em> a commencé à développer <code>Quarto</code>, un écosystème reprenant le principe de <code>R Markdown</code> mais étendant ces fonctionnalités à d’autres langages de programmation, notamment <code>Python</code> et <code>Observable</code>.</p>
<p>Le <strong>2 mai de 15h à 16h</strong>, Christophe Dervieux (<em>Posit</em>) nous présentera <code>Quarto</code>, l’écosystème de publications reproductibles qui succède à <code>R Markdown</code>. Cet événement est proposé de manière hybride : par le biais de <em>Zoom</em> ou, pour les agents en poste à la Direction Générale de l’Insee, en salle 4-C-458.</p>
<ul>
<li>👉️ <a href="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-05-02-quarto/quarto.ics">Ajouter cet événement à votre agenda <code>Outlook</code></a></li>
<li>👉️ <a href="https://insee-fr.zoom.us/j/94214258071?pwd=WlBSRVgvVHZ2TXJ1Ull0cWUzN0Npdz09">Lien zoom</a></li>
</ul>
</section>
<section id="vos-besoins-de-formation" class="level2">
<h2 class="anchored" data-anchor-id="vos-besoins-de-formation">Vos besoins de formation</h2>
<p>L’an dernier, nous avions organisé un questionnaire pour connaître les besoins de formations des membres du réseau. Ce questionnaire est utile pour que les événements organisés dans le cadre du réseau répondent au mieux aux besoins.</p>
<p>Afin de connaître les attentes et centres d’intérêt en cette année 2024, nous vous proposons un nouveau questionnaire. Celui-ci est également l’occasion d’accueillir vos retours sur les <em>masterclass</em> menées en 2023 en collaboration avec <em>Datascientest</em> si vous avez participé à celles-ci.</p>
<ul>
<li><a href="https://framaforms.org/besoin-de-formations-en-data-science-en-2024-1709718778">👉️ Questionnaire</a></li>
</ul>
</section>
<section id="replay-de-la-présentation-deric-mauvière-la-dataviz-pour-donner-du-sens-aux-données-et-communiquer-un-message" class="level2">
<h2 class="anchored" data-anchor-id="replay-de-la-présentation-deric-mauvière-la-dataviz-pour-donner-du-sens-aux-données-et-communiquer-un-message">Replay de la présentation d’Eric Mauvière “La dataviz pour donner du sens aux données et communiquer un message”</h2>
<p><img src="https://ssphub-test.netlify.app/event/2024-02-29-mauviere/mauviere.png" class="img-fluid"></p>
<p>La présentation d’Eric Mauvière sur les bonnes pratiques de <em>dataviz</em> a rencontré un réel succès avec près de 150 participants. Le <em>replay</em> et les <em>slides</em> de cette présentation essentielle sont disponibles ci-dessous :</p>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb1" data-startfrom="381" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 380;"><span id="cb1-381"><span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides_button<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-1" data-nodetype="expression">

</div>
</div>
</div>
<div class="quarto-video"><video id="video_shortcode_videojs_video1" class="video-js vjs-default-skin vjs-big-play-centered vjs-fluid" controls="" preload="auto" data-setup="{}" title=""><source src="https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-02-09-mauviere/20240229-mauviere-replay.mp4"></video></div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb2" data-startfrom="390" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 389;"><span id="cb2-390">slides <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="st" style="color: #20794D;
background-color: null;
font-style: inherit;">"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2024-02-09-mauviere/conf_ssphub_item7-1.pdf"</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-2" data-nodetype="declaration">

</div>
</div>
</div>
<div class="cell">
<div class="code-copy-outer-scaffold"><div class="sourceCode cell-code hidden" id="cb3" data-startfrom="395" data-source-offset="0" style="background: #f1f3f5;"><pre class="sourceCode js code-with-copy"><code class="sourceCode javascript" style="counter-reset: source-line 394;"><span id="cb3-395">slides_button <span class="op" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">=</span> <span class="fu" style="color: #4758AB;
background-color: null;
font-style: inherit;">html</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">`&lt;p class="text-center"&gt;</span></span>
<span id="cb3-396"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;a class="btn btn-primary btn-lg cv-download" href="</span><span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">${</span>slides<span class="sc" style="color: #5E5E5E;
background-color: null;
font-style: inherit;">}</span><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">" target="_blank"&gt;</span></span>
<span id="cb3-397"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">    &lt;i class="fa-solid fa-file-arrow-down"&gt;&lt;/i&gt;&amp;ensp;Télécharger les slides</span></span>
<span id="cb3-398"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">  &lt;/a&gt;</span></span>
<span id="cb3-399"><span class="vs" style="color: #20794D;
background-color: null;
font-style: inherit;">&lt;/p&gt;`</span></span></code></pre></div></div>
<div class="cell-output cell-output-display">
<div id="ojs-cell-3" data-nodetype="declaration">

</div>
</div>
</div>



</section>
</section>

<div id="quarto-appendix" class="default"><section class="quarto-appendix-contents" id="quarto-bibliography"><h2 class="anchored quarto-appendix-heading">Les références</h2><div id="refs" class="references csl-bib-body hanging-indent">
<div id="ref-hendrycks2021measuring" class="csl-entry">
Hendrycks, Dan, Collin Burns, Steven Basart, et al. 2021. <em>Measuring Massive Multitask Language Understanding</em>. <a href="https://arxiv.org/abs/2009.03300">https://arxiv.org/abs/2009.03300</a>.
</div>
</div></section></div> ]]></description>
  <category>Infolettre</category>
  <guid>https://ssphub-test.netlify.app/infolettre/infolettre_18/</guid>
  <pubDate>Thu, 07 Mar 2024 00:00:00 GMT</pubDate>
  <media:content url="https://ssphub-test.netlify.app/infolettre/infolettre_18/hitchcock_robot-1.webp" medium="image" type="image/webp"/>
</item>
</channel>
</rss>
