Description du poste
Contexte
Tu rejoins la squad produit d'une grande entreprise pharma en charge d'un système IA agentique qui génère des insights marketing stratégiques en croisant plusieurs sources de données (littérature scientifique, veille concurrentielle, web analytics).
Ta mission : construire les frameworks d'évaluation et garantir la qualité des outputs à mesure que le produit scale.
Missions
- Construire un golden dataset et une méthodologie de scoring (précision, pertinence, nouveauté, hallucination)
- Mettre en place un benchmark reproductible pour détecter les régressions
- Optimiser les prompts et l'architecture multi-agents
- Concevoir des méthodes de détection de nouveauté et de synthèse cross-sources
Stack technique
- Python
- AWS (S3, Lambda, SageMaker, Bedrock)
- Snowflake
- LangChain / LlamaIndex
- Un plus : W&B / Weave, Docker, TypeScript, Cursor / Claude Code
Conditions de travail
- Démarrage : ASAP
- Localisation : Paris (hybride 3 jours sur site / 2 jours remote)
- Contrat : Freelance
Profil recherché
Expérience hands-on en prompt engineering, évaluation LLM, fine-tuning
Maîtrise des systèmes RAG
Expérience en architecture multi-agents et orchestration
Track record en golden datasets / frameworks d'évaluation
Anglais courant obligatoire
Stack obligatoire : Python, AWS (S3, Lambda, SageMaker, Bedrock), Snowflake, LangChain / LlamaIndex
Un plus : W&B / Weave, Docker, TypeScript, Cursor / **Claude Code