Compétences recherchées Outre les compétences en PHP et MySQL, les forces recherchées sont la résolution de problème et la capacité d'innover. Il ne s'agit pas ici d'accomplir un plan de travail élaboré par un analyste senior, mais plutôt de trouver des solutions à quatre défis spécifiques.
En quoi consiste le stage Vous contribuerez à deux modules phares de la communauté Drupal soit « Feeds » et « Managing News », en soumettant votre code à ces projets en fin de stage.
Plus spécifiquement, le projet sur lequel vous travaillerez est l'Indexeur.PubliQc.org, un système capable d'emmagasiner toutes les nouvelles du Québec par l'agrégation de centaines de flux RSS. Son objectif est d'une part de mieux comprendre comment l'information circule au Québec et d'autre part de permettre à des groupes militants de mieux évaluer les retombées de leurs tactiques de communication. Après une analyse des solutions disponibles en logiciel libre, quatre défis spécifiques ont été observés :
1. Plusieurs fils RSS ne diffusent qu'une partie de la nouvelle se trouvant sur un site web. On n'y retrouve parfois que le titre ou un court extrait. Il s'agit donc de trouver un moyen d'identifier les fils qui ne présentent qu'un contenu partiel d'une nouvelle et de programmer ou d'adapter une fonction permettant de récupérer le contenu manquant pour le stocker dans la base de données MySQL. Voici quelques pistes de solutions que vous devrez évaluer : Feeds XPath Parser (http://drupal.org/project/feeds_xpathparser) Feeds Crawler (http://drupal.org/project/feeds_crawler) Web Scraper (http://drupal.org/project/example_web_scraper) 2. Une fois l'actualité indexée dans une base de données, que peut-on en tirer ? Quels sont les sujets chauds? Peut-on faire des liens entre les protagonistes, les sujets de l'actualité, les lieux, les entreprises ou les groupes militants? Si plusieurs sujets sont abordés dans le même article, comment les découper en "unités" d'informations distinctes ? Comment effectuer une recherche sur des thèmes particuliers de l'actualité au-delà d'une simple recherche par mots clés? Bienvenue dans le web sémantique. Voici quelques pistes de solutions que vous devrez évaluer : Open CalaisTattler3. Les sites d'information n'ont pas tous la même force de diffusion. Une nouvelle publiée sur le site de Radio-Canada n'a pas le même impact que celle publiée sur un blogue. Il faudra donc développer une fonction permettant d'associer à un fil RSS des valeurs telles que le Pagerank ou le nombre de sites référents. Voici une piste de solutions que vous devrez évaluer : Feeds Tamper (http://drupal.org/project/feeds_tamper) 4. On cherchera également à établir la fréquence de publication d'un site web. Pour cette fonction il s'agira simplement d'établir le nombre de publications pour une période donnée.
Environnement technologique CMS : Drupal Agrégateur : Feeds (drupal.org/project/feeds) Interface utilisateur : Managing News (managingnews.com/) Analyse sémantique : Open Calais et Tattler Gestion du code : Github Base de données: MySQL Serveur web: Apache OS serveur : Linux Ubuntu dédié au projet Où Laboratoire du groupe de recherche GRICIS de l'Université du Québec à Montréal.
Équipe L'équipe se compose du Co-directeur du groupe de recherche GRICIS, d'un chercheur-analyste et de deux stagiaires. La personne supervisant les stagiaires sera le chercheur-analyste, Sylvain Rocheleau.
Critères de sélection Lettre de motivation démontrant les capacités du stagiaire à contribuer à la résolution des quatre défis du projet, particulièrement le défi #1. Entrevue Qualité du CV du candidat Comment se préparer à l'entrevue? Se familiariser avec les projets « Feeds » et les plugins développés pour ce module ainsi qu'avec « Managing News », Open Calais et Tattler. Réfléchir à des pistes de solutions pour le projet Remplir le formulaire de demande de stage.








