collecte d'un corpus fait de tweets par exemple (vous pouvez utiliser
l'API Tweeter et collecter avec Talend si à l'aise avec java, sinon
vous pouvez collecter les tweets et travailler ensuite en C).
Les tweets comportent des hashtags, si la collecte se fait sur une
période il y a +hashtags qui se présentent. L'idée serait de
classifier les hashtags selon les catégories que vous aurez fixé au
préalable et ensuite construire un lexique sémantique avec des mots
qui font partie de ces catégories mais qui ne sont pas des hashtags.
Si cela vous intéresse vous devez travailler pour collectionner votre corpus.
Ensuite vous pouvez associer des catégories aux hashtags, ensuite
tokenisation des tweets (d'abord on enlève les mots grammaticaux),
TF-IDF pour voir éventuellement les thèmes via les fréquences et
création lexique suivant des critères que vous aurez fixé au préalable
(je vous aiderai là-dessus)
vous pouvez utiliser des outils existant ou vous en inspirez (ex.:
http://texlexan.sourceforge.net [2])