Introduction au TALN et à ses applications

Qu’est-ce que le traitement du langage naturel ?

1. Présentation et définition

Le traitement automatique du langage naturel (TALN) ou Natural Language Processing (NLP) en anglais, est un domaine qui implique différentes disciplines, à savoir l’informatique, la linguistique ainsi que l’intelligence artificielle dans son aspect apprentissage (Machine Learning). Son propos est de créer des outils de traitement du langage naturel dans toutes ses dimensions. Les langages écrits, oraux ou signés (langues des signes) sont ainsi étudiés et destinés à être mieux compris, grâce à l’utilisation de l’outil informatique. La finalité du traitement automatique du langage naturel est donc de produire des outils informatiques à même d’interagir directement avec l’être humain, à partir du langage naturel, ou du moins de mieux comprendre les interactions humaines basées sur le langage naturel. Cela passe notamment par le traitement et l’analyse de données textuelles, d’une façon similaire à ce que ferait un être humain.

Le périmètre du présent ouvrage est d’ailleurs établi autour de la création de tels outils, à l’aide du langage Python, en utilisant notamment deux bibliothèques particulièrement appréciées dans le domaine : NLTK et spaCy.

Le traitement automatique du langage naturel est aujourd’hui largement utilisé dans de nombreux domaines, notamment la reconnaissance de la parole, la traduction automatique, la compréhension de l’intention, l’analyse de sentiments, la reconnaissance des entités nommées, et bien d’autres. Son usage concerne la plupart des secteurs économiques. La communication et les médias évidemment, mais aussi la recherche, la santé, la finance, l’industrie et, de plus en plus, tous les secteurs économiques. Le langage étant, à des degrés divers, une composante de toute activité économique humaine, le traitement naturel du langage naturel trouve une utilité et un sens dans à peu près tous les secteurs. L’engouement pour la discipline s’est par ailleurs particulièrement accru...

Les domaines d’application du TALN

Les domaines d’application du traitement automatique du langage naturel sont nombreux et sont par ailleurs amenés à s’enrichir au gré du développement de la discipline. Il n’empêche que l’on peut tout de même établir ici un inventaire des principaux domaines d’application correspondant à un usage économique ou dans le secteur de la recherche.

1. Traduction automatique

Comme nous l’avons entraperçu dans l’historique, la traduction automatique est l’une des premières, voire la première des applications du traitement automatique du langage naturel. Il s’agit littéralement de traduire automatiquement un texte écrit en une langue vers une autre langue. Le recours à l’apprentissage automatique (Machine Learning) permet aujourd’hui d’obtenir de bons résultats. C’est le propos de services comme DeepL, ou encore Google Translate, pour citer les plus connus.

2. Analyse de sentiments

L’analyse des sentiments est une technique d’analyse de données textuelles qui consiste à identifier et à quantifier les opinions, les émotions et les attitudes exprimées dans un texte donné, tel qu’un tweet, un commentaire de blog ou une critique de produit. Un exemple concret d’analyse des sentiments basé sur un hashtag Twitter pourrait être l’analyse des sentiments des tweets contenant le hashtag #COVID19. Si nous collectons un échantillon significatif de tweets avec le hashtag #COVID19, nous pouvons utiliser un outil d’analyse des sentiments pour étiqueter chaque tweet comme positif, négatif ou neutre en fonction du ton général du tweet. L’analyse des sentiments peut aider à comprendre les tendances et les opinions du public sur des sujets spécifiques, ainsi qu’à surveiller...

Les défis contemporains du TALN

1. Compréhension et représentation de la sémantique

L’un des plus grands défis du TALN est la compréhension et la représentation de la sémantique, c’est-à-dire la signification des mots et des phrases dans leur contexte. Cette compréhension est complexe car elle dépend du contexte et des nuances linguistiques. Ainsi, il y a par exemple une géographie de la linguistique, avec un sens légèrement différent d’un même mot, dans un même contexte, en deux lieux parfois relativement proches entre eux. Les techniques actuelles de traitement automatique du langage naturel sont souvent, voire toujours, basées sur des modèles statistiques qui ont des limites dans leur capacité à saisir la sémantique, surtout dans ses variations locales les plus fines.

2. Variabilité du langage

La variabilité du langage est un autre défi majeur du TALN. Le langage humain est complexe, varié et changeant, avec des différences culturelles, régionales et socio-économiques. La reconnaissance de la parole et la traduction automatique peuvent être particulièrement difficiles en raison de ces variations. La langue est vivante. Le sens des mots, notamment ceux utilisés dans la vie courante, varie dans le temps et selon les contextes....

Conclusion

Le présent chapitre nous a permis d’effectuer un rapide balayage de ce qu’est le traitement automatique du langage naturel. Comme évoqué, cette technique, ou cet ensemble de techniques se trouve à l’intersection des deux disciplines que sont la linguistique et l’intelligence artificielle. Le prochain chapitre, nommé Quelques éléments de linguistique et d’IA, est consacré à ces deux disciplines, de manière à brièvement exposer les concepts et définitions utiles pour la suite. Nous serons alors prêts à entrer dans le vif du sujet dès le troisième chapitre et commencer à coder pour le TALN en Python.