From d9a7d01f69c4408038bc5bde691a14c91beba93f Mon Sep 17 00:00:00 2001 From: "David A. Madore" Date: Mon, 28 Nov 2016 14:14:29 +0100 Subject: More remarks about regexp syntax in the computer world. --- notes-inf105.tex | 39 ++++++++++++++++++++++++++++++++++++++- 1 file changed, 38 insertions(+), 1 deletion(-) (limited to 'notes-inf105.tex') diff --git a/notes-inf105.tex b/notes-inf105.tex index 1aad5d4..6d60fe7 100644 --- a/notes-inf105.tex +++ b/notes-inf105.tex @@ -767,6 +767,12 @@ dans l'ordre ASCII/Unicode, ou bien des négations d'intervalles comme \texttt{[\char"5Ea-z]} qui désigne un caractère qui \emph{n'est pas} entre \texttt{a} et \texttt{z}). +Toutes sortes d'autres racourcis ou commodités de notation peuvent +exister, par exemple \texttt{\char"5C<} et \texttt{\char"5C>} pour +désigner un début et une fin de mot (la définition précise de « mot » +pouvant varier), ou encore \texttt{$r$\{$n_1$,$n_2$\}} qui cherche +entre $n_1$ et $n_2$ répétitions de $r$. + \thingy Une autre subtilité est que la plupart des moteurs d'expressions régulières en informatique vont, par défaut, \emph{rechercher un facteur} (appelé « sous-chaîne » en informatique) @@ -786,10 +792,41 @@ façon générale, trouver si une chaîne vérifie une expression rationnelle $r$, revient à y chercher \texttt{\char"5E\relax $r$\char"24}). +\thingy Comme les expressions régulières en informatique sont +représentées par des chaînes de caractères qui appartiennent au même +alphabet (ASCII ou Unicode) que les chaînes sur lesquelles on effectue +la recherche, le problème se pose de distinguer les métacaractères +(l'étoile de Kleene \texttt{*}, par exemple) des caractères eux-mêmes +(comment rechercher les chaînes contenant le caractère \texttt{*} si +\texttt{*} est utilisé par l'étoile de Kleene ?). La solution est +d'introduire un mécanisme d'\emph{échappement} : ainsi, +\texttt{x\char"5C*} recherche un \texttt{x} suivi d'un +astérisque \texttt{*}, tandis que \texttt{x*} recherche un nombre +quelconque de répétitions de la lettre \texttt{x}. + \thingy Il existe malheureusement de nombreuses différences, parfois très subtiles, entre moteurs, ne serait-ce que dans les notations : un moteur pourra par exemple noter \texttt{(?)} ce qu'un autre note -\texttt{\char"5C(\char"5C?\char"5C)} et vice versa. +\texttt{\char"5C(\char"5C?\char"5C)} et vice versa. La seule solution +est de consulter attentivement la documentation de chaque moteur +d'expressions régulières pour connaître la syntaxe utilisée. + +Signalons tout de même qu'il existe deux principales familles de +syntaxes d'expressions régulières en informatique : les expressions +régulières « POSIX étendues », utilisée notamment par le programme +Unix \texttt{egrep}, et les expressions régulières Perl, qui ont été +réadaptées dans beaucoup de langages, notamment Java, JavaScript, +Python et d'autres. + +\thingy Signalons comme complication supplémentaire que dans de +nombreux langages, les expressions régulières sont saisies comme des +chaînes de caractères plutôt que d'avoir une syntaxe spéciale, et ceci +a pour effet d'introduire un niveau supplémentaire d'échappement : par +exemple, en Java, pour rechercher si une chaîne de caractères $s$ +contient un astérisque, on utilisera +\texttt{$s$.matches("\char"5C\char"5C*")} puisque l'expression +régulière à utiliser est \texttt{\char"5C*} et que cette chaîne de +caractères s'écrit \texttt{"\char"5C\char"5C*"} en Java. \section{Automates finis} -- cgit v1.2.3