Вконтакте Facebook Twitter Лента RSS

Регулярные выражения php последний символ. Регулярные выражения в PHP. Пример реализации подсветки результатов поиска у WordPress

Регулярные выражения являют собой очень сильный инструмент для осуществления манипуляций с подстроками в тексте. Кроме того, регулярные выражения также являются очень сложными в изучении и применении.

Существует несколько разных диалектов регулярных выражений, среди которых один из самых распространенных и развитых является синтаксис Perl -совместимых регулярных выражений (PCRE - Perl Compatible Regular Expressions ).

Простыми словами, регулярное выражение - это шаблон, который применяется к заданному тексту слева направо. Можно использовать обычные символы, которые сохраняют свое значение в шаблоне и означают совпадение с соответствующими символами. Например, регулярное выражение, содержащее текст "комп ", соответствует строке, которая содержит указанную подстроку, например "компьютер ".

Задание границ регулярного выражения можно записать так:
"/комп/" Прямой слеш (/ ) вначале и конце набора символов служит границей регулярного выражения, то есть регулярное выражение будет действовать до тех пор, пока не встретится второй символ прямого слеша.

Допустимо использовать инструкции модификаторы шаблона, которые действующие на все регулярное выражение. Например, модификатор "i " будет осуществлять поиск по регулярному выражению без учета регистра. Для русских символов в кодировке UTF8 , для правильной обработки необходимо добавлять модификатор "u " (PCRE_UTF8 ). Например:
"/комп/ui" Регулярное выражение из примера будет соответствовать как строке "компьютер ", так и "КОМПЬЮТЕР ".

Для привязки регулярного выражения к началу слова используется символ "^ " (caret - знак вставки):
"/^свет/" Данное выражение будет соответствовать строке "светильник ", и не будет соответствовать слову "рассвет ".

Знак доллара "$ " означает конец строки:
"/^светильник$/" Данное регулярное выражение соответствует исключительно строке "светильник ", где после искомого слова нет другого текста.

Следующее регулярное выражение соответствует пустой строке:
"/^$/" Очень часто в поисковой строке содержится символ начала и конца регулярного выражение, в нашем случае символ косой черты "/ ". В этом случае необходимо экранировать данный символ с помощью символа обратного слеша (\ ):
"/^светильник\/потолочный$/" В данном примере регулярное выражение будет соответствовать строке светильник/потолочный ".

В качестве разделителя может выступать любой другой символ, например "| ":
"|^светильник\/потолочный$|ui" Изменять разделители необходимо выходя из задачи поиска, например, если символ косой черты "/ " встречается часто в поисковой строке, то его можно изменить.

Следует быть очень внимательными используя некоторые символы для разделителей, поскольку они могут выполнять свою роль в шаблоне. Использование символа вертикальной черты "| " в регулярном выражении может быть использовано для задания альтернативных масок:
"/^abc|def$/" Данному регулярному выражению соответствует любая строка, содержащая подстроки "abc " или "def ". Вертикальную черту в большинстве случаев применяют при проверке, например, расширений файлов или зон доменных имен.

Подстроки в регулярных выражениях можно группировать при помощи скобок "() ":
"/^цвет (красный|синий|зеленый)$/" Это регулярное выражение будет соответствовать строке вида "цвет красный ", но вместо "красный " может быть как "синий ", так и "зеленый ".

Для использования скобок как части искомой строки, их следует экранировать. Например, соответствовать строке "цвет (красный) " будет следующее регулярное выражение:
"/^цвет \(красный\)$/" Кроме группировки символов, скобки имеют еще одно предназначение. Все выражения, найденные в скобках, сохраняются интерпретатором, и к ним можно обратиться при замене или поиске по номеру скобки.

Чтобы задать класс символов необходимо использовать квадратные скобки "". Они ограничивают поиск теми символами, которые в них заключены:
"//" Данному регулярному выражению будет соответствовать подстрока, которая содержит хотя бы один символ из "abc ".

Для создания регулярного выражения, которое соответствует всем буквам английского алфавита, можно перечислить все буквы в регулярном выражении, а можно записать более коротко следующим образом:
"//i" Любые два символа, разделяемые дефисом, задают соответствие диапазону символов, находящихся между ними. В данном регулярном выражении описаны символы нижнего регистра, но модификатор "i " осуществляет регистрозависимый поиск.

Аналогичным образом задаются регулярные выражения, соответствующие цифре:
"//" При использовании экранирования обратным слешем некоторые символы выполняют специальную интерпретацию:

\d - любая десятичная цифра ( );

\D - любой символ, кроме десятичной цифры;

\s - любой пробельный символ ([ \r\n\t\f] );

\S - любой непробельный символ;

\w - любой символ, образующий "слово" ( );

\W - любой символ, не образующий "слово";

\t - символ табуляции;

\n - символ перевода строки;

\\ - символ обратного слеша (\ );

\. - символ точки (. ).

Символ точки ". " обозначает любой символ в регулярном выражении кроме символов разрыва строки "\r " или "\n ", поэтому для поиска точки следует экранировать этот символ.

Регулярное выражение для числа можно записать следующим образом:
"/[\d]/" Чтобы исключить класс символов из поиска необходимо в квадратных скобках поставить первым символ "^ ", который действует уже не как указатель границы строки, а как отрицание:
"/[^0-9]/" Данное регулярное выражение отвечает любому символу, не содержащемуся в диапазоне "0-9 ".

Список специальных символов (метасимволы):
\^$.|()?*+{} Выражение в квадратных скобках часто применяется совместно с так называемыми квантификаторами , которые являют собой символы "? ", "+ " и "* ". Квантификаторы следуют сразу за символом и изменяют число вхождений конкретного символа в строку:

? - символ либо входит в строку один раз, либо вообще в нее не входит;

* - любое число вхождений символа в строку, в том числе и 0;

+ - одно или более число вхождений символа в строку.

Например, если необходимо найти подстроку, содержащую одну или более цифр, следует воспользоваться выражением вида:
"/[\d]+/" Символ "* " используется для любого числа вхождений строки в подстроку, то есть слудеющее регулярное выражение соответствует либо пустой строке, либо строке, содержащей неограниченное количество цифр.
"/^[\d]*$/" В регулярных выражениях так же применяются фигурные скобки ({} ), которые предназначены для указания числа или диапазона чисел повторения элемента:

"ab{2} " - соответствует строке "abb ";

"ab{2,} b " следует не менее двух "b ";

"ab{2,4} " - соответствует строке, в которой за "b " следует от 2 до 4 символов "b ".

Выражение "{0,} " полностью аналогично "* ", а "{1,} " - "+ ". Выражение "{0,1} " можно записать более коротко, используя "? ".

Для объединения символов в последовательность, их необходимо поместить в круглые скобки. Например, следующее регулярное выражение соответствует строке, в которой за "a " следует от 2 до 4 последовательностей "bc ";
"a(bc){2,4}/" Существует модификатор U , который инвертирует жадность. Например, выражение <.*> соответствует строке, содержащей несколько тегов HTML-разметки, целиком. Чтобы выделить отдельные теги, можно применить жадность: <.*?> или <.*>/U .

Жадность квантификаторов может оказаться значительной проблемой. Например, часто ожидают, что выражение <.*> найдет в тексте теги HTML. Однако если в тексте есть более одного HTML-тега, то этому выражению соответствует целиком строка, содержащая множество тегов.

Функции для работы с регулярными выражениями

После прочтения теоретических основ пора переходить к практическим. Для работы с регулярными выражениями существуют несколько функций. Более детально о каждой из них вы можете почитать на странице: .

Первой рассмотрим функцию Preg_match , которая осуществляет поиск в строке по регулярному выражению и имеет следующий синтаксис:
int preg_match(string $pattern, string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]]) Функция Preg_match ищет в заданном тексте Subject совпадения с шаблоном Pattern . Если задан необязательный параметр Matches , то результаты поиска помещаются в массив. Элемент $matches будет содержать часть строки, соответствующую вхождению всего шаблона, $matches[i] - часть строки, соответствующей первым круглым скобкам, $matches - вторым и т. д.

Необязательный параметр Flags может принимать единственное значение PREG_OFFSET_CAPTURE , при указании которого изменяется формат возвращаемого массива $matches - каждое вхождение возвращается в виде массива, в нулевом элементе которого содержится найденная подстрока, а в первом - смещение. Поиск осуществляется слева направо, с начала строки.

Функция Preg_match возвращает количество найденных соответствий, которое может принимать только 2 значение - 0 (совпадения не найдены) и 1 , поскольку данная функция прекращает свою работу после первого найденного совпадения.

Для поиска всех совпадений, следует воспользоваться функцией Preg_match_all , которая имеет следующий синтаксис:
int preg_match_all(string $pattern, string $subject [, array &$matches [, int $flags = PREG_PATTERN_ORDER [, int $offset = 0 ]]]) Функция Preg_match_all ищет в строке Subject все совпадения с шаблоном Pattern и помещает результат в массив Matches в порядке, определяемом комбинацией флагов Flags . Так же как и в предыдущей функцией можно задать смещение Offset , начиная с которого будет осуществляться поиск встроке Subject . После нахождения первого соответствия последующие поиски будут осуществляться не с начала строки, а от конца последнего найденного вхождения.

Перейдем к функции, которая кроме поиска осуществляет и замену по регулярному выражению - Preg_replace :
mixed preg_replace(mixed $pattern, mixed $replacement, mixed $subject [, int $limit = -1 [, int &$count ]]) Функция Preg_replace выполняет поиск совпадений в строке Subject с шаблоном Pattern и заменяет их на Replacement .

Функция Preg_split разбивает строку по регулярному выражению.
array preg_split(string $pattern, string $subject [, int $limit = -1 [, int $flags = 0 ]]) Функция возвращает массив, состоящий из подстрок заданной строки Subject , которая разбита по границам, соответствующим шаблону Pattern .

В большинстве случаев, использование выше описанных функций вполне достаточно для решения многих задач.

Также существуют дополнительные конструкции шаблонов:

(?#комментарий) - комментарий в теле шаблона. Иногда очень полезно разместить в теле регулярного выражения конкретный комментарий для лучшего понимания работы.

(?:шаблон) - группировка как и "() ", но без обратной ссылки. Данная группировка очень полезна для задания шаблона но без создания обратной ссылки.

(?=шаблон) - "заглядывание" вперед. Данная конструкция может понадобится для поиска по шаблону с наперед указанным выражением, например, выражение "/\w+(?=\t)/ " соответствует слову, за которым идет символ табуляции, но символ "\t " не включается в результат.

А теперь опишем наиболее часто употребляемые примеры использования регулярных выражений:

Проверка правильности ввода E-mail :
preg_match("/^+@+\.{1,6}$/ui", $email) До символа собачки шаблон ищет буквы и цыфры, знак тире, нижнего подчеркивания и
крапки одно или более число вхождений начиная от начала строки:
^+ Далее следует вторая часть почтового адреса, начиная с собачки имея тот же набор символов, что и первая часть:
@+ После этого проверяем доменную зону, которая состоит исключительно из строки букв определенного количества символов до конца строки:
\.{1,6}$ Также с помощью регулярного выражения мы может выбрать все E-mail из текста:
$text = "Здесь текст и почтовый адрес [email protected] а также еще один адрес [email protected]";
preg_match_all("/+@+\.{1,6}/ui", $text, $matches, PREG_PATTERN_ORDER);
foreach ($matches as $key => $val) {
$email = filter_var($val, FILTER_VALIDATE_EMAIL);
if ($email) $output = $email;
} В отличии от проверка правильности ввода E-mail , при выборке мы убрали в шаблоне символ начала (^ ) и конца ($ ) строки. Результат данного примера:
Array
=> [email protected]
=> [email protected]
) Проверка правильности ввода имени:
preg_match("#^[а-яґїієa-z\-\_\".\d\s]+$#ui", $name); Проверка правильности ввода числа:
preg_match("/(+)/ui", $id) Корректность ввода даты:
$date = "2017.05.25";
preg_match("/^{4}.{2}.{2}$/ui", $date); Удалить все определения стилей Style :
preg_replace("/style=\"[^\"]*\"/", "", $string); Поскольку стили могут находится внутри практически любого тега, в примере удаляется исключительно само определение стиля без тега.

Удалить все определения строчных элементов документа Span :
preg_replace("#]*?>#is", "", $string);
preg_replace("#<\/span>#is", "", $table); Точно так же можно удалить любой тег, например, для заголовка H1 :
preg_replace("#]*?>#is", "", $table);
preg_replace("#<\/h1>#is", "", $table); Очистку таблиц с помощью регулярных выражений PHP можно осуществить так:
// Удаляем все из атрибутов Table:
$table = preg_replace("##siU", "

", $table);
// Удаляем все из атрибутов TR:
$table = preg_replace("##siU", "", $table);
// Удаляем все из атрибутов TD (кроме colspan или rowspan):
$table = preg_replace("#]+((colspan|rowspan)=[^\s>]+?)(|.*)>#siU", "

Заметка о регулярных выражениях. Зачем они нужны, где используются и как их применять. Иными словами о поиске в PHP.

Регулярные выражения — это набор указателей, которые используются в поиске, для нахождения нужных данных.

Использование регулярных выражений в функциях PHP, замены , поиска .

Например, рассмотрим такую функция:

preg_replace("/(]*>)(.*?)(<\/div>)/i", "$1$3", $string);

То что внутри этой функции, все эти на первый взгляд непонятные значения, называется регулярным выражением (PHP RegEx) . Они используются для поиска конкретных данных.

Шаблон (символы) поиска берет своё начало с языка Perl .

Регулярные выражения делятся на метасимволы и модификаторы метасимволов.

Метасимволы — определяют группу обычных символов. Модификаторы — помогают понять сколько и какое количество этих символов искать.

Метасимволы регулярного выражения

Значения некоторых метасимволов из примера выше (также они будут встречаться ниже):

^ - начало строки
\ - считать следующий элемент обычным символом (не командой)
. - один произвольный (любой случайный) символ
() - группировка (подмаска)
- класс символов
$ - конец строки
| - альтернатива (или)

Модификаторы регулярного выражения

* - повторять от 0 до бесконечности
? - искать 1 раз или меньше

Ещё модификаторы, но не используются в текущих примерах:

Повторять 1 или большее число раз
{n} - точное количество раз (заменить n цифрой)
{n,5} - по меньшей мере 5 раз
{n,m} - не меньше n, но и не больше m

Любой из вышеперечисленных модификаторов сочетается с модификатором «?». Он необходим для ограничения поиска, потому что по умолчанию все метасимволы повторяются по принципу «жадности» (без ограничения) .

Например:

(<.*>) - найдет всю строку со всеми тегами
(<.*?>) - найдет только теги

Дополнительные опции

Кроме модификаторов и метасимволов есть опции (приведены не все):

/i - не имеет значения регистр символов (строчные и заглавные)
/s - делает точки (.) переносом строки и возврата каретки (сдвиг влево).
/U - превращается все количественные метасимволы в "не жадные".

Опции могут сочетаться вместе:

Шаблоны

Также существуют шаблоны, что-то вроде аналога метасимволов, один из них:

\n - новая строка

На данной странице приведены не все параметры регулярных выражений. Это сделано специально, чтобы не запутать новичка и в то же время дать ему основные инструменты для поиска. В дальнейшем, при желании углубиться в детали, в Интернете можно найти более подробную инструкцию.

Эксперименты

Поэкспериментировать с регулярным выражением можно на этом сайте . Вверху вбиваете регулярное выражение, а снизу данные html в которых ищите. При правильном подборе регулярного выражения будет выделяться нужный вам участок кода.

mixed preg_match (string pattern, string subject [, array &matches [, int flags [, int offset]]])

Ищет в заданном тексте subject совпадения с шаблоном pattern

В случае, если дополнительный параметр matches указан, он будет заполнен результатами поиска. Элемент $matches будет содержать часть строки, соответствующую вхождению всего шаблона, $matches - часть строки, соответствующую первой подмаске, и так далее.

flags может принимать следующие значения:

PREG_OFFSET_CAPTURE

В случае, если этот флаг указан, для каждой найденной подстроки будет указана ее позиция в исходной строке. Необходимо помнить, что этот флаг меняет формат возвращаемых данных: каждое вхождение возвращается в виде массива, в нулевом элементе которого содержится найденная подстрока, а в первом - смещение. Данный флаг доступен в PHP 4.3.0 и выше.

Дополнительный параметр flags доступен начиная с PHP 4.3.0.

Поиск осуществляется слева направо, с начала строки. Дополнительный параметр offset может быть использован для указания альтернативной начальной позиции для поиска. Дополнительный параметр offset доступен начиная с PHP 4.3.3.

Замечание: Использование параметра offset не эквивалентно замене сопоставляемой строки выражением substr($subject, $offset) при вызове функции preg_match_all() , поскольку шаблон pattern может содержать такие условия как ^ , $ или (? . Сравните:

В то время как этот пример

Функция preg_match() возвращает количество найденных соответствий. Это может быть 0 (совпадения не найдены) и 1, поскольку preg_match() прекращает свою работу после первого найденного совпадения. Если необходимо найти либо сосчитать все совпадения, следует воспользоваться функцией preg_match_all() . Функция preg_match() возвращает FALSE в случае, если во время выполнения возникли какие-либо ошибки.

Подсказка: Не используйте функцию preg_match() , если необходимо проверить наличие подстроки в заданной строке. Используйте для этого strpos() либо strstr() , поскольку они выполнят эту задачу гораздо быстрее.

", $table); Проверить правильность имени файла можно с помощью следующего регулярного выражения:
preg_match("/(^+(*))$/", $filename) Вырезать все изображения в тексте:
preg_replace("//", "", $content) Найти все ссылки:
preg_match_all("#]*href="(.*)"[^>]*>#Ui", $content , $url); Представьте ситуацию, когда пользователь не использует символ пробела после точки или запятой. В данном случае получается весьма большое слово, которое не всегда может поместится в необходимое поле, что провоцирует горизонтальную прокрутку. Чтобы этого не случилось, можно воспользоваться следующим регулярным выражением, которое после точки или запятой будет добавлять символ пробела:
preg_replace("/(\.|\,)([^\s])/ui", "$1 $2", $content) Найти все хештеги (#tag ) можно так:
preg_match_all("/\#(\w+[^\s]*)/ui", $text, $matches, PREG_PATTERN_ORDER); Или вручную добавить необходимые символы и их количество, разрешенные для составление хештегов:
preg_match_all("/\#({1,50})/ui", $text, $matches, PREG_PATTERN_ORDER);

Давно хотел разобраться с регулярными выражениями. Хотя «разобраться» — громко сказано. Чтобы постичь великое искусство и стать повелителем регулярных выражений, нужно постоянно с ними иметь дело. Мало изучить синтаксис, спецсимволы и модификаторы, — нужно уметь ими пользоваться. А умение пользоваться приходит с опытом.

В данном посте буду выкладывать примеры использования регулярных выражений, в работе которых разобрался сам.

Таблица спецсимволов

Спецсимвол Описание
\ Символ экранирования. Пример: ‘/seo\/smo/’ — соответствует строке, в которой есть seo/smo.
^ Символ начала данных. Пример: ‘/^seo/’ — соответствует строке, которая начинается словом seo.
$ Символ конца данных. Пример: ‘/блог$/’ — соответствует строке, которая заканчивается словом блог.
. Любой символ, кроме перевода строки. Пример: ‘/seo.ult/’ — соответствует строке seopult, seo9ult, seo@ult и т.д.
Внутри этих скобок перечисляются символы, любой из которых может стоять на данном месте, но только один. Пример: ‘/seoult/’ — под соответствие попадут только строки, содержащие seopult, seokult или seomult.
| Или. Пример ниже.
() Подмаска.
? Одно или ноль вхождений предшествующего символа или подмаски.
* Любое количество вхождений предшествующего символа или подмаски. В том числе и ноль.
+ Одно или более вхождений.
Пример: ‘/se+(op|om)?.*t/’ — буква s, затем одна или несколько букв e, после этого сочетание op или om может встречаться один раз, а может и ни разу, потом любое количество любых символов и буква t.
{a,b} Количество вхождений предшествующего символа или подмаски от a до b. Пример: {0,} — то же самое, что *, {0,1} — то же, что?, {3,5} — 3, 4 или 5 повторений.

Простые примеры php скриптов с использованием регулярных выражений :

1) Предыдущие и последующие выражения.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 // найти слово в котором после Box идёт ing. Если слово найдено, функция вернёт true, если нет - false. $pattern1 = "/Box(?=ing)/" ; preg_match ($pattern1 , "Box Day" ) ; // false preg_match ($pattern1 , "Boxing Day" ) ; // true // найти слово в котором после box не идёт ing. Если слово найдено, функция вернёт true, если нет - false. $pattern2 = "/box(?!ing)/" ; preg_match ($pattern2 , "Box for iPhone and iPad" ) ; // true preg_match ($pattern2 , "What is boxing day?" ) ; // false preg_match ($pattern2 , "css-moz-box-shadow" ) ; // true // найти слово в котором перед ing не идёт box. Если слово найдено, функция вернёт true, если нет - false. $pattern3 = "/(?

[^<]+?~","seo блог",$text); echo $text; ?>

3) Получить и вывести значение Alexa Rank заданного сайта.

1 2 3 4 5 6 7 8 9 "#
(.*?)
#si" , file_get_contents ("http://www.alexa.com/siteinfo/{$url} " ) , $a ) ; return trim (str_replace ("," , "" , strip_tags ($a [ 1 ] ) ) ) ; } $alexa = alexa($url ) ; echo $alexa ; ?>

(.*?)#si", file_get_contents("http://www.alexa.com/siteinfo/{$url}"), $a); return trim(str_replace(",","",strip_tags($a))); } $alexa = alexa($url); echo $alexa; ?>

4) Получить и вывести title страницы.

1 2 3 4 5 (.*)<\/title>/s" , $str , $m ) ; echo $m [ 1 ] ; ?>

(.*)<\/title>/s", $str, $m); echo $m; ?>

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 \n \r \t ]/" , "" , $content ) ; // замена символов перевода строки и табуляции на пробел $content = preg_replace ("/{2,}/" , " " , $content ) ; // замена более 2х пробелов на один preg_match_all ("/]*href=(?:"|\" )(.*)(?:"|\" )[^<>]*>(.*)<\/a>/iU" , $content , $links ) ; // сбор ссылок if (sizeof ($links [ 1 ] ) > 0 ) // если ссылки найдены { $out = array () ; // массив внешних ссылок foreach ($links [ 1 ] as $v ) { if (preg_match ("/http:\/\/(www\.){0,1}" . $domain . "/i" , $v ) ) // отсеиваем внутренние ссылки { continue ; } if (preg_match ("/(http:|https:)?\/\/(www\.){0,1}(.*)/i" , $v ) ) // внешняя ссылка { $out = $v ; } } return $out ; } return array () ; } $domain = "сайт" ; $content = file_get_contents ("http://сайт/" ) ; $getoutlinks = getoutlinks($content , $domain ) ; for ($i = 0 ; $i <= count ($getoutlinks ) ; $i ++ ) { echo $getoutlinks [ $i ] . "
" ; } ?>

]*href=(?:"|\")(.*)(?:"|\")[^<>]*>(.*)<\/a>/iU", $content, $links); // сбор ссылок if (sizeof($links) > 0) // если ссылки найдены { $out = array(); // массив внешних ссылок foreach ($links as $v) { if (preg_match("/http:\/\/(www\.){0,1}".$domain."/i", $v)) // отсеиваем внутренние ссылки { continue; } if (preg_match("/(http:|https:)?\/\/(www\.){0,1}(..com/"); $getoutlinks = getoutlinks($content, $domain); for ($i = 0; $i <= count($getoutlinks); $i++) { echo $getoutlinks[$i]."
"; } ?>

где:
preg_replace — выполняет поиск и замену по регулярному выражению.
preg_match — выполняет проверку на соответствие регулярному выражению.
preg_match_all — отыскивает все совпадения, в то время как preg_match — только первое.
file_get_contents — получить содержимое файла в виде одной строки.
trim — удаляет пробелы в начале и конце строки.
str_replace — заменяет строку поиска на строку замены.
strip_tags — удаляет html и php тэги из строки.
sizeof — получает количество элементов в переменной.
count — подсчитывает количество элементов массива или количество свойств объекта.

Чаще всего регулярные выражения используются в Perl в операторах поиска и замены, таких как s// , m/ , операторах связки =~ или != и т.д. Как правило все эти операторы имеют схожие опции такие как:

Обычно все эти опции обозначают как "/x". Их можно использовать даже внутри шаблонов, используя новую конструкцию (?...)

Регулярные выражения или шаблоны (pattern) то же самое, что и regexp процедуры в Unix. Выражения и синтаксис заимствованы из свободно распространяемых процедур V8 Генри Спенсера (Henry Spencer), там же они подробно и описаны.

В шаблонах используются следующие метасимволы (символы обозначающие группы других символов) часто называемые egrep - стандартом:

Метасимволы имеют модификаторы (пишутся после метасимвола):

Во все других случаях фигурные скобки считаются обычными (регулярными) символами. Таким образом "*" эквивалентна {0,} , "+" - {1,} и "?" - {0,1}. n и m не могут быть больше 65536.

По умолчанию действие метасимволов "жадно" (greedy). Совпадение распространяется столько раз, сколько возможно, не учитывая результат действия следующих метасимволов. Если вы хотите "уменьшить их аппетит", то используйте символ "?". Это не изменяет значение метасимволов, просто уменьшает распространение. Таким образом:

Шаблоны работают так же, как и двойные кавычки, поэтому в них можно использовать `\` - символы (бэкслэш-символы):

\t - символ табуляции
\n - новая строка
\r - перевод каретки
- перевод формата
\v - вертикальная табуляция
\a - звонок
\e - escape
\033 - восьмеричная запись символа
\x1A - шестнадцатеричная
\c[ - control символ
\l - нижний регистр следующего символа
\u - верхний регистр -//-
\L - все символы в нижнем регистре до \E
\U - в верхнем -//-
\E - ограничитель смены регистра
\Q - отмена действия как метасимвола

Дополнительно в Perl добавлены следующие метасимволы:

Обратите внимание, что все это "один" символ. Для обозначения последовательности применяйте модификаторы. Так:

Кроме того существуют мнимые метасимволы. Обозначающие не существующие символы в месте смены значения. Такие как:

Граница слова (\b) - это мнимая точка между символами \w и \W. Внутри класса символов "\b" обозначает символ backspace (стирания). Метасимволы \A и \Z - аналогичны "^" и "$", но если начало строки "^" и конец строки "$" действуют для каждой строки в многострочной строке, то \A и \Z обозначают начало и конец всей многострочной строки.

Если внутри шаблона применяется группировка (круглые скобки), то номер подстроки группы обозначается как "\цифра". Заметьте, что за шаблоном в пределах выражения или блока эти группы обозначаются как "$цифра". Кроме этого существуют дополнительные переменные:

Пример:

$s = "Один 1 два 2 и три 3"; if ($s =~ /(\d+)\D+(\d+)/) { print "$1\n"; # Результат "1" print "$2\n"; # "2" print "$+\n"; # "2" print "$&\n"; # "1 два 2" print "$`\n"; # "Один " print "$"\n"; # " и три 3" }

Perl версии 5 содержит дополнительные конструкции шаблонов:

Пример:

$s = "1+2-3*4"; if ($s =~ /(\d)(?=-)/) # Найти цифру за которой стоит "-" { print "$1\n"; # Результат "2" } else { print "ошибка поиска\n"; }

(?!шаблон)- "заглядывание" вперед по отрицанию:

Пример:

$s = "1+2-3*4"; if ($s =~ /(\d)(?!\+)/) # Найти цифру за которой не стоит "+" { print "$1\n"; # Результат "2" } else { print "ошибка поиска\n"; }

(?ismx) - "внутренние" модификаторы. Удобно применять в шаблонах, где например нужно внутри шаблона указать модификатор.

Правила регулярного выражения. (regex)

  1. Любой символ обозначает себя самого, если это не метасимвол. Если вам нужно отменить действие метасимвола, то поставьте перед ним "\".
  2. Строка символов обозначает строку этих символов.
  3. Множество возможных символов (класс) заключается в квадратные скобки "", это значит, что в данном месте может стоять один из указанных в скобках символов. Если первый символ в скобках это "^" - значит ни один из указанных символов не может стоять в данном месте выражения. Внутри класса можно употреблять символ "-", обозначающий диапазон символов. Например, a-z - один из малых букв латинского алфавита, 0-9 - цифра и т.д.
  4. форум портала PHP . SU

Пример 2. Поиск слова "web" в тексте

/*
Специальная последовательность \b в шаблоне означает границу слова,
следовательно, только изолированное вхождение слова "web" будет соответствовать
маске, в отличие от "webbing" или "cobweb".
*/
if (preg_match ("/\bweb\b/i" , "PHP is the web scripting language of choice." )) {
echo "Вхождение найдено." ;
} else {
echo "Вхождение не найдено." ;
}preg_match ("/\bweb\b/i" , "PHP is the website scripting language of choice." )) {
echo "Вхождение найдено." ;
} else {
echo "Вхождение не найдено." ;
}
?>
© 2024 Windows. Программы. Железо. Интернет. Полезно знать