Просмотров: 14191

15 регулярок, которые должен знать каждый PHP-программист


Регулярные выражения — это хорошо известный и очень полезный инструмент для разработчиков. С их помощью можно удобно находить, определять или заменять текст, слова или любые другие символы. В сегодняшнем посте я постарался собрать 15 наиболее полезных регулярных выражений для PHP-программиста, которые также пригодятся любому другому практикующему веб-разработчику.

С одной стороны я действительно пытался подобрать наиболее ходовые и востребованные в реальной жизни примеры, которые предварительно были мной основательно протестированы, и которые можно широко использовать в тысячи реальных ситуаций. С другой стороны — эти примеры можно использовать при начальном обучении регулярным выражениям: здесь есть как совсем простые, так и весьма глубокомысленные приёмы, тем более я считаю, что учиться новичку всегда лучше и эффективней на конкретных практических примерах.

Перед тем как приступать к чтению, остаётся лишь добавить, что это перевод вот этой статьи от Джан-Баптисты Джунга.

регулярные запросы регулярки regex PHP

Невольное предупреждение: если какой-то нижеприведенный листинг в силу не совсем удачной верстки выходит за экран блога, вы можете просто выделить его полностью и скопировать в буфер обмена, после чего вставить уже непосредственно в свой редактор, в котором вы работаете с кодом.

1. Проверка доменного имени

Проверяем, является ли строка правильным доменным именем?

$url = "http://blogerator.ru/";
if (preg_match('/^(http|https|ftp)://([A-Z0-9][A-Z0-9_-]*(?:.[A-Z0-9][A-Z0-9_-]*)+):?(d+)?/?/i', $url)) {
    echo "Your url is ok.";
} else {
    echo "Wrong url.";
}


2. Подсветка слова в тексте

Это очень полезное регулярное выражение, с его помощью вы можете найти нужное слово и подсветить его. Особенно полезно для отображения результатов поиска.

$text = "Sample sentence from BLOGERATOR.RU, regex has become popular in web programming. Now we learn regex. According to wikipedia, Regular expressions (abbreviated as regex or regexp, with plural forms regexes, regexps, or regexen) are written in a formal language that can be interpreted by a regular expression processor";
$text = preg_replace("/b(regex)b/i", '<span style="background:#5fc9f6">1</span>', $text);
echo $text;


3. Подсветка результатов поиска в WordPress-блоге

Как уже говорилось в предыдущем примере, этот пример кода, удобно использовать в выдаче поисковых результатов и есть отличный способ внедрить эту функцию в Wordpress-блог.

Откройте ваш файл search.php , и найдите функцию the_title() . Замените ее следующим кодом:

echo $title;

Теперь, выше этой строки, добавьте этот код:

<?php
    $title  = get_the_title();
    $keys= explode(" ",$s);
    $title  = preg_replace('/('.implode('|', $keys) .')/iu',
        '<strong class="search-excerpt">\0</strong>',
        $title);
?>

Сохраните файл search.php , и откройте style.css . Добавьте туда следующую строку:

strong.search-excerpt { background: yellow; }


4. Получение всех картинок из HTML-документа

Если вам когда-нибудь требовалось получить все картинки с веб-страницы, этот код должен быть вы легко сможете создать загрузчик изображений с помощью возможностей cURL:

$images = array();
preg_match_all('/(img|src)=("|\')[^"\'>]+/i', $data, $media);
unset($data);
$data = preg_replace('/(img|src)("|\'|="|=\')(.*)/i', "$3", $media[0]);
 
foreach ($data as $url) {
    $info = pathinfo($url);
    if (isset($info['extension'])) {
        if (($info['extension'] == 'jpg') ||
                ($info['extension'] == 'jpeg') ||
                ($info['extension'] == 'gif') ||
                ($info['extension'] == 'png'))
            array_push($images, $url);
    }
}


5. Удаление повторяющихся слов (не чувствителен к регистру)

Во время печатания, часто повторяются слова? Поможет вот это регулярное выражение.

$text = preg_replace("/s(w+s)1/i", "$1", $text);


6. Удаление повторяющейся пунктуации

То же самое, только для пунктуации. Попрощайтесь с двойными запятыми.

$text = preg_replace("/.+/i", ".", $text);


7. Поиск XML/HTML тэгов

Эта простая функция, принимает два аргумента. Первый — это тэг, который вам нужно найти, и второй — это переменная, содержащая XML или HTML. Повторюсь, эту функцию очень удобно использовать вместе с cURL.

function get_tag( $tag, $xml ) {
  $tag = preg_quote($tag);
  preg_match_all('{<'.$tag.'[^>]*>(.*?)</'.$tag.'>.'}',
                   $xml,
                   $matches,
                   PREG_PATTERN_ORDER);
 
  return $matches[1];
}


8. Поиск XHTML/XML тэгов с определенным значением атрибута

Эта функция очень похожа на предыдущую, за исключением того, что вы можете задать тегу нужный атрибут. Например, вы легко сможете найти < div id=”header”> .

function get_tag( $attr, $value, $xml, $tag=null ) {
  if( is_null($tag) )
    $tag = '\w+';
  else
    $tag = preg_quote($tag);
 
  $attr = preg_quote($attr);
  $value = preg_quote($value);
 
  $tag_regex = "/<(".$tag.")[^>]*$attr\s*=\s*".
                "(['\"])$value\\2[^>]*>(.*?)<\/\\1>/"
 
  preg_match_all($tag_regex,
                 $xml,
                 $matches,
                 PREG_PATTERN_ORDER);
 
  return $matches[3];
}


9. Поиск шестнадцатеричных значений цветов

Еще один полезный инструмент для веб-разработчика! Он позволяет вам находить/проверять шестнадцатеричные значение цвета.

$string = "#555555";
if (preg_match('/^#(?:(?:[a-fd]{3}){1,2})$/i', $string)) {
echo "example 6 successful.";
}


10. Поиск заголовка статьи

Этот фрагмент кода найдет и выведет на экран текст, находящийся внутри тэгов , на html-странице.

$fp = fopеn("http://www.blogerator.ru/","r");
whilе (!fеof($fp) ){
$page .= fgеts($fp, 4096);
}
$titre = erеgi("<title>(.*)</title>",$page,$regs);
echo $regs[1];
fclosе($fp);


11. Парсинг логов Apache

Большинство сайтов запущено на всем известном веб-сервере Apache. Если ваш сайт находится в их числе, почему бы не использовать PHP и регулярные выражения для разбора логов Апача?

//Logs: Apache web server
//Successful hits to HTML files only.  Useful for counting the number of page views.
'^((?#client IP or domain name)S+)s+((?#basic authentication)S+s+S+)s+[((?#date and time)[^]]+)]s+"(?:GET|POST|HEAD) ((?#file)/[^ ?"]+?.html?)??((?#parameters)[^ ?"]+)? HTTP/[0-9.]+"s+(?#status code)200s+((?#bytes transferred)[-0-9]+)s+"((?#referrer)[^"]*)"s+"((?#user agent)[^"]*)"$'
 
//Logs: Apache web server
//404 errors only
'^((?#client IP or domain name)S+)s+((?#basic authentication)S+s+S+)s+[((?#date and time)[^]]+)]s+"(?:GET|POST|HEAD) ((?#file)[^ ?"]+)??((?#parameters)[^ ?"]+)? HTTP/[0-9.]+"s+(?#status code)404s+((?#bytes transferred)[-0-9]+)s+"((?#referrer)[^"]*)"s+"((?#user agent)[^"]*)"$'


12. Замена двойных кавычек «умными» кавычками

Если вы любитель типографики, вам понравится это регулярное выражение, заменяющее обычные двойные кавычки, на «умные кавычки». Похожее регулярное выражение используется в Wordpress в контенте страницы.

preg_replace('B"b([^"x84x93x94rn]+)b"B', '?1?', $text);


13. Комплексная проверка пароля

Это регулярное выражение будет следить за тем, чтобы в текстовое поле было введено не менее шести символов, цифры, дефисы и подчеркивания.

Текстовое поле должно содержать как минимум один символ верхнего регистра, один нижнего регистра и одну цифру.

'A(?=[-_a-zA-Z0-9]*?[A-Z])(?=[-_a-zA-Z0-9]*?[a-z])(?=[-_a-zA-Z0-9]*?[0-9])[-_a-zA-Z0-9]{6,}z'


14. WordPress: Использование регулярного выражения для получения картинок из записи

Поскольку многие из вас являются пользователями WordPress, вам возможно пригодится код, который позволяет получить все картинки, из текста статьи, и вывести их.

Для того, чтобы использовать этот код, просто вставьте его в любой файл вашей темы.

<?php if (have_posts()) : ?>
<?php while (have_posts()) : the_post(); ?>
 
<?php
$szPostContent = $post->post_content;
$szSearchPattern = '~<img [^>]* />~';
 
// Run preg_match_all to grab all the images and save the results in $aPics
preg_match_all( $szSearchPattern, $szPostContent, $aPics );
 
// Check to see if we have at least 1 image
$iNumberOfPics = count($aPics[0]);
 
if ( $iNumberOfPics > 0 ) {
     // Now here you would do whatever you need to do with the images
     // For this example the images are just displayed
     for ( $i=0; $i < $iNumberOfPics ; $i++ ) {
          echo $aPics[0][$i];
     };
};
 
endwhile;
endif;
?>


15. Генерация автозамены для смайлов

Другая функция, используемая в Wordpress — позволяет автоматически заменять традиционные строковые символы «:-)» на картинку «смайла».

$texte='A text with a smiley :-)';
echo str_replace(':-)','<img src="smileys/souriant.png">',$texte);


Лаконичная помощь в заключении

Могу порекомендовать эту шпаргалку (PDF) в качестве подручного и краткого справочника, а также этот PHP Regex FAQ для ответа на часто встречаемые вопросы по этой теме.

регулярные запросы регулярки regex PHP

P.S. Для разработки больших веб-сайтов одних регулярок знать мало, серьёзная разработка требует более широкого кругозора и владение серьёзными CMS. В ближайшее время мы рассмотрим создание сайтов на Bitrix, и сделаем мы это на двух типовых примерах. Это, во-первых, создание сайта-визитки, и, во-вторых, — быстрое развертывание интернет-магазина на базе движка Битрикс.

twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru pikabu.ru blogger.com liveinternet.ru livejournal.ru google.com bobrdobr.ru yandex.ru del.icio.us

Подписка на обновления блога → через RSS, на e-mail, через Twitter
Теги: , , , , , , ,
Эта запись опубликована: Вторник, 25 сентября 2012 в рубрике Программирование.

3 комментария

Следите за комментариями по RSS
  1. 6. Удаление повторяющейся пунктуации

    Попрощайся со всеми символами в строке!

  2. и 4я регулярка сработает для картинок вообще без кавычек, вида ?

  3. вид img=http://some.com/some.jpg

Оставьте комментарий!

Не регистрировать/аноним

Используйте нормальные имена. Ваш комментарий будет опубликован после проверки.

Зарегистрировать/комментатор

Для регистрации укажите свой действующий email и пароль. Связка email-пароль позволяет вам комментировать и редактировать данные в вашем персональном аккаунте, такие как адрес сайта, ник и т.п. (Письмо с активацией придет в ящик, указанный при регистрации)

(обязательно)


⇑ Наверх
⇓ Вниз