В пакете grab.tools содержится множество различных вспомогательных утилит, которые оказываются полезными в разработке Grab и парсеров на основе Grab. Здесь приведён обзор наиболее важных утилит.
Используя функцию work.make_work() вы можете организовать выполнение множества заданий в параллельных тредах, причём количеством тредов можно управлять:
def worker(url):
g = Grab()
g.go(url)
return url, g.xpath_text('//title')
task_iterator = open('urls.txt')
for url, title make_work(worker, task_iterator, limit=5):
print url, title
Обратите внимание, что вы можете передавать не только статический список заданий, но и итератор. Результат работы функции work.make_work() выполнен также в виде итератора. Если вы хотите использовать процессы, вместо тредов, вам нужна функция pwork.make_work(). Она аналогична вышерассмотренной, за тем исключением, что она порождает не треды (threading.Thread), но процессы (multiprocessing.Process)
Для того, чтобы гарантировать то, что в любой момент времени выполняется только один экземпляр вашего парсера, можно использовать функцию lock.assert_lock(). Её аргумент - путь до файла, который должен быть залочен. Если залочить файл не удаётся, функция генерирует исключение и программа прекращается. Естественно, в разных скриптах нужно лочить различные файлы.
Функция logs.default_logging() настраивает logging-систему так, чтобы все сообщения библиотеки Grab направлялись в файл, по-умолчанию, это “/tmp/grab.log”. Удобно вызвать эту функцию в начале программы и наблюдать за активностью парсинга с помощью команды tail -f /tmp/grab.log, оставляя себе возможность выводить в консоль, где был запущен скрипт, более важные данные.
Функция files.unique_file() читает строки из файла, оставляет уникальные строки и записывает их обратно в файл. Функция files.unique_host() читайет список URL-строк из файла и оставляет только строки с уникальным hostname, далее записывает строки обратно в файл.
Функция rex.rex() позволяет искать регулярное выражение. Вы можете передать ей как скомпилированный объект регулярного выражения, так и просто текст из которого будет построен объект регулярного выражения. Объекты регулярных выражений кэшируются, так что вам не нужно беспокоитсья о том, что выражение будет перекомпилироваться. Если выражение не найдено, функция rex.rex() сгенерирует grab.error.DataNotFound исключение. Вы можете изменить это поведение, передав в аргументе default значение, которое нужно вернуть по-умолчанию:
>>> from grab.tools import rex
>>> import re
>>> rex.rex('*** foo +++', re.compile('\w+')).group(0)
'foo'
>>> rex.rex('*** foo +++', '\w+').group(0)
'foo'
>>> rex.rex('***', '\w+')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.6/dist-packages/grab/tools/rex.py", line 44, in rex
raise DataNotFound('Could not find regexp: %s' % regexp)
grab.error.DataNotFound: Could not find regexp: <_sre.SRE_Pattern object at 0xb83c10>
>>> rex.rex('***', '\w+', default='default value')
'default value'
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python2.6/dist-packages/grab/tools/rex.py", line 44, in rex
raise DataNotFound('Could not find regexp: %s' % regexp)
grab.error.DataNotFound: Could not find regexp: <_sre.SRE_Pattern object at 0xb83c10>
Функция rex.rex_list() вернёт список всех найденных регулярных выражений. Функция rex.rex_text() найдёт указанный текст и затем вырежет из него все тэги. Функция rex.rex_text_list() вернёт список всех найденных текстовых фрагментов с вырезанными тэгами.