GoAccess для SEO: поиск скрытых точек роста сайта через глубокий анализ серверных логов

Как поисковые системы сканируют сайты? Серверные логи — важнейший элемент технического SEO. Анализ серверных логов с помощью GoAccess. Практика: локальный анализ. Практика: анализ на удаленном web-сервере.

*https://www.youtube.com/live/-mETRxAQNhA
**https://300.ya.ru/summary

пересказ видео

Начало вебинара

  • Приветствие и представление Артёма Акулова
  • Тема вебинара: серверные логи и их анализ

Знакомство с Артёмом

  • Артём Акулов занимается SEO с 2014 года
  • Опыт работы с различными проектами и экспертиза в продвижении сайтов

Как поисковые системы сканируют сайты

  • Процесс индексации сайтов поисковыми роботами
  • Важность понимания краулингового бюджета
  • Взаимодействие робота с сервером и получение ответа

Серверные логи

  • Важность серверных логов для технического SEO
  • Содержание и ценность информации в логах
  • Возможность получения данных, недоступных в Search-консоли

Возможности анализа серверных логов

  • Мониторинг краулеров и их активности
  • Анализ запросов и выявление игнорируемых страниц
  • Выявление технических проблем с сайтом
  • Мониторинг после изменений на сайте

Проблемы с индексацией новых разделов

  • После редизайна и смены CMS часто возникают проблемы с индексацией.
  • Серверные логи помогают выявить и решить эти проблемы.

Борьба со спамом

  • Боты и парсеры могут перегружать сервер.
  • Анализ юзерагентов позволяет выявить и заблокировать ботов.

Оптимизация структуры сайта

  • Перегруженная структура сайта может ухудшать индексацию.
  • Страницы с фильтрами и тегами могут генерировать ненужные урлы, тратя краулинговый бюджет.

Преимущества анализа логов

  • Определение реального поведения поисковых ботов.
  • Оптимизация краулингового бюджета и устранение технических проблем.
  • Выявление скрытых страниц и отслеживание динамики сканирования.

Софтверные инструменты для анализа логов

  • Платный софт: Screaming FR (около 100 фунтов/долларов в год).
  • Бесплатный софт: Go Access (открытый исходный код, работает на Windows, Linux и macOS).

Основные характеристики Go Access

  • Поддержка форматов логов Engine X и Apache.
  • Работа локально, на шарехостинге или выделенном сервере.
  • Визуализация данных, детальная статистика по юзерагентам, мониторинг популярных страниц и аномальной активности.

Где получить серверные логи

  • Собственный сервер: полный доступ к логи, хранятся в директориях War Logine X.
  • Шарехостинг: Goa Access может быть установлен на некоторых хостингах.
  • WordPress: выгрузка логов через админку или плагин.
  • Cloud Fayer и CDN: подключение через log push, доступно только в платных тарифах.
  • Облачные платформы: отправка логов через Cloud Watch или Stackdriver.

Основные команды для анализа логов в GoAccess

  • GoAccess позволяет анализировать логи локально.
  • Команды позволяют фильтровать данные по ботам, датам, кодам ошибок и другим параметрам.
  • Доступны два формата вывода: терминал и HTML.

Настройка и использование GoAccess

  • Access log — файл с логами, Report HTML — выходной файл с дашбордом, Log — формат логов.
  • Для нестандартных логов нужно настраивать формат через регулярные выражения.
  • GoAccess можно использовать для мониторинга краулеров и других настроек.

Практика анализа логов

  • Пример анализа логов с сайта через GoAccess Terminal.
  • В терминале можно увидеть уникальные посетители, запрошенные файлы, типы запросов, IP-адреса, операционные системы, браузеры, время запросов, рефы и сайты переходов, статусы HTTP кодов, геолокацию и ASN.
  • GoAccess можно установить на Linux и Windows.

Анализ логов с виртуального хостинга

  • Пример анализа логов с виртуального хостинга через GoAccess.

Анализ логов на shared хостинге

  • Использование shell Client для доступа к логам
  • Включение журнала запросов и ошибок в панели управления хостингом
  • Настройка периода ротации и хранения архивов логов

Использование Go Access

  • Проверка наличия Go Access на сервере
  • Распаковка и объединение заархивированных логов с помощью Go Access
  • Создание дашбордов на основе распакованных логов

Фильтрация логов по ботам

  • Создание файла bots list с указанием ботов для анализа
  • Фильтрация логов по ботам из списка
  • Создание дашборда на основе отфильтрованных логов

Анализ дашборда

  • Визуализация данных по ботам, уникальным посетителям и запрошенным файлам
  • Анализ HTTP-запросов и ошибок 404
  • Проверка IP-адресов и операционных систем ботов
  • Распределение запросов по времени

Анализ логов с помощью GoAccess

  • В 3-4 утра наблюдаются всплески активности.
  • В течение дня активность равномерна.
  • Ошибки 404 и редиректы присутствуют.

Создание дашборда

  • Можно создать дашборд, отображающий только краулеров.
  • Дашборд обновляется в реальном времени.
  • Можно настроить доступ к дашборду по IP-адресам.

Настройка и анализ

  • Можно использовать файл bots.list для фильтрации логов.
  • Данные можно выгружать в JSON и парсить с помощью Python.
  • Для создания команд можно использовать чат GPT или Perplexity.

Преимущества GoAccess

  • Простой синтаксис и понятная документация.
  • Легко устанавливается на Linux и Windows.
  • Функционал сравним с платными инструментами.

Ответы на вопросы

  • Пятисотые ошибки могут указывать на нехватку мощности сервера или проблемы с базой данных.
  • Google бот может перегружать сервер, что приводит к ошибкам.

Проблемы с динамическим контентом

  • Для динамического контента нужен мощный сервер и тариф.
  • Проверка внешней доступности сервера через сервисы типа Pingdom.
  • Частая недоступность сайта ухудшает индексирование.

Выявление зомби-страниц

  • Зомби-страницы не имеют внешних ссылок.
  • Проверка через логи Google бота и сопоставление с внутренними ссылками.
  • Проблемы с экспортом данных из GoAccess, необходимость ручного анализа.

Отмена поддержки 100 результатов в Google

  • Google прекратил поддержку 100 результатов на странице.
  • Рост стоимости отслеживания позиций в Google и Яндексе.
  • Google может экономить ресурсы и перенаправлять мощности на ИИ.

Альтернативы парсерам

  • Возможность использования кастомных треккеров вместо платных сервисов.
  • Парсеры, такие как Aparser, могут быть платными и требовать обновлений.

Проблемы с краулинговым бюджетом

  • Анализ логов для выявления проблем с сканированием страниц.
  • Частые посещения одних страниц и игнорирование других могут указывать на проблемы.
  • Проблемы могут быть связаны с кэшем, скриптами и шрифтами.

Поведенческие факторы и Яндекс

  • Яндекс предлагает установить свой браузер и поиск за деньги.
  • Это не попытка улучшить качество трафика, а элемент внутренней цензуры.
  • Яндекс стремится ограничить использование Google в Рунете.

Отношение к Яндексбраузеру

  • Автор не пользуется Яндексбраузером из-за чрезмерного сбора информации.
  • Яндекс не заинтересован в улучшении Директа для ПФ.

Альтернативы Яндекс.Директ

  • Монополия Яндекса на контекстную рекламу вызывает недовольство.
  • Альтернативы Директа ограничены, Google рекламы нет в России.

Определение нагрузки на хостинг

  • Ошибки 500 могут указывать на проблемы с хостингом.
  • Крупные хостинговые компании редко обманывают клиентов.

Сопоставление логов с данными Google Search консоли

  • Серверные логи содержат более полную информацию, чем Google Search консоль.
  • Сопоставление логов с сайтмапами можно сделать вручную или с помощью нейросетей.

Борьба с плохими ботами и накруткой ПФ

  • Для блокировки ботов можно использовать файл .htaccess.
  • Для борьбы с негативной накруткой рекомендуется использовать внешний сервис, такой как Антибот Cloud.

Услуги Артема

  • Артем занимается SEO и накруткой ПФ, консультирует по этим вопросам.
  • Автор вебинара благодарит Артема за знания и приглашает на будущие встречи.

In this video

Начало
0:01
Здравствуйте, дорогие друзья. В эфире вебинар по продвижению сайтов, и я рад представить вашему вниманию Артёма
0:07
Акулова. Артём, привет. Привет, Михаил. Всем привет. О чём сегодня?
0:14
О чём сегодня будем так сказать разговаривать? Сегодня будем обсуждать
0:20
серверные логи. То есть сегодня будет технический вебинар ээ логи сервера. как
0:25
их анализировать, зачем, что это, где их можно скачать, посмотреть и вообще, что
0:33
с ними делать. Вот, соответственно, э-э также разберём, э-э, одну утилиту
0:40
бесплатную для анализа логов. И будет блок с практикой, э, о том, как
0:46
анализировать, э, логи, э, локально, то есть на собственном компьютере, а, и на
0:53
шард хостинге, то есть на ВПэске. Ээ там, в принципе, и так всё понятно,
0:58
потому что, ээ, перечень команд имеется. Вот. Но на шар хостинге, то есть на
1:06
общем хостинге, не выделенном, э там, где есть несколько сайтов, также можно
1:11
по каждому домену делать анализ. Я покажу, эээ, как. Угу. У меня сегодня уведомление пришло,
1:18
что на YouTube моём канале 700 видео уже опубликовано, и при этом ни одного видео
1:23
про анализ логов нет. Так что я очень рад, что ты с такой интересной темой пришёл и важной, на самом деле,
1:29
недооценённой. Поэтому слушаем тебя внимательно. Спасибо, Артём. Совпадение? Не думаю.
1:37
Ладно, давайте начинать. Можно презентацию? А, всё. Так, да, для тех, кто меня не знает,
Знакомство с Артемом
1:43
меня зовут Акулов Артём. Я занимаюсь SEO с 2014 года. За это время у меня было
1:49
достаточно много интересных э проектов в разной степени сложности. У меня
1:54
довольно большая экспертиза в продвижении сайтов услуг, интернет-магазинов, э поведенческих
1:59
факторах. А также я делаю агенaming проекты в зарубежных Geo.
2:07
Ну, соответственно, только только под Google. А так давайте перейдём к первому
2:12
блоку. Вообще ээ очень кратко, как поисковые системы э у нас индексируют,
2:19
ээ, сайты. Прям прямо по верхам пройдёмся. Э почему это важно понимать?
Как поисковые системы сканируют сайты
2:25
Ну, важно понимать это для, э, базы и, э, так сказать чтобы построить всю
2:31
цепочку логическую, откуда у нас берутся логи, почему они берутся, зачем это нужно и так далее, и так далее. А в
2:39
первую очередь каков у нас процесс? То есть, в первую очередь у нас, э-э,
2:44
поисковый робот Гугла, Яндекса либо, э-э, какого-то и-сервиса -э находит наш
2:52
домен либо наш, ээ, какой-то URL. Вот, соответственно,
2:58
ээ вариантов, как он может это найти, огромное множество. То есть от
3:03
сканирования вновь зарегистрированных доменов, либо для старых сайтов это
3:09
найти новую страницу по какой-нибудь внешней ссылке или по внутренней ссылке. В общем, вариантов огромное множество.
3:17
А, соответственно, поисковая система определяет, какие страницы по её мнению, я ещё раз повторюсь, по её мнению стоит
3:24
посетить. И, соответственно, после этого она добавляет их в очередь на сканирование.
3:30
Здесь важный момент есть. По каждому сайту существует так называемый краулинговый бюджет. Что это
3:38
такое? Это, так сказать, внутренний параметр, э, в том же самом Google в
3:45
Яндексе, который определяет, сколько страниц за определённый промежуток времени поисковый робот может посетить.
3:53
То есть понятно, что чем моложе сайт, чем меньше у него трафика, тем,
3:59
соответственно, меньше у него краулинговый бюджет. Соответственно, если мы выкатываем сайт
4:05
на полтора млна страниц, и если там есть какие-то косяки ещё по внутренней оптимизации, всё это может
4:11
индексироваться очень и очень долго. Вот. Поэтому здесь, конечно, чтобы был
4:16
больше краулинговый бюджет, нужно постоянно работать ээ над сайтом.
4:21
Соответственно, э наш URL, наш домен попал в очередь на сканирование. И
4:27
наступает момент, когда поисковый робот, например Гугла начинает обращаться к определённой странице. Соответственно,
4:34
он отправляет HTTP getзапрос, э, и ожидает, ээ, получение ответа от
4:41
сервера, после чего робот получит, ээ, информацию уже о контенте страницы.
4:48
Соответственно, ответ сервера, он может быть разный, то есть, э, может быть успешный, то есть это код ответа э 200.
4:56
Возможно, робот Гугла получит код ответа 300.
5:01
Соответственно, это либо постоянный редирект, либо там 302 — это временный редирект. А, соответственно, также могут
5:07
быть у нас ошибки. Ошибки клиента — это ошибки 400. Либо ошибки сервера — это ошибки 500, то есть 501, 502 там и так
5:15
далее. А далее поисковый робот, э, либо робот и краулера
5:23
получает контент страницы и анализирует его. Он анализирует внутренние ссылки,
5:29
текст, внешние ссылки, структуру страницы, в общем, всю разметку. При
5:34
необходимости поисковый бот рендерит э динамический контент, то есть он
5:40
начинает рендерить JavaScript. Опять же, при необходимости, то есть,
5:47
ну, робот Гугла, он по умолчанию всё это делает. Вот в робот Яндекса, ему можно
5:53
указать в настройках вебмастера, э, делать это или не делать, либо на его усмотрение. А после чего вот он
6:00
отрендерил либо не оттрендерил, получил контент страницы, после чего у нас появляется запись в серверных логах, а,
6:08
по каждому взаимодействию с нашим сайтом, с определёнными страницами и так далее, и так далее.
6:14
И эти данные мы и будем анализировать. Вот. Двигаемся дальше. Серверные логи —
Серверные логи
6:22
это один из важнейших элементов технического SEO. То есть вот когда э
6:27
приходят э потенциальные заказчики, говорят: «Вот непонятно у нас, что-то не
6:33
растёт, ничего, вроде работы ведутся, там контент добавляется, всё что-то
6:38
медленно индексируется, непонятно, что делать. Ээ, нужно здесь начинать вот одни из
6:44
первейших работ — это как раз анализ серверных, э, логов. Э, соответственно,
6:51
что это? Это в основном это текстовый файлик с детальной м хронологией всех
6:57
обращений к определённому сайту. Он содержит информацию о каждом запросе, кто когда что запрашивал, какой получил
7:04
код ответа и так далее, и так далее. Э, именно для SEO специалиста это достаточно ценная информация о
7:11
поведении, э, поисковых ботов за определённый промежуток времени. Почему?
7:17
А потому что в Search-консоли, так и в Яндекс в мастере, а
7:23
и краулеры — это вообще чёрный ящик. То есть там нету консоли, где можно посмотреть, сколько раз чат GPT
7:31
обращался к нашему сайту. Вот его в принципе не существует. Но мы можем, э,
7:36
всё это ээ всю эту информацию достать самостоятельно прямо со своего хостинга.
7:43
Если это VPS, вообще проблем нет, то есть выделенный, э, виртуальный сервер.
7:49
Если это sharстинг, то здесь тоже проблем нет. Я дальше э покажу.
7:55
В основном утилиты для анализа логов, они уже предустановлены в шартхостинге.
8:01
Просто так там какую угодно утилиту в основном не поставишь из-за ограничений прав доступа. А, соответственно,
8:09
ээ можно сказать, возразить, а вот можно же проанализировать, как обращался,
8:15
например, Google бот к нашему сайту. Да, можно, но за очень короткий промежуток
8:20
времени. То есть эти данные ограничены. А если у нас наши серверные логи имеются, мы можем смотреть, как с какой
8:28
периодичностью тот же самый Google бот обращался а к нашему проекту
8:35
ээ с течением времени, то есть в течение года, в течение месяца, э какие у него ошибки там и так далее, и так далее. То
8:42
есть здесь, э, мы получаем информацию, которую больше ниоткуда взять невозможно и сможем, ээ,
8:51
с помощью анализа этой информации э сделать определённые выводы, произвести
8:56
определённые манипуляции, чтобы ускорить продвижение сайта, исправить кучу
9:02
проблем, выявить их, потому что тот же самый лягушка либо сайт аналайзером -э
9:09
ну мы можем просканировать, но ээ некоторые проблемы мы там с 404 ошибками
9:15
мы можем упустить даже с помощью этих мощных э программ. Ладно, давайте
Возможности анализа серверных логов
9:21
двигаться дальше. Э какие возможности эээ анализа серверных логов? Ну, в
9:26
первую очередь, это мониторинг краулеров. То есть мы получим полные данные о том, какие поисковые и какие и
9:33
краулеры. То есть это краулеры, которые представляются официальными краулерами
9:39
chatчат GPT, Perplexity. [музыка] боты антропика там и так далее, и так
9:45
далее. Как они сканируют сайт, что они сканируют, с какой периодичностью, какие
9:51
страницы и соответственно как часто можно слить
9:57
активность любых абсолютно ботов. То есть можно предустановить список ботов,
10:04
которых мы хотим трекать. Ну, об этом я покажу далее уже в блоке с практикой.
10:11
Далее, анализ запросов. А мы сможем посмотреть, какой контент и
10:18
как часто сканируется ботами, какие страницы игнорируются. То есть, например, частая проблема, внесли
10:25
изменения на определённую страницу сайта, а всё это довольно долго как-то
10:32
применяется. То есть вроде отправляем [музыка] э через индексинг апи, а оно всё не
10:38
обновляется, не обновляется, изменений всё нет и нет, то есть здесь э мы сможем посмотреть, как и почему самое главное
10:46
ээ Google бот тот же самый обращается, не обращается к нашей странице, хотя должен. Э, возможно, это зомби страница
10:54
там и, ну, в общем, куча проблем может быть. А выявление технических проблем с
10:59
сайтом, обнаружение редиректов, дублей скрытых страниц, 404 страниц, неработающих скриптов и
11:09
других технически технических проблем. То есть
11:14
Google бот, ну либо другой, либо Яндексбот он может ээ запрашивать
11:20
какие-то скрипты внутри страницы, которые не работают. Это всё тормозит, например, э загрузку сайта. У нас
11:26
страдают core webles, ээ, э, показатели.
11:31
Вот страдает скорость загрузки. То есть, пожалуйста, можно выявить скрипты и какие-то шрифты ненужные,
11:38
которые грузятся, которые много весят и забивают э канал передачи данных. А
11:45
мониторинг после изменений. Что здесь, э, подразумевается?
11:51
Допустим, произведён редизайн сайта и всё посыпалось, например, либо новые
11:57
категории перестали лезть в топ, допустим, в интернет-магазине,
12:02
либо какие-то проблемы с индексацией новых разделов в сайте услуг,
12:07
пожалуйста. То есть после редизайна, после смены CMС это бывает достаточно
12:13
часто. И здесь нам также помогут серверные логи. Борьба со спамом.
12:19
Здесь можно выявить боты, ботов парсеры, которые очень часто посещают
12:26
наш сайт и слишком нагружают сервер. Соответственно, мы можем выявить
12:31
паттерны по юзерагентам и заблокировать их прямо в штаксе, допустим, без применения
12:40
сторонних каких-то сервисов и инструментов. А, ну и оптимизация
12:46
структуры сайта. То есть, допустим, э частая проблема достаточно в тех же самых интернет-магазинах, э, в крупных
12:53
сайтах, в классифайдах. То есть у нас, э, бывают страницы теговые страницы с
12:59
фильтрами, э, и, и структура сайта довольно сильно этим
13:04
может быть перегружена. И более того, вот эти страницы фильтров,
13:10
страницы с тегами, они ещё могут генерить урлы с параметрами, которые мы
13:16
не можем отследить с помощью э спайдера, то есть при
13:21
сканировании сайта совтом. Вот. Соответственно, такие урлы вообще всё это, то есть какие-то PDF-файлы,
13:27
какие-то скрипты, картинки, всё это тратит, может тратить впустую
13:33
краулинговый бюджет. И из-за этого страдает индексация манистраниц, то есть основных страниц, которые должны у нас
13:41
продвигаться. Вот вкратце в принципе вот так. Что нам поможет
Чем поможет анализ логов
13:48
чем нам поможет анализ логов? Он нам поможет определить реальное поведение
13:54
сканирующих ботов. В основном нас интересуют в первую очередь, конечно же, боты э поисковых систем, официальные
14:01
боты. Можно понять, как на самом деле поисковые системы взаимодействуют с нашим контентом, а не полагаться там на
14:08
какие-то данные за короткий промежуток времени или какие-то предположения. А
14:14
можно оптимизировать краулинговый бюджет, то есть ээ
14:19
можно убрать ненужные страницы, скрипты, настроить правильно редиректы
14:24
и направить активность сканирующих ботов на важные страницы и избежать трат
14:30
ресурсов. ээ на ненужный контент. Также нам это поможет выявить скрытые технические проблемы, м которые не видны
14:38
инструментами аналитики и софтом. можно увеличить загрузку сайта, то есть
14:45
определить страниц, которые на которых есть неработающие скрипты, какие-то биты изображения, какой-то мусор в коде, всё
14:52
это вычистить, э, и, соответственно, снизить тем самым, э,
14:58
точнее, увеличить достаточно сильно скорость загрузки сайта. можно найти скрытые страницы, то есть
15:06
страницы с параметрами, их могут сканировать боты, они могут отсутствовать в сайтпе, очевидно, и в
15:12
навигации сайта. То есть такие страницы можно выявить. Либо, опять же, э можно
15:19
найти урлы, которые ээ как бы они должны быть встроены в сила структуру сайта.
15:27
Но, э, по какой-то причине забыли проставить на них, например, ссылку. Вот, то есть такая зомбистраница
15:34
получается. И такие страницы тоже можно спокойно выявить. А отследить можно
15:40
динамику сканирования. То есть это одна из как бы ценнейшая информация, которую
15:45
негде больше получить. Довольно важно, в основном в крупных
15:51
проектах, в средних и в крупных проектах контролировать динамику сканирования
15:56
после внедрения каких-то новых фич, каких-то какого-то дизайна, какого-то
16:01
изменения структуры и так далее, и так далее, чтобы быстро реагировать на возможные проблемы, либо отслеживать,
16:09
что проблем нет и всё у нас хорошо.
Каким софтом анализировать логи сервера?
16:16
Каким софтом можно анализировать логи? Сейчас это разберём.
16:23
Ой, так, э, ну, есть софт платный, есть
16:29
бесплатный, есть даже сервисы. То есть у того же SR есть сервис Lock Analеer, где можно смотреть
16:38
логи и всё это анализировать. А есть инструмент от скриaming FR. Ну, от тех
16:45
же ребят, что делали Screaming Fork Se spider, от агентства от их. То есть, можно этой штукой пользоваться. Стоит
16:52
она что-то там 100 фунтов э в год, вроде, то ли долларов. Вот. То есть
17:00
можно пользоваться им. Вот. А можно пользоваться бесплатной
17:05
утилитой под названием Go Access. А, соответственно, что это
17:11
и на что это и куда это можно всё поставить? Goa Access — это достаточно мощный
17:17
инструмент с открытым исходным кодом, абсолютно абсолютно бесплатный. У меня
17:23
после вебинара про NN спрашивали: «А что делать, если N8N заблокируется в России?
17:31
Так он не заблокируется, у него же на гитхабе открытый исходный код. Что вы там, как это заблокировать-то можно?»
17:36
Вот. То есть Goa Access то же самое. То есть вы ээ пользуетесь эти этой утилитой, и можно не бояться, что как-то
17:43
пропадёт доступ там и что-то ещё такое вот. Он представляет довольно детальную
17:50
статистику, аналитику. Либо прямо в терминале можно всё это отслеживать,
17:55
либо на удобном дашборде. Вот. Ээ давайте подробнее разберём
18:02
фичи, ээ, то, как пользоваться Goa Access.
18:07
Основные характеристики. Ну, технические особенности я здесь привёл. То есть всё это кликабельно. Можно покликать
Основные характеристики GoAccess
18:15
официальный сайт для Windows. Называется
18:20
аналог утилиты, полный аналог — это Caccess. А у меня, кстати, она стоит. Сейчас я покажу, как ей пользоваться.
18:26
Команды абсолютно все те же самые. А, поддерживает форматы логов Engine X и
18:32
Apach. Работает локально, либо на шаротхостинге, либо на выделенном сервере.
18:37
А по режимам работы я уже сказал, то есть либо это консоль, либо статический HTML-тчёт, либо динамический дашборд, то
18:44
есть он тоже в формате HTML-файла, но он обновляется в режиме реального времени. Можно, ну, я
18:50
покажу, как сделать прямо на своём домене его развернуть и смотреть логи.
18:57
Аэ, какие преимущества здесь есть для SEO? Э, в первую очередь это
19:02
визуализация. То есть, если вы не фанат терминала, э то можно всё это спокойно
19:10
визуализировать, удобно и смотреть всё это. А детальная статистика по
19:15
юзерагентам. То есть мы можем взять вообще все краулеры, мы можем взять только определённые списки -э поисковых
19:23
ботов, которые мы хотим эээ проанализировать. А либо там взять только и краулеры, чтобы посмотреть, как
19:30
наш сайт сканирует там чат GPT, там Perplexity там и так далее. Можно на
19:35
дашборде сразу проанализировать коды ответа сервера, можно сразу посмотреть список запрашиваемых страниц, ошибок 404
19:43
там и так далее, и так далее. А, соответственно, можно мониторить самые
19:49
популярные страницы, а можно выявлять аномальную активность. То есть, например, у нас
19:56
в какой-то там из ней ээ пошёл какой-то всплеск. Можно посмотреть, что за бот,
20:01
что за юзерагент, кто это сканировал, э, и чтобы принять потом решение, то есть
20:06
это блокировать, не блокировать, э, и прочее. Соответственно, экспорт данных для
20:13
дальнейшего анализа. Экспорта данных в GoCS вот просто одной кнопкой, его нет.
20:19
Но у нас есть возможность получить анализ логов сервера в формате JSON, а,
20:28
и просто в несколько строчек кода его распарсить и конвертировать информацию
20:36
абсолютно в любой формат, там, CSV, XLS, там, во
20:42
что угодно. Вот, ээ, там вам подойдёт как бы мой вебинар про парсинг сайтов.
20:50
Вот, соответственно, там можно исчерпывающую информацию посмотреть,
20:55
как это делается. Так, э давайте парочку
21:01
команд я здесь, э, прямо в презентацию э презентации разместил.
21:06
Э, вот они. Э, соответственно, ну, сначала где получить эти самые серверные
Где получить серверные логи
21:12
логи? То есть их же откуда-то надо брать. А, и здесь возможно несколько как
21:19
бы вариантов. Ну, в первую очередь, собственный сервер
21:24
на Engine X либо APCH. То есть мы у нас есть полный доступ к серверу. Мы там
21:30
можем делать что угодно, включать, отключать логи, э-э, сохранить их сколько угодно, хоть они там по
21:37
гигабайту весят, неважно. То есть у кого есть собственный сервак, ВПСКА, там
21:43
никаких вообще сложностей с этим нет. А логи хранятся в директориях обычно это
21:49
War Logine X. Это самые популярные директории, ну,
21:54
которые я встречал. А, соответственно, чтобы их посмотреть, нужно доступ через
22:01
SS либо через панель управления серваком, то есть там C-панель там либо
22:06
ещё какая-то. А ша sharстинг. На шархостинге также может быть установлен Goa Access. Я проверял на
22:13
нескольких шарт хостингах, и там он есть. Ну, например, я сегодня буду показывать пример с regгру. Вот на
22:20
regгру там стоит, э, не совсем свежая версия Goa Access. Она двадцать третьего
22:26
года. Вот. Но это всё, этого, этого всего, в принципе, хватит. Обновляется
22:33
он не так часто. Э WordPress можно выгружать логи вообще через админку
22:39
Wordдпресса, через какой-нибудь, ээ, плагин. Вот. И с этим тоже проблем нет.
22:44
А, Cloud Fayer и CDN. Здесь, ээ, всё непросто. То есть, чтобы нам выгрузить
22:50
логи вот в том виде, в котором они должны быть, а нам нужно подключать
22:57
[музыка] корнилище через log push. Соответственно,
23:03
данная фича, она доступна только в бизнес и в enterprise тарифах. Вот. И в
23:09
бесплатном тарифе там ничего не выгрузишь чтобы проанализировать.
23:15
И нам потребуется интеграция ещё с внешним облачным сервисом. Вот. Потому что по-другому никак. Но проекты,
23:21
которые на ээ Клауде либо в каком-то CD,
23:26
там, Акамай, например, а и они большие, ну там ээ заказчик как бы прибегает ээ к
23:33
настройке этой функции, потому что в основном на больших проектах там тарифы платные и интеграция работает. облачные
23:41
платформы, то есть либо это платфор платформа Amazon, там Google Cloud, то есть там нужно отправлять логи через
23:46
специнструменты, то есть это Cloud Watch либо Stackdriver, э вот чтобы
23:53
централизованы все эти логи потом смотреть. Вот. Ну это уже такие ээ, так
24:01
сказать узкие моменты. То есть здесь ну малому количеству, я думаю, зрителей вебинара вообще это понадобится. Вот я
24:08
думаю, те, тот, кому это нужно, они и так сами всё давно анализируют.
24:14
Так, давайте перейдём теперь ээ к основным, ну, не к основным, таким простеньким командам. Как вообще
24:21
посмотреть там логи -э там локально, допустим. Вот, э, это примеры команд в
Примеры команд в GoAccess
24:29
GoCS. Э-э, то есть, ээ, здесь можно с помощью этих команд можно посмотреть,
24:35
э-э, проанализировать конкретного бота, то есть вот в ле в левом прямоугольнике,
24:41
то есть это Google бот, я указал. Вот, соответственно, смотрим записи с Google
24:48
Bot, вхождением в файле Access Log и
24:53
на основе вот этих данных строим дашборд, э, и получаем интерактивный как
24:59
бы анализ. А, и либо генерация ээ HTM,
25:04
ну, то есть здесь в левом, э, примере, который слева, мы смотрим информацию именно в терминале, э, в примере,
25:12
который справа. То есть мы смотрим те же самые записи, выгружаем, точнее, все записи с эюзерагентом,
25:21
в котором встречается Google бот из файла access log. Э и всё это
25:28
добавляем в порт HTML, соответственно. Вот. И смотрим там. Соответственно, Access log — это
25:35
имя файла с, собственно, логами. Report HTML — это выходной файл с дашбордом.
25:43
И команда Log это формат логов, да, для Patch Engine
25:50
X. Соответственно, если у нас какие-то логи нестандартные какие-то там странное
25:57
время, ээ по-другому указаны даты и прочее, и прочее, э то с помощью Goa
26:04
Access нужно настраивать через регулярки, то есть там ээ формат ээ
26:10
анализа логов. Иначе, если LК нестандартный файл access log, то Goa
26:17
Access его просто не сможет проанализировать. А из дополнительных возможностей, ну, там можно документацию
26:22
почитать по Goa Access, по командам именно команд там прилично, вот, но я пользуюсь всего несколькими, их
26:29
достаточно. А там можно фильтровать по датам, по кодам ошибок,
26:35
по мониторингу там только краулеров, а там и прочие, прочие, прочие настройки
26:41
там имеются. Вот. Ну, в принципе, давайте приступать
26:48
к практике. Так, сейчас,
26:53
а сейчас я запущу. Так-с.
27:00
Так, спустил. Тактактак.
27:10
[музыка] Все замерли, затаели дыхание. А, да не, я просто копаюсь в компе.
27:20
И это самое интересное — это как раз практика. Ну, теория тоже классная. Ты всё разложил по полочкам, молодец.
27:26
Академический подход у тебя. Да, спасибо. Так, сейчас, во, так
27:32
получилось. Сейчас просто сейчас логи сохраню сервака, которые у меня были по
27:38
своему по своему сайту. То есть логи реальная, логи с моего сайта. Я просто взял там кусок логов и
27:45
на них прямо сейчас и покажу. Угу. Так, э сейчас
27:52
так вот это откроем. Это
27:58
ой так.
28:06
[музыка]
28:38
Один человек зашёл ещё. плюсом на трансляцию, и мы молчим. А
28:44
что это у меня со звуком, что ли? А, не, всё нормально. Мы тут доклад уже, ну, там пусть сначала посмотрит. А
28:52
там нормально. Не классно. Ты как раз такую нужную тему раскрываешь. У меня когда будут там
28:57
что-нибудь спрашивать по логам, я буду просто давать ссылку на твой вебинар. Ага.
29:03
И на курсе тоже дам ссылочку, потому что, ну, тема действительно классная. А я как-то толковых материалов в последнее
29:09
время в видео о формате по логом не встречал. Есть какие-то устарившие там, ну вот тем более бесплатная утилита вот
29:16
это Go Access, это то, что надо.
29:24
Так, это у нас есть сейчас, сейчас, сейчас, сейчас.
29:39
Так.
30:02
Так.
30:14
Угу.
30:36
[музыка]
30:59
Ага, всё, один файл нашёл. Сейчас.
31:24
[музыка]
31:40
Так тихо, что я даже слышу, как бурлит живот у моей собаки, которая рядом
31:46
лежит. Слуша, всёвсё, я сейчас сейчас включаюсь. Не классно. Иногда паузы тоже нужны.
31:57
Так, так, как расшарить-то? А, надо эту прекратить трансляцию, вот
32:02
эту и вторую начать там. Ну или там на полный экран.
32:09
Так,
32:14
либо можешь прекратить прекратить видео, типа, да? Да. Ну не видео, а вот трансляцию экрана. Нет, не видео. Видео надо нам.
32:21
А трансляцию да трансляцию экрана как бы останови и снова начни и просто выбери полный экран
32:28
и всё. Аare сreн. Угу.
32:33
Так. Статистика.
32:45
Так, ну сейчас расшарю ээ call access терминал.
32:51
Угу. Вот расшарился он там. Так, всё отлично.
32:57
Ага. Ну вот, соответственно, там покрупнее можно что-то сделать? Нет, там, ну, чтобы кто с телефонов смотрит, типа масштаб
Практика — как анализировать логи сервера через CowAxess Terminal
33:04
колесом там с колёсиком. Не крутится. О, сейча сейчас уменьшу сейчас. Красота. Спасибо.
33:10
Вот. Ага. Так. Что у нас здесь в этой команде происходит? То есть мы положили
33:17
в папку COACESS X64 файл под названием Access Log. Вот. И будем смотреть его в
33:24
терминале анализировать. Соответственно, в терминале всё это выглядит
33:33
вот таким образом. Вот так. Сейчас я отмасштабирую. А, хотя, да, классно видно.
33:41
Угу. Так вот, соответственно, здесь что у нас? Как вообще навигацию производить?
33:47
Э, нажимаем Tab, и у нас меняются, соответственно, пункты. Вот это что
33:52
касается терминала, то есть уникальные посетители в день. То есть здесь я взял
33:58
просто рандомные логи с за несколько дней. Вот. И
34:04
здесь они, соответственно, указаны. А-э вот далее сейчас,
34:12
э, какие файлы были запрошены. То есть здесь мы можем видеть, что у нас, а
34:18
запрашивались э- вот эти вот файлы, э какие-то скрипты, э-э, то есть это сайт
34:24
на Wordпрессе, то есть VP Rocket, ээ, манифест JSON запрашивался, VP content,
34:31
э, какие-то плагины там и так далее, и так далее. Вот, то есть здесь можно провалиться полностью и чекнуть вообще,
34:38
что ээ какие файлы у нас ээ запрашивались. Дальше, э, static requests, то есть
34:48
какие были типы запросов, то есть HTP 1.0, HTP 2, то, что 1.0 — это, скорее
34:55
всего, как раз и были боты поисковых систем либо, ээ, каких-то и краулеров
35:03
там и так далее, и так далее. А поисковые боты обращались к страницам и
35:10
не нашли, соответственно, контент, то есть получили ответ 404. То
35:16
есть вот можно видеть, что вот какая-то альфа PHP, то есть страница, получил, бо
35:22
вот получил код ответа 404 simple PHP. То есть это вот всё надо проверять и либо настраивать редиректы,
35:29
э, либо смотреть, что есть ли эти вообще страницы в принципе. Что это? То есть это может быть какой-то
35:34
спам. Может быть это реальные страница, которые есть, и они почему-то дали какой-то ответ 404. То есть здесь надо разбираться. Вот полный список урлов
35:43
здесь также можно э получить. А далее,
35:49
э, посетители по IP, то есть Goa, ну, логи серверны,
35:56
они представляют себе полную информацию о IP-адресах, о местоположении. То есть
36:02
здесь можно посмотреть, откуда чаще всего были запросы. Операционная
36:08
система, то есть это, ну, здесь в перемешку, ээ, в этом файле с логами я не фильтровал. Здесь в перемешку
36:14
показаны все, то есть и пользователи, и поисковые боты. э, какие версии
36:19
устройств, какие, соответственно, операционные системы, вот, и прочее, и
36:26
прочее. То есть, если мы видим какую-то аномалию, например, какая-то старая версия Андроида, а у нас там куча запросов, то надо искать,
36:31
соответственно, откуда данные запросы идут. Возможно, какой-то спам, какой-то, какие-то парсеры, ещё что-то. Это всё можно
36:38
заблокировать. А браузеры, э, то же самое, то есть детальная статистика по браузерам. То
36:44
есть, если какие-то устаревшие сильно версии, то надо это искать. Возможно, кто-то нагуливает ботов, либо ещё что-то
36:51
такое. А время, э, соответственно, 10 в
36:56
терминале очень удобно смотреть распределение запросов по времени, то есть, ээ, дата, время там и так далее,
37:04
сколько было запросов к определённому сайту. Вот, соответственно, э здесь указано, но в терминале это
37:11
смотреть неудобно, лучше в э-э
37:16
в графическом формате. А-а дальше рефы, то есть это здесь указан урол моего
37:21
сайта, ну, одного из сайтов. Соответственно, здесь исчерпывающая информация также
37:29
предоставлена. А и сайты, с которых были переходы, то есть это здесь тоже всё это
37:35
видно. Вот. То есть, если видна опять же какая-то зависимость с аномальной активностью, то, конечно, нужно
37:43
это анализировать и смотреть. О’кей. Это что касается
37:49
терминала. Э, соответственно, здесь ещё есть информация по статусам по
37:55
HTP кодам. То есть вот в основном видно, что, э, 200 ОК, э 206 был код почему-то
38:02
301 редиректа тоже много есть. 404 ошибок тоже много было, а, и несколько
38:10
ошибок 500. То есть, пожалуйста, то есть такую информацию получить больше, в принципе, ниоткуда. Аэ, геолокация, то
38:18
есть можно посмотреть, э, откуда у нас идут запросы, из каких стран там и прочее. То есть, если какие-то, ну, не
38:26
знаю, вот самый ужас для тех, кто продвигает какой-нибудь сайт в Агейнминге — это, э-э,
38:34
когда сайт выходит в топ в Индии, к тебе идёт толпа индусов. То есть этот трафик вообще не монетизируется. То есть, если,
38:40
например, есть какие-то гео, которые не, э, приоритетные вообще, то есть их вот
38:45
можно посмотреть, что у нас идёт заходы э с определённых стран, ээ и если эта
38:51
страна нам в принципе не нужна, то нужно её, ну, можно её заблокировать для пользователей.
38:59
Вот что у нас здесь ещё. А, ну и ASN. Ну, ASN он, э, то есть
39:06
из сети у нас идут заходы. Он плохо определяет Go Access, то есть, ну, может от логов зависит, не знаю, может, от
39:12
хостинга. Вот, э, здесь по у нас такая так себе информация. Вот это, что
39:18
касается ээ терминала Call Access. Это, я повторюсь, это для винды, потому что Goa
39:25
Access можно поставить на Linux, на Window аналог CO Access.
39:31
Вот. А-а, что? Давайте дальше посмотрим логи
39:37
в, э, с виртуального хостинга. Вот, ээ,
39:42
сейчас я расшарю. Давай. Угу. Говори, когда там расшарить. Да.
39:48
Так, сейчас. Так.
39:56
Ага. Всё готово. Так. Э-э, скрин. Так,
40:04
так. Ну, мм,
40:10
а, вкладку хрома. А, во, отлично. А, нет, не получится. Тогда просто весь
40:17
хром, как его выбрать-то? А, ну вот это можно выбрать.
40:22
Тихо, тихо, тихо. Так, всё готово. Угу. Можно расшаривать. Так, как на экране. Аа, вот я зашёл в
Практика — анализ логов на shared хостинге
40:30
хостинг, соответственно, regroom. Вот, пожалуйста, шарк хостинг обычный абсолютно. А я даже не буду заходить
40:37
через там путь по по SSH [музыка]
40:42
на сервак. Я просто открою вот shell Client. Вот. Соответственно, что мы
40:48
можем здесь посмотреть? Здесь у нас есть папки.
40:53
Соответственно, папки какие? Вот мы видим logs, там у нас лежат
40:59
логи, э, в папке www у нас лежат э сайты. А, соответственно, э как вот на
41:07
примере ээ аp менеджера, то есть это система управления вот эта хостингом.
41:13
Давайте посмотрим, э как включить, ээ, чтобы у нас отображались логи. Переходим
41:19
в сайты, а, выберу свой сайт. А дальше пролистываем в самый низ. И
41:26
здесь у нас журнал запросов и журнал ошибок. Соответственно, журнал запросов
41:32
ставим галочку. Журнал ошибок, ну, тоже можно поставить галочку. Я поставил период ротации еженедельно. Вот можно
41:39
там по размеру, можно ежемесячно там и так далее. То есть как угодно. А хранить архивов сколько? Можно 10, можно там
41:46
бесконечно, пока память не заполнится на хостинге. А генератор отчётов есть. Ну, здесь можно здесь он
41:53
либо отключено поставить, либо AV stats. Период доступности логов, когда они
42:00
будут архивироваться, ну, у меня стоит в момент ротации, а язык отчёта русский,
42:06
но это опять же для генератора отчётов. Э, обязательно ставим ограничить доступ к статистике. Вот и я там ставится, в
42:15
общем, пароль, чтобы это другой человек не увидел. Вот, то есть доступ только по паролю. А
42:22
далее, ээ, ну, сжатие каширования, это уже к
42:27
этому не относится. То есть журнал запросов, включаем журнал ошибок, нажимаем сохранить, и всё, у нас, э, всё
42:34
работает. Как этим пользоваться? Э ну можно посмотреть вообще, стоит ли у нас
42:41
Goa Access э на данном сервере, потому что на шархостинге он может, в принципе,
42:47
и не стоять. То есть вводим команду, сейчас я вспомню, по-моему, Go Access
42:54
э-э Version,
42:59
да? Аэ Goa Access у нас стоит версия 181. Это на хостинге Regruру. Вот.
43:07
Соответственно, ээ у нас доступны такие вот аргументы здесь. Ээ, соответственно, и версия 18
43:15
8.1 она, ээ, не особо свежая, то есть в последней
43:21
версии Go Access и Call Access, там есть команды э более интересные. А так
43:30
давайте теперь посмотрим на внутреннюю структуру нашего хостинга. То есть у нас здесь есть папка logs. Давайте перейдём
43:37
в logs. А, и в логах у нас, э, вот они все наши
43:42
файлики. То есть я здесь включил, э, логи по своему сайту,
43:48
э, а Pro. Вот здесь вот есть заархивированные log
43:54
gz gzip, точнее. Вот. Соответственно, ээ,
44:00
кстати, у Go Access есть такая фича. он может, э-э, там есть команда
44:06
специальная, он может вот эти вот логи, э-э, t jz -э распаковать прямо в
44:13
терминале объединить в единый файл, ээ, и дальше построить на основе этого
44:19
дашборд. То есть по некоторым проектам у меня есть логи за несколько лет. И там,
44:27
короче, так на хостинге берёшь, вводишь команду, и пока он распаковывает эти логи, то
44:34
есть можно пойти на пару часов чай попить. Вот. То есть очень долго. И когда распакует, там
44:40
такая пуф, такой дашборд, куча информации по дням. Ну, в общем, вообще
44:46
тема сейчас покажу. А так в логах у нас, соответственно, вот эти файлики
44:52
представлены. Так, давайте перейдём обратно в
44:58
нашу исходную папку, а и, соответственно, э перейдём в www. А
45:06
здесь у нас лежат мои сайты, там домены, поддомены.
45:12
Ээ это файлы моего сайта. Вот перейдём сюда в папку и здесь
45:18
посмотрим файлы. Соответственно, здесь файлы находятся сайты. И здесь же у нас будут дашборды. То есть я заранее
45:24
показываю вот сайт das Dashboard HTML и
45:30
по-моему назывался Bots, да? Bots dashboard. Это два дашборда я сделал
45:36
здесь э с Они доступны, кстати, извне без пароля. Вот. Э, то есть здесь можно
45:44
посмотреть, э, как краулеры э сканировали сайт. Сейчас ещё одну
45:50
покажу, одну фичу. Перейдём обратно. А здесь у нас есть ээ
45:58
файлик, который называется bots list. Сейчас я объясню, зачем он нужен. Так,
46:03
сейчас я посмотрю, как там. А, ээ, Михаил, а там видно вот эту вот табличку.
46:10
Приложение предоставило доступ к сайту. А его скрыть нужно? Что я туплю? Нет, не видно. Могу сейчас пока не
46:17
видно. А, всёвсё. Я просто она перекрывала мне здесь этот обзор, так сказать.
46:24
Короче, есть файлик, называется Bots List. Давайте посмотрим, что там
46:30
представлено. Э там я указал ботов, которых я хочу
46:36
анализировать на дашборде. То есть это Google bot, GPT Bot, Bingbot, Cloudбо,
46:43
Perplexity Bot, Яндексбот,
46:48
Яндекс Mobile Bot. Вот. А, соответственно, здесь можно делать абсолютно любой список. Хочешь там бот
46:56
Твиттера указать, там хочешь там ВКонтакте, там не знаю, что угодно абсолютно. Вот можно различные бо
47:05
различных ботов указывать. И далее, что мы делаем? [музыка]
47:12
Ой, сейчас нет. Дальше
47:17
что мы будем с этим списком делать? Мы задали список собственных ботов. А
47:23
дальше мы берём логи, э, из папки logs.
47:30
Вот мы берём вот эти вот логи, э, соответственно, и, ээ, создаём отдельный
47:39
файл с строчками, э, в которых, ээ, которые будут
47:45
отфильтрованы в соответствии списком ботов из bots. элист.
47:53
Соответственно, всё, что все вхождения там вот юзерагентов в bots list, э, они
48:00
будут найдены вот в этом файле, э, и
48:05
дальше перемещены в новый, э, файл, а потом на основе этого нового файла мы
48:11
уже сделаем, а, дашборд. Вот, соответственно, э,
48:17
чтобы все эти манипуляции производить, вам необходимо знать, ээ, полный путь ээ
48:24
к этим папкам, то есть к папке LOКС, к папке ВВ, там, где лежат домены. Вот. Э-
48:32
соответственно, как узнать, ээ, полный адрес на вашем конкретном сервере, а к
48:38
конкретной ээ папке одной простой командой? Набираем три буквы PWD.
48:47
Вот. И мы получаем, э, полный, э, путь к папке LOКS, которая указана на сервере.
48:54
И дальше мы этот ээ путь будем использовать в наших командах. Ну,
48:59
давайте сделаем как раз файл только с ботами, которые я указал.
49:07
Такой командой делается, то можно на паузу поставить посмотреть
49:12
или я могу Михаилу скинуть, а он разместит в описании к видео там. Да, да, отлично. Спасибо.
49:18
Вот можно и так. Так. Нажимаем Enter. Всё готово. А теперь мы запускаем Goa
49:24
Access на отфильтрованный файл. Вот такой командой это делается.
49:33
Соответственно, у нас босс Дашборд называется.
49:39
Ой, здесь ошибка у меня. Э, здесь не
49:44
нужно этот формат даты времени.
49:50
Э, сейчас, сейчас я всё это удалю. Не совсем удобно в шел. Лучше, конечно,
49:59
в путь всё это делать. Сейчас я размещу это корректно.
50:07
Всё готово. А так вкладка А там браузер полностью шарится.
50:14
Да, да, дэшборд видим. Так, а дашборд есть. Сейчас обновляю. Всё, дашборд вот сегодня дата 1751. Вот,
50:23
э, 2025 0923, а сегодня у нас получается вторник. То есть у нас сегодня данные,
50:29
так как у меня раз в неделю происходит ротация логов, у меня ээ пока из недели
50:35
прошло 2 дня. Вот, э, соответственно у меня данные вот за это время.
50:43
Так, причём с получается с воскресенья, то есть он там ротация воскресенья
50:48
происходит, получается воскресенье, понедельника, чуть-чуть вторника.
50:54
Это дашборд, который построил Goa Access. Соответственно, что здесь есть? Во-первых, здесь всё на русском языке,
51:00
не надо париться. Открываем. Здесь панелька, менюшка, а-а,
51:06
проанализированные запросы, уникальные посетители. Короче, всё это можно покликать. Вот так всё визуализировано.
51:12
Соответственно, смотрим, например, э информация. Информация здесь
51:18
представлена только по тем ботам, а которые у меня указаны были в файле bots
51:26
list. Вот, э, информации по пользователям в данном дашборде нет. То
51:33
есть это вот 81 запрос- это чисто от сканирующих ботов. А я указал, ну,
51:39
сделал так, чтобы они здесь вывелись. А запрошенные файлы, то есть в основном это главная страница, видно, видно, что
51:45
к сайтмапу было два запроса. А вот к этому контенту на моём сайте,
51:51
пожалуйста. А, соответственно, в основном были обращения к
51:59
разделам к статьям, которые представлены на сайте. Всего было, получается, 27
52:05
страниц. А статический запрос, соответственно, HTTP 1.0 у нас 12 хитов.
52:14
А это, скорее всего, какие-то боты поисковых систем, скорее всего.
52:21
Вот, э, HTTP2, скорее всего, кто-то пытался рендерить
52:27
ээ сайт, то есть перед этим он залез в Robots TXT. Рендерят обычно как раз вот
52:33
чата GPT, Perplexity и прочее. То есть они рендерят полностью с JS джаваскриптом страницу и,
52:39
соответственно, э смотрят контент. А урлы, которые при посещении ботов отдали
52:46
страниц 404, пожалуйста. Вот эти вот страницы, вот они откуда-то генерируются. Э, то есть какие-то
52:53
задвоенные урлы. Я вижу здесь вот опять задвоенный урл. Ещё один, э, какой-то
52:59
медиа плагин с ээ prefetching, э, тоже 404 какой-то скрипт
53:06
отдал 404 ответ. То есть вот это вот всё надо посмотреть, откуда всё это генерится. Э, скорее, ну, я подозреваю,
53:13
что это проблемы в админке в админке сайта, э, потому что там
53:20
шаблон чуть по-кривому работает. А имена хостов и IP-посетителей. То есть можно посмотреть айпишники, не было ли
53:28
каких-то всплесков. Здесь можно видеть, что в принципе всплесков не было. То есть
53:34
э хиты там семьше, то есть в принципе распределение равномерное идёт. Вот. То
53:40
есть какого-то спамного айпишника здесь не обнаруживается. А операционные системы, ну, нас это не
53:47
интересует, потому что Goa Access определил их как CRWERS. Вот, соответственно, 39 раз Яндексбот 3.0
53:55
посетил мой сайт, 26 раз Google Bot, 11 раз GPT бо и Bingbot пять раз. А
54:04
браузеры, э, ну, тоже Craers, то есть здесь не будет никакой информации, это всё краулеры. Аа дальше распределение по
54:11
времени, то, как боты, а-э, ну, сканировали сайт, в какие промежутки
54:18
времени. То есть я вижу здесь, что, э, в 3, в 4:00 утра вот были всплески. Дальше
54:24
в течение в течение дня они как бы такие равномерные. Причём я замечал, что вот,
54:30
я не знаю, может, это только по моим сайтам, а у меня обычно всплески идут как раз вот ээ ну по московскому времени
54:37
4:00 утра получается. Вот. То есть если этот ээ часовой пояс +3, ээ точе
54:44
почему-то ночью вот под утро, а потом в течение дня равномерно. Вот я такую тенденцию довольно часто замечал. Э,
54:52
так, ну, ссылающийся сайты здесь, соответственно, только мой будет. А код
54:58
ответов HTTP, э, количество успешных, пожалуйста, запрос клиента выполнен
55:03
успешно 56, ошибка, э, соответственно, э
55:09

То есть из них 11 — это connection closed by client while processing request. И запрошенный ресурс не найден.
55:17
То есть ошибка 404, то есть 499 404. А и
55:22
редиректы, э, тридцать первый директ. Ну, у меня есть тут редиректы, то есть ну ожидаемо, в принципе. А
55:29
географическое расположение, ну, по краулерам нас это мало интересует. В любом случае, это будет в основном
55:37
Россия и дальше серваки Гугла, то есть это Германия, ну, и Северная Америка, то
55:42
есть Google бот обычно оттуда ходит. ISN нас, в принципе, не интересует. А
55:50
что можно сделать с этим отчётом? Его спокойно можно сохранить как HTML-файлик, либо скачать прямо из
55:56
админки, вот зайти в менеджер файлов и вынуть его оттуда, а, и локально
56:02
полностью распарсить прямо вот этот вот HTML с помощью Пайthна, с помощью Beautiful
56:08
Sub, э, просто изи. Вот. То есть это дело, ну, где-то на минут 40 там от 40
56:15
там до 1 часа. Вот. Ээ, соответственно, э либо сделать выгрузку в JSON, то есть
56:22
там есть специальная команда в Go Access документации, как в JSON, а всё это сделать и, ээ, посмотреть. Так, а
56:31
давайте ещё один э пример э-э
56:37
ещё один пример команды покажу. Так, сейчас здесь Ctrl C нажмём. Вот ещё
56:43
один пример. Посмотрим всех ботов, которых
56:50
Goa Access определил к Craers Only. Соответственно, у нас есть параметр,
56:57
который называется Crawlers Only. Вот. Вот он здесь. Я его сейчас выделю. Вот
57:04
так он называется. А, соответственно, э,
57:10
что мы здесь будем смотреть? Мы будем смотреть основные логи моего сайта.
57:15
Построим дашборд, который будет обновляться в реальном времени в формате э HTML, и там будут представлены только
57:22
краулеры. Вот. Погнали. Так, э здесь будет уже, ээ, URL сайт dashboard. HTML,
57:31
которую я указал, э, как раз, ээ, вот здесь. То есть название файла, оно
57:37
кастомное, можно там 123.html и вот так вот. Причём мы можем выделить
57:44
какой-то, э, домен, допустим, э,
57:50
служебный, да, то есть выделить домен служебный, э, например, там, э,
57:56
logs.acakulov.pro Pro и сделать, чтобы он был доступен только с определённых IP-адресов. Вот.
58:03
И, соответственно, туда настроить, чтобы у нас там был интерактивный дашборд и всё будет работать. То есть в этом плане
58:11
полная свобода. То есть можно делать на любой домен, э дашборд выводить на
58:16
служебный, там под домен там и так далее. А давайте посмотрим, что у нас имеется э здесь. А здесь у нас куча
58:25
всякой информации. Ну, в принципе, она та же самая. Просто я показал, как сделать немудрёно
58:32
с указанием определённых юзерагентов, да? А а сделать, чтобы это просто
58:39
проанализировал сам Goa Access краулеров и вывел нам, э, информацию.
58:45
Соответственно, запросов у нас здесь гораздо больше. А опять же видно, какие файлы, то бишь
58:53
урлы были запрошены. Вот урлов здесь достаточно много. Вот статические
59:01
запросы, опять же видно распределение, что где запрашивалось. А ошибки 404, пожалуйста. Вот полный
59:08
перечень ошибок 404. Это всё можно распарсить. А и, ну, если их мало, в принципе, не надо
59:15
ничего парсить. Просто посмотрел просто и всё вручную. Если их ээ очень много,
59:21
то есть какой-то большой там сайт, конечно, это надо всё парсить, чтобы не тратить время на всё на это. А имена
59:28
хостовпосетителей, но это нас мало интересует операционная система. Здесь у нас Craers only, то есть можно видеть,
59:33
что а у нас здесь помимо Яндексбота, Google бота, Яндекс, э, кстати, вот бот,
59:40
который рендерит, заходил, э, получается 24 раза.
59:45
У нас здесь есть куча разных других ботов. То есть там Apple бот, пожалуйста, это от Apple. От нельзя
59:52
грамма заходил бот. Dot бот какой-то кибер
59:57
инспект какой-то. Dagdag go Twitter бот. Яндек images, пожалуйста,
1:00:04
яндекс F Weakons какой-то бот. Ну это кто-то меня парсить пытался на Пайthне.
1:00:11
Вот это тоже парсер. Amazоon бот заходил зачем-то. Непонятно
1:00:16
зачем. Но это всё опять же единичные. То есть здесь вот если это единичные заходы каких-то левых ботов,
1:00:22
э смысл их блокировать? То есть, ну как бы это ни о чём. Если конечно, что там будут тысячи заходов, то здесь, конечно,
1:00:29
да. А браузеры? Ну, тут опять же ничего нет, потому что это всё вот, кстати,
1:00:35
Симраж ко мне заходил. Всякие
1:00:40
Во, опять. А, ну это то же самое, в принципе. А так, э, распределение по
1:00:46
времени, опять же, видно, всплеск 4 3-4 утра вот начинается всплеск почему-то
1:00:51
ночью и дальше вот количество хитов. Аэ, ссылающий сайт, надеюсь, только мой сайт
1:00:57
будет. А опять же ошибки можно посмотреть, успешные, неуспешные, сколько было перенаправлений
1:01:04
страны. Так, и ну в принципе и всё. Вот, то есть информация, ээ, наглядная. Вот.
1:01:12
Кстати, вот отчёт обновляется в реальное время, то есть я страницу обновляю, вот он сформирован 1759,
1:01:19
аэ, через несколько минут он опять обновится. Вот. И вот так вот можно наблюдать в реальном времени за за
1:01:26
каким-то сайтом. То есть, например, сайты, на которых, э, поселился быстро бот от Яндекса, от Гугла, э там где
1:01:33
страницу, например, добавляешь ээ на сайт, она через несколько часов в индексе или через несколько там минут в
1:01:40
индексе. То есть такие сайты тоже ээ имеются. И, э, бывают такие вопросы:
1:01:48
почему ну разместил какой-то контент, а он
1:01:53
не в индекс моментально не попал? Смотришь, а заходов э
1:01:58
бота на страницу нет. Э и дальше уже надо разбираться, в чём дело. Вот, в
1:02:04
общем, такие интерактивные, красивые отчёты. Здесь можно делать кучу настроек, то есть там, э, в панели там
1:02:10
какая тема будет. Ну, это уже такая вкусовщина, там светлая, не светлая, там тёмно-синяя, тёмно-фиолетовая.
1:02:17
Сколько параметров представлено там на странице, там, э, расположение
1:02:23
горизонтальное, там вертикальное, какое хотите. Вот всё это можно отдельно выводить и за всем этим, а, наблюдать.
1:02:32
Вот, соответственно, мм, команды, которые я использовал тогда, будут в описании к видео. Также помогут
1:02:40
команды, которые есть в официальном э руководстве. А также рекомендую
1:02:45
пользоваться чатом GPT либо там спросить Перплексити. То есть можно сказать вот
1:02:50
Перплексиity, смотри. Значит, путь э к моему к моим логам, допустим,
1:02:58
да, вот такой. А я хочу выводить дашборд по вот такому-то домену с
1:03:05
таким-то названием. Хочу выводить только краулеры. Сделай мне команду для Goa
1:03:11
Access, чтобы, ну, всё работало. Вот такие-то мои параметры. И чат GPT
1:03:18
всё это сделает. Ээ дальше нужно будет это просто разместить в терминале и
1:03:24
дальше уже анализировать на конкретных, э, сайтах, на конкретных э проектах. Вот
1:03:31
это что касается небольшой, так сказать, практики. Вот. Так, можно презентацию ещё раз
1:03:39
вывести. Угу. На экране. Вот. Соответственно, здесь команды тоже
Продолжение доклада
1:03:44
можно эти попробовать, но мне больше нравится через фильтрация логов через
1:03:50
файлик bots.list. Опять же, это условное название bots.list. Можно назвать его
1:03:56
там useragents.list list, там как угодно. То есть здесь нету какой-то строгой строгих правил. Вот. А
1:04:04
дальше использовать, э, можно команды и смотреть, в каком формате удобней всё
1:04:10
это получать. Либо, может, вам дашборды вообще не нужны, выгружаете в Jсоквально
1:04:17
можно, буквально можно на вайп-кодить в течение часа опять же какой-нибудь
1:04:25
клод Sonet может всё это сделать, ээ распарсить всё это и ээ прямо в Экcле
1:04:31
уже получить данные страницы с резиктами, с 40 ошибками и прочее, и
1:04:37
прочее. Вот на этом у меня, в принципе, всё. Спасибо за внимание.
1:04:43
Подписывайтесь на мою телегу. Вот. И успехов с проектами, с трафиком.
1:04:51
Угу. Артём, большое спасибо. Ты профессор так классно и доходчивый, наглядно всё показал и рассказал. Я тоже
1:04:58
пользуюсь гоцесом несколько лет и отлична эта штука. Она, знаешь, по функционалу какая как будто какая-то
1:05:04
крутая платная софтина, да, такая вот прямо молодцы, да? То есть и очень
1:05:11
несложный синтаксис, не надо там что-то копаться и простая э
1:05:17
ээ простая документация понятная. Вот на сервак там с Линуксом ставится там в одну команду опять же, а чтобы поставить
1:05:25
на винду, качается просто архив, запускается батник и всё. И всё
1:05:30
работает. Угу. Вот. Да. Разработчикам респект. Молодцы. Да, однозначно,
1:05:37
конечно. Есть вопросы. Вот ник затрудняюсь там GGB BKS, если правильно
Ответы на вопросы
1:05:43
читаю. А если часто видим пятисотые ошибки на сайте в записях логов, сигнал ли это,
1:05:49
что пора переезжать на сервер помощнее или могут быть другие причины, по которым сервис не справляется с
1:05:55
запросами? Могу может быть причина в базе данных. То есть не успевает обрабатывать запросы
1:06:02
сервак, но в любом случае это сервер, то есть не хватает мощности. Вот. То есть, если вы сами заходите на сайт и он
1:06:10
постоянно доступен, это не значит, что он для всех доступен. То есть, например, Google бот может начать ломиться по
1:06:17
разным ссылкам э в каждый момент времени. А, а, ну и рендерить может
1:06:23
тоже, э, а страницы, ну, не успевают так быстро загрузиться, либо
1:06:28
сервак просто отдаёт 500 и всё. То есть здесь очень часто в интернет-магазинах,
1:06:34
очень часто на сайтах с динамическим контентом. Вот. То есть здесь, э,
1:06:41
помощнее нужно, э, сервачок какой-нибудь, ну, тариф побольше побольше выставить. Вот можно
1:06:48
ещё настроить ээ ну через сафтину опять же проверка
1:06:54
внешней доступности сервера. Вот. И потом запроси, потом получить
1:06:59
статистику. То есть там пингуется, соответственно, сайт, если пропадает доступ, ээ, всё это
1:07:07
будет записано. Вот. И, ну, например, это pпиingdom, то есть можно в этом
1:07:12
сервисе смотреть. Вот если сайт часто недоступен, то
1:07:18
это плохо, потому что это напрямую отражается на качестве и
1:07:23
скорости индексирования страниц. Если Google бот или любой или Яндексбот видит, что сайт периодически недоступен,
1:07:30
он не может получить контент, он может начать реже заходить. Вот. А а это уже
1:07:35
проблема. Вот. Поэтому надо решать. Угу. Вот. Спасибо. Георгий Шилов задаёт вопрос:
1:07:42
«Как выявить зомби-страницы с помощью логов?» Как выявить ну, зомби-страницы — это те
1:07:48
страницы, на которые э не ссылается никто. Соответственно, мы смотрим
1:07:54
страницы, которые к которым обращался Google бот,
1:08:00
допустим, да. И, соответственно, дальше можем
1:08:05
сопоставить данные с лягушкой либо вручную проверить, есть ли ссылки на эти
1:08:12
страницы. Вот. Либо мы знаем, что страница, э, должна ээ ранжироваться, то
1:08:18
есть она это мани страница, это не просто какая-то служебная, а она долго не заходит, да? Не то что не
1:08:24
ранжируется, она в Индекс не заходит почему-то. Вот. А Google бот ээ на неё
1:08:30
может заходить, кстати, если она есть в сайтпе, например. Угу. Либо внешние ссылки. То есть может быть
1:08:36
внешняя ссылка, а внутренней нет. Вот. Либо может может быть ээ и внутренней
1:08:41
нет, и внешней ссылки нет. Вот надо разбираться.
1:08:47
Goa access в плане экспорта нет функционала, то есть надо выгружать,
1:08:54
парсить, ну, распарсить либо вручную проверять. Вот так. Нету, нельзя выгрузить.
1:08:59
Сделали бы там платный какой-то плагинчик, да, чтобы по одной кнопке. Ну, ну там как бы они намекают, что вы
1:09:07
выгружайте в Gsony и парсите сами, что вам надо. Вот. А, а вот в дашборде кнопку нажать,
1:09:13
типа там выгрузить, вот её не существует ни в ка, ну, может дальше будет. А идеального ничего нет, да,
1:09:19
поэтому вот Ну да. Alex Se marкетинг задаёт вопрос не по теме. Отмена поддержки 100 результатов
1:09:26
на странице в Гугле в выдаче на днях как раз было. А кто кто-то что-то придумал? Мы кастомный rankнктрекер пишем вместо
1:09:33
топфра. Вот ты как решил этот вопрос или ещё не решил? Ну, проекты, которые под
1:09:38
Google, они у меня трекаются в хресе, и
1:09:43
я никак не решал. Там позиции автоматом снимаются просто и всё.
1:09:49
Угу. Вот. Да, никак. Ну, как в Яндексе, то есть несколько, получается, надо несколько запросов сделать. То есть если
1:09:56
до топ- 100 надо 10 запросов сделать, а они все платные,
1:10:02
да? Поэтому растёт стоимость, как и в Яндексе, то есть достаточно дорого получается.
1:10:07
Угу. Как ты думаешь, зачем Google это сделал, чтобы А, ну
1:10:13
сервисом прекратить массовый парсинг или как помешать?
1:10:18
Ну да, ну у Гугла же, если вот так брать, да,
1:10:23
ээ в рамках всего интернета, да, то есть ну сколько там снимают позиций в мире
1:10:30
именно, да, вот по под Google, ну то есть, ну там, наверное,
1:10:35
десятки тысяч специалистов во всём мире. Угу. Вот. А может, сотни, фиг его знает, сколько индусов там снимает ежедневно
1:10:42
позиции там, неизвестно. Вот. Конечно, если граничить вот так, то
1:10:49
нагрузка поменьше будет. А нагрузка для Гугла это опять же там даже на несколько
1:10:54
процентов снизил. Это уже электроэнергия, количество серваков и
1:10:59
там по цепочке вот так, вот так и огромные деньги экономятся. Вот и всё. Тем более, опять же, им может
1:11:06
мощности нужны для эишки, для вот этих ответов нейронки. То есть, может, они на
1:11:14
это хотят мощности перекинуть, потому что она тоже, ну, прилично ресурсов-то
1:11:19
забирает. Для каждого пользователя ответ вывести, сгенерить. Это всё, это всё там есть, э,
1:11:26
как-то стоимость запроса в Гугле. Вот, наверное, она выросла после и ответов,
1:11:32
да? А если вот так разобраться, Google — это же огромный парсер на максималках, и
1:11:37
он не даёт парсить результаты своего парсинга.
1:11:43
Ну да, потому что надо ещё я это обрабатывать. То есть мало того, что всех надо спарсить, так ещё и надо, чтобы тебя не
1:11:50
парсили. А мне друг из Google, который там руководитель команды лингвистов в Нью-Йорке работает, с которым мы 4 года
1:11:57
в Америке прожили, он как-то мне сказал, у них начали обучение, когда он только туда пришёл, с того, что, ну, как бы
1:12:04
изложили им главную миссию Google, какая у них главная миссия, оказывается, это
1:12:10
собрать максимально всю возможную информацию и максимально на этом заработать как можно больше.
1:12:17
Всё складывается вот исходя из этой миссии прямо. А ну а зачем это всё тогда? Ну какой смысл?
1:12:23
Да, естественно. Google зарабатывает на рекламе, очевидно, да. Георгий Шилов вот пишет: «Зачем
1:12:29
писать кастом, если всё давно есть в апарсере?» Так что Да. А, ну яром не пользуюсь, поэтому я нашёл
1:12:37
утилиту для Goa Access называется, и поэтому, ну, он имеет в виду,
1:12:43
что вот эти сотку эту результатов, а, арсером позиции, ну, тоже можно, да,
1:12:49
я уверен, что и логи, наверное, можно апарсером как-то дать ему, да, там всё, что есть в интернете,
1:12:54
апарсе, это точно, наверно. Ну да, да, просто проблема апарсера в том, что он сам платный,
1:13:00
вроде как. Да, он платный там. Вот. И обновление вроде за отдельную денежку.
1:13:06
А как бы нет, там есть вечная лицензия. Я себе сразу вечная пользуюсь. Ага.
1:13:12
А, ну отлично тогда. Так, и вот вопрос от Алексе маркетинга.
1:13:18
Артём, логи можно на любом своём сайте посмотреть, на Amazon, Cloud Fayer и прочем.
1:13:24
А я про это говорил. Там в начале можно отмотать, э, на клауде, там через кпуш
1:13:31
надо делать, то есть он доступен только на платных тарифах, то есть это бизнес и entтерprise. Вот. А если это Amazon, то
1:13:40
через внешнее хранилище нужно выгружать. Вот тоже можно настроить. Вот там в
1:13:46
документации это всё есть. Вот я про это говорил в предыдущих слайдах. Там, если отмотать на там полчаса назад, наверное,
1:13:54
вот можно посмотреть. У, а вопрос такой часто встречается в
1:14:00
интернете, как по логам определить проблемы с краулинговым бюджетом? Например, какой-то раздел сайта плохо
1:14:07
сканируется или какой-то скрипт зависает на определённом шаблоне в каких-то
1:14:13
страницах, и из-за этого они выпадают из индекса. И вот как это можно отследить,
1:14:18
например, с этим решением? вот Goa Access или другими путями. Ну там ээ отслеживается таким образом.
1:14:25
То есть видно, что ээ Google бот, например, он ээ постоянно заходит на
1:14:31
одни и те же либо на одну и ту же страницу очень часто, а другие страницы он почему-то не
1:14:38
посещает практически. Вот. То есть надо брать детально эту страницу, смотреть, что там, что не грузится, какие элементы
1:14:46
есть, ээ, и прочее, и прочее. То есть могут скрыться какие-то, э, проблемы
1:14:51
вот, которые нужно устранить. А либо на этой странице почему-то не рендерится
1:14:58
Google боту внутренние ссылки. Он не может перейти вот просто на внутренние
1:15:04
страницы сайта. Вот. То есть надо детально анализировать уже, почему вот это происходит. А проблема с
1:15:10
краулинговым бюджетом, то есть вы добавляете страницу, например, какую-то на сайт новую, она ээ залетела в индекс э либо долго не
1:15:20
залетает в индекс и ээ ну не начинает ранжироваться. То есть её она не
1:15:26
появляется в топе, там 20, 30, 50, там в топ-10. Вот. Э, и если мы изменяем
1:15:32
контент, например, какой-то, э, изменяем какие-то там скрипты какие-то, ну, например, там был была вставка с видео с
1:15:41
Ютуба, а стала вставка видео с ВКонтакте, а мы заходим и видим, что по логам э Google бот обращается до сих пор
1:15:48
ээ почему-то к, ну, к видосу с Ютуба, то есть там идут
1:15:54
загрузки внешних скриптов. Вот. То есть есть какая-то проблема, то есть её надо, то есть там очистить. Ээ может проблема
1:16:01
в кэше быть, э, куча проблем всяких может быть внутренних. Вот это всё нужно анализировать детально.
1:16:07
Вот. А с королинговым бюджетом проблемы? Ну не плохо индексируется сайт, долго
1:16:13
индексируется, ээ очень долго проходит проходит времени ээ до применения
1:16:19
каких-то изменений. То есть изменили страницу. Очень долго это всё происходит. Вот. То есть надо смотреть, где
1:16:27
стопорится, почему стопорится Google бот, что ему мешает, что не загружается. По логам это всё можно посмотреть. Ээ
1:16:34
возможно какой-то скрипт нерабочий, какие-то там шрифты какие-то мусорные
1:16:39
либо ещё что-то. То есть надо смотреть. Спасибо. Алекс Нова задаёт вопрос.
1:16:46
Артём, спасибо за вебинар. Вопрос по поведенческим факторам. После чистки в июне Яндекс предлагает за деньги
1:16:52
установить их браузер и поиск. Как думаете, это попытка улучшить качество трафика в директе после чистки?
1:17:00
Ээ нет. Э-э я слышал, что в каких-то приложениях, то
1:17:06
есть там или в каких-то приложениях банков там какие-то партнёрки, типа установи Яндекс браузер, а получишь
1:17:13
что-то там 300 руб. что ли на счёт. Вот. Ээ, это не попытка улучшить там что-то,
1:17:20
нет, это элемент как бы, так сказать, внутренней цензуры. Вот. То есть и, э,
1:17:28
чтобы все пользовались Яндексом, чтобы как можно меньше людей пользовались Google. Google в Рунете почему-то до сих
1:17:35
пор не блокируют. Вот. А хотя сейчас есть такая практика, как белые списки
1:17:41
сайтов, где Яндекс э- работает. Вот при
1:17:46
блокировках мобильного интернета, вот я думаю, это вот как раз в сторону
1:17:53
как бы ограничение свободы интернета. Вот. То есть чтобы как можно больше юзеров поставило
1:18:00
поиск Яндекса себе по умолчанию. Ну, Яндексбраузер заодно. Вот.
1:18:06
Лично я не пользуюсь Яндексбраузером. Он слишком
1:18:11
много информации хочет от моих устройств. которыми я пользуюсь. Вот. И
1:18:17
мне неизвестно, да, он там какую-то информацию странную
1:18:22
собирает, которую я не хочу, в принципе, передавать. Вот поэтому я им не пользуюсь. С с ПФ- это никак не связано.
1:18:29
Яндексу глубоко плевать на ПФ, тем более, ну, улучшать какой-то директ. А
1:18:35
зачем его улучшать? Э у тебя есть какие-то альтернативы, где контекстную рекламу купить. В директе можно делать
1:18:42
что угодно, клики по 8.000 тысяч там, ээ, и прочее, и прочее. Личный кабинет там
1:18:48
как угодно упрощать, делать меньше настроек доступных. Вот, э,
1:18:56
альтернативы нет, куда ты пойдёшь? Google рекламы нет, но ещё её не будет
1:19:01
очень долго. Вот. То есть вот так. Монополия — это зло. То есть с
1:19:07
директом это я не думаю, что с директом и с пф как-то связано. На пфом вообще всё равно. Вот. То есть, ээ,
1:19:15
ээ, никаких практически шагов для,
1:19:20
ну, кроме там какой-то копчи новой и ошибок 429. Ну, это вообще несерьёзно.
1:19:27
Вот. То есть, спасибо. А вот вопрос такой: как пологам определить,
1:19:34
действительно ли нужно переходить на другой тариф? А ситуация бывает такая, что берут какой-нибудь новичок,
1:19:41
вебмастер, владелец сайта, и у них на шаритхостинге нет панельки, которая показывает нагрузку на их часть вот эту
1:19:49
хостинга выделенную. И хостер бывает пишет недобросовестный, с сайтом всё нормально, там 50 человек в
1:19:55
сутки ходит, а хостер пишет: «У вас тут сайт создаёт излишнюю нагрузку, и вот,
1:20:01
будьте добры, перейдите, пожалуйста, на более дорогой тариф». Вот на твой взгляд, слогами можно каким-либо образом
1:20:08
определить, действительно ли есть такая нагрузка или нет? Вот как ты считаешь? Ээ можно определить. То есть если очень
1:20:16
много ошибок 500, то есть их, например, кратно больше, чем код ответа 200, допустим.
1:20:22
Угу. Вот. То есть особенно если это краулеры. Вот. То есть, если мы видим, что очень
1:20:28
много ошибок 500, когда боты поисковых систем обращаются к сайту, действительно, с хостингом может быть
1:20:34
что-то не так. А, но я не не по не помню, что за хостинг. Ээ,
1:20:40
ну, какой-то он такой, то есть это не регру. Регру так не делает, например, там, не знаю, не бегет там какой-нибудь,
1:20:47
не тайм. То есть я у них такого не встречал. Вот. Но я помню, что есть такие хостинги.
1:20:52
Я сам на такой попадался, когда новичок был там в седьмом году. первые сайты запускал и вот
1:20:57
не буду этих антирекламить хостеров, но вот один писал хостер, что вот так вот, а потом мне знающие люди объяснили, что
1:21:04
на самом деле тебя просто как лопуха там развели и больше на другой тариф,
1:21:11
да? Да. Да. То есть там, не знаю, у тебя там 10 хостов в день, а тебе говорят на другой тариф переходить. Ну бредятина.
1:21:17
Вот. Ээ может быть, надо смотреть ошибки 500 в основном. Вот. То есть если их
1:21:23
очень много Ну да. скорее всего, требуется. Ээ, ну, опять же повторюсь, в
1:21:29
крупных каких-то хостинговых конторах м такого практически нет.
1:21:34
Угу. То есть, ну, каких-то менее крупных есть, наверное. Угу.
1:21:41
А вопрос от Нисмуглова. А как результаты анализа серверных логов могут а будут
1:21:47
сопоставляться с данными из Google Search консоли и карт сайта для приоритизации задач?
1:21:54
[музыка] карт, в смысле карт сайта, сайтмапы, что ли, да?
1:22:00
И сайтмапы выгрузки с Google Search консоли и вот логи. Да, нормально будет.
1:22:05
Ну нене, опять же в Search-консоли очень ограниченное количество ээ
1:22:13
ээ данных за ограниченный промежуток времени. Вот, соответственно, логи
1:22:18
серверные, которые есть у вас по сайту, это самая полная информация. Какой смысл
1:22:23
её search консолью сопоставлять? А сопоставлять с сайтмапами очень просто. То есть опять же выгружаем, ну, то есть
1:22:31
надо либо вручную это взять эти урлы, которые посещались там Google ботом,
1:22:36
например. Вот. И у нас есть все урлы из саймапа. Опять же, это можно в том же
1:22:43
самом даже можно без парсинга в Пайthне. Можно ээ в чат GPT скинуть карту сайта,
1:22:50
скинуть вот этот вот э данные ээ в Джейсоне с серверными логами и попросить
1:22:57
чат GPT составь мне список э урлов, которые не посещал Google бот.
1:23:03
Угу. Можно вот так сделать. Сейчас красота. Слушай, вообще с нейросетями вот и не париться, да, но чат GPT бывает
1:23:11
косячи, что он бывает не все данные предоставляет, либо немножко их искажает, поэтому
1:23:16
надо клода и ещё куда-нибудь там перплекс языки. Ну да, но самое надёжное — это вот
1:23:22
просто распарсить и поставить урлы с ну в Пайthне, да, на вейбкодеть, так
1:23:27
сказать, вот и сопоставить урлы и получить готовый список урлов, которые не посещал Google бот. Вот. И всё. Можно
1:23:37
вот так. Спасибо за класс. Если просто сайт, если сайт очень большой, гигантский, да, там, например,
1:23:42
200.000 страниц, ну, тут уже я не рекомендовал бы в чат GPT это скидывать. То есть он может
1:23:50
напридумывать очень много. Да. Вопрос от Владимира. Как бороться с
1:23:55
плохими ботами, краулером и с накруткой ПФ? А это есть у меня с Михаилом отдельный
1:24:03
вебинар. Под видео уже есть даже, да, ссылка есть. И там просто мотаете, я
1:24:08
не знаю, есть там тайм-коды или нет, перематываете. Ну, тем более по тайм-кодам можете найти блокировка
1:24:15
вредоносного трафика, там блокировка ботов. Э-э, и всё, чтобы забанить, э-э,
1:24:21
левых краулеров там и ботов по юзерагентам, а, достаточно несколько
1:24:27
строчек, эээ, в Штате акссе указать. У меня ещё там был файл с 400 правилами,
1:24:35
там 400 правил блокировки мусорных ботов. То есть там ссылки в описании к видео есть, там по
1:24:42
покликайте. Должно всё быть. Угу. Я даже делал отдельную вырезку с
1:24:47
твоего вебинара и, по-моему, называется «Как бороться с негативной накруткой ПФ?» Вот что-то такое отдельно виделие
1:24:56
факторы найдёте там, да? И а поводу накрутки
1:25:02
ПФ именно как бороться с негативной накруткой на своём сайте, то есть там заходы вот эти вот по несколько секунд в
1:25:07
метрике и прочее. А там поможет только внешний сервис, потому что там идут
1:25:13
обращения с рендерингом джаваскрипта. Вот. И
1:25:19
через HTCS такое не забанить. То есть там надо ставить э антибота, вот Антиbot Cloud
1:25:29
сервис. Ну там, короче, посмотрите в вебинаре. Там всё я рассказывал давно ещё.
1:25:35
Всё, всё актуально, всё работает. Вот, ээ, Cloudфр в Рунете не работает. Его
1:25:40
намеренно замедляют, а, э, Антибот Cloud в рунете работает, у него серваки в
1:25:45
рунете, э, то есть он там подпадает под все эти законы типа там трансграничная
1:25:52
какая-то там передача данных, ещё что-то там. Вот, то есть Антибутклаудом можно спокойно пользоваться, там нормально
1:25:58
всё. Угу. Спасибо. Вот добавляет, что проблема именно с вредной накруткой
1:26:04
антиботы не помогает. Может тоCloud? Ага. Антибот Cloud всё, всё выпилит, вообще
1:26:11
всё. То есть негативно прямых заходов не будет 100% гарантированно.
1:26:17
Угу. Спасибо, Артём. На данный момент вопросы закончились. И по традиции скажи, чем ты можешь быть полезен
Чем Артем может быть полезен зрителям?
1:26:23
зрителям. Могу вот твой экран слышать. Я Да. Я занимаюсь ээ SEO и накруткой ПФ,
1:26:31
то есть продвижением в Яндексе, в Гугле и улучшением политических факторов. в Яндексе. Вот также консультирую по
1:26:38
этим вопросам и веду проекты. То есть кому нужна какая-то помощь, что-то
1:26:44
уточнить, можете мне писать и обсудим. Угу. На этой положительной ноте хочу
1:26:51
тебя поблагодарить за то, что ты пришёл на вебинар, в очередной раз поделился знаниями. Я очень люблю твои доклады.
1:26:57
Действительно такая мясо такое даёшь, прямо моё почтение. Молодец. Так что
1:27:02
всегда буду рад, если снова придёшь. Спасибо, обязательно. Ну и потусим с тобой на стачке скоро в
1:27:08
Питере, поэтому будуть. Да, да, да, обязательно, конечно.
1:27:13
Ну, всем спасибо, до новых встреч и увидимся в топе. Всем счастливо.

Поделиться: