Интерактивное руководство системного администратора | Проект: Отказоустойчивая инфраструктура

Добро пожаловать в Интерактивное руководство!

Это демонстрация ключевых компетенций в области системного администрирования и DevOps, основанных на более чем 4-летнем опыте. Здесь вы найдете подробные примеры и практические демонстрации навыков, необходимых для построения и поддержания современной, масштабируемой и отказоустойчивой IT-инфраструктуры.

Цель — создание высокоэффективных и автоматизированных систем, которые обеспечивают бесперебойную работу критически важных сервисов. Приглашаю вас ознакомиться с представленными ниже разделами.

Ключевые компетенции проекта

🐧

Администрирование Linux

Уверенные навыки администрирования систем Linux, включая CentOS, Ubuntu, Debian. Глубокое понимание файловых систем, управления процессами, сетевых настроек и безопасности.

⚙️

Управление конфигурациями

Опыт проектирования, внедрения и работы с системами централизованного управления конфигурациями для автоматизации развертывания и поддержания инфраструктуры.

📜

Разработка скриптов

Опыт разработки скриптов для автоматизации административных задач на Python, Go и Bash, что значительно повышает эффективность и надежность операций.

🛡️

Отказоустойчивые архитектуры

Опыт создания и администрирования отказоустойчивых, распределенных серверных архитектур с использованием Keepalived, HAProxy, Pacemaker/Corosync.

🌐

Веб-сервер Nginx

Опыт настройки и администрирования веб-серверов, включая Nginx, для обслуживания приложений, балансировки нагрузки и терминирования SSL/TLS.

💻

Системы виртуализации

Опыт работы с системами виртуализации, такими как Proxmox, KVM, oVirt, для эффективного использования ресурсов и изоляции сред.

🔗

Стек протоколов TCP/IP

Глубокое понимание работы основных сетевых протоколов стека TCP/IP, что позволяет эффективно диагностировать и решать сетевые проблемы.

🚀

Диагностика производительности

Опыт выявления и решения пограничных проблем, связанных со снижением производительности ОС, СХД, СУБД, для поддержания высокой эффективности систем.

📨

Брокер сообщений Kafka

Опыт работы с брокерами сообщений, в частности Kafka, для построения масштабируемых и отказоустойчивых систем обмена данными.

📦

Контейнеры: Docker, Kubernetes

Опыт работы с технологиями контейнеризации Docker и оркестрации Kubernetes для развертывания и управления приложениями.

📊

Системы мониторинга

Опыт внедрения и администрирования систем мониторинга, таких как Zabbix, Grafana, Prometheus, для непрерывного отслеживания состояния инфраструктуры.

📝

Логирование и аудит

Опыт внедрения и администрирования систем логирования и аудита (Audit.d, ELK Stack) для обеспечения безопасности и отладки.

🐧 Администрирование Linux

В любом серьезном проекте Linux является фундаментом. Навыки включают не только базовое управление, но и глубокую настройку систем CentOS, Ubuntu, Debian для достижения оптимальной производительности и безопасности.

Примеры команд

Основные команды для работы с системными сервисами и ресурсами.

# Проверка использования диска
df -h

# Проверка использования памяти
free -h

# Просмотр запущенных процессов
ps aux | head

# Управление системными сервисами
sudo systemctl status apache2
sudo systemctl restart nginx
sudo systemctl enable docker

Файловые системы и права доступа

Ключевой аспект безопасности и правильной работы приложений.

# Изменить владельца файла
sudo chown user:group /path/to/file

# Изменить права доступа (rwx: 4=read, 2=write, 1=execute)
sudo chmod 755 /path/to/script.sh

# Просмотр информации о файловой системе
sudo tune2fs -l /dev/sda1

⚙️ Централизованное управление конфигурациями

Для масштабируемых проектов автоматизация развертывания и поддержания серверов — это необходимость. Опыт включает использование инструментов, которые позволяют управлять сотнями узлов из одной точки.

Пример использования Ansible (псевдокод)

Автоматизация установки Nginx на группу серверов.

# playbook.yml
---
- name: Configure Webservers
  hosts: webservers
  become: yes
  tasks:
    - name: Ensure nginx is installed
      ansible.builtin.apt:
        name: nginx
        state: present
      when: ansible_os_family == "Debian"

    - name: Ensure nginx is running and enabled
      ansible.builtin.service:
        name: nginx
        state: started
        enabled: yes

    - name: Copy nginx configuration
        src: files/nginx.conf
        dest: /etc/nginx/nginx.conf
      notify: Restart nginx

  handlers:
    - name: Restart nginx
      ansible.builtin.service:
        name: nginx
        state: restarted

Использование систем управления конфигурациями (например, Ansible, Puppet, Chef) позволяет поддерживать инфраструктуру в желаемом состоянии, уменьшать количество ручных ошибок и ускорять процесс развертывания.

📜 Разработка скриптов для автоматизации

Автоматизация рутинных задач — ключевой фактор эффективности. Скрипты на Python, Go и Bash помогают оптимизировать операции, проводить бэкапы, мониторить состояние и многое другое.

Пример Bash скрипта: Мониторинг свободного места

#!/bin/bash

THRESHOLD=90
EMAIL="admin@example.com"
HOSTNAME=$(hostname)

USAGE=$(df -h / | awk 'NR==2 {print $5}' | sed 's/%//g')

if (( USAGE > THRESHOLD )); then
    echo "Предупреждение: Место на диске / на $HOSTNAME используется на $USAGE%. Превышен порог в $THRESHOLD%." | mail -s "ВНИМАНИЕ: Заполнено дисковое пространство на $HOSTNAME" $EMAIL
fi

echo "Проверка завершена. Использование диска: $USAGE%"

Пример Python скрипта: Простая проверка доступности сервиса

#!/usr/bin/env python3
import requests
import sys

def check_service(url):
    try:
        response = requests.get(url, timeout=5)
        if response.status_code == 200:
            print(f"Сервис {url} доступен. Статус: {response.status_code}")
            return 0
        else:
            print(f"Сервис {url} недоступен. Статус: {response.status_code}")
            return 1
    except requests.exceptions.RequestException as e:
        print(f"Ошибка при подключении к {url}: {e}")
        return 1

if __name__ == "__main__":
    if len(sys.argv) < 2:
        print("Использование: python check_service.py ")
        sys.exit(1)
    
    service_url = sys.argv[1]
    sys.exit(check_service(service_url))

🛡️ Отказоустойчивые архитектуры

В критически важных проектах обеспечение высокой доступности сервисов — это приоритет. Опыт проектирования и внедрения решений, которые минимизируют время простоя и обеспечивают бесперебойную работу.

Визуальная схема типичного решения

Клиентский трафик

⬇️

192.168.1.100 (VIP)

Keepalived

(Управление VIP)

HAProxy

(Балансировка)

⬇️ распределение ⬇️

Сервер 1 (Бэкенд)

Сервер 2 (Бэкенд)

Сервер N (Бэкенд)

Примеры конфигураций

Конфигурация для MASTER-сервера с проверкой состояния Nginx.

! Configuration File for keepalived

vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 101
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass mysecret
    }
    virtual_ipaddress {
        192.168.1.100/24
    }
    track_script {
        chk_nginx
    }
}

vrrp_script chk_nginx {
    script "/usr/bin/systemctl status nginx > & /dev/null"
    interval 2
    weight -20
}

Конфигурация для балансировки HTTP-трафика между двумя бэкендами.

frontend http_front
    bind *:80
    mode http
    default_backend http_back

backend http_back
    balance roundrobin
    option httpchk HEAD /
    server s1 192.168.1.10:80 check
    server s2 192.168.1.11:80 check

Пример создания ресурса IP-адреса с помощью командной строки Pacemaker.

# Добавляем виртуальный IP как ресурс
sudo pcs resource create VirtualIP \\
  ocf:heartbeat:IPaddr2 \\
  ip=192.168.1.100 cidr_netmask=24 \\
  op monitor interval=10s

# Клонируем ресурс для автоматического переноса
sudo pcs resource clone VirtualIP

🌐 Веб-сервер Nginx

Nginx — это выбор для веб-сервера и обратного прокси в высоконагруженных проектах. Он позволяет эффективно раздавать статику, терминировать SSL/TLS и балансировать нагрузку между бэкендами.

Схема работы

Пользователь (HTTPS)

⬇️

Nginx (Порт 443)

↘️

Раздача статики
/var/www/html

↙️

Проксирование
на 127.0.0.1:8080

Пример конфигурации

Конфигурация виртуального хоста для приложения с редиректом на HTTPS и проксированием.

server {
    listen 80;
    server_name example.com;
    return 301 https://$host$request_uri;
}

server {
    listen 443 ssl http2;
    server_name example.com;

    ssl_certificate /path/to/fullchain.pem;
    ssl_certificate_key /path/to/privkey.pem;

    root /var/www/html;

    location /static/ {
        try_files $uri =404;
    }

    location / {
        proxy_pass http://127.0.0.1:8080;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Forwarded-Proto $scheme;
    }
}

💻 Системы виртуализации

Виртуализация является основой для эффективного использования аппаратных ресурсов и создания изолированных сред для различных компонентов проекта. Опыт работы с KVM, Proxmox и oVirt.

Сравнение платформ

Платформа	Тип	Управление	Лучше всего подходит для
KVM	Гипервизор (Тип 1)	CLI (virsh), GUI (virt-manager)	Глубокой интеграции с Linux, кастомных решений
Proxmox VE	Платформа (KVM & LXC)	Web-интерфейс, CLI	СМБ, хостинга, тестовых сред
oVirt	Платформа (KVM)	Web-интерфейс	Крупных корпоративных сред, аналог vSphere

Примеры команд KVM (virsh)

Базовые команды для управления виртуальными машинами через утилиту virsh.

# Показать все ВМ
virsh list --all

# Запустить ВМ
virsh start my_ubuntuКорректно выключить ВМ
virsh shutdown my_ubuntu_vm

# Принудительно выключить ВМ
virsh destroy my_ubuntu_vm

# Подключиться к консоли ВМ
virsh console my_ubuntu_vm

🔗 Стек протоколов TCP/IP

Фундаментальное понимание сетевых протоколов — это основа успешного администрирования. В любом проекте, где есть взаимодействие между сервисами, знание TCP/IP критически важно для диагностики и оптимизации.

Модель TCP/IP

Прикладной уровень (Application)

Протоколы: HTTP, FTP, DNS, SSH, SMTP

Транспортный уровень (Transport)

Протоколы: TCP (надежный), UDP (быстрый)

Сетевой уровень (Internet)

Протоколы: IP (маршрутизация), ICMP (диагностика)

Канальный уровень (Link)

Протоколы: Ethernet, Wi-Fi (физическая передача, MAC-адреса)

Инструменты диагностики

Базовые утилиты для проверки сети, которые должен знать каждый администратор.

# Проверка доступности хоста
ping 8.8.8.8

# Трассировка маршрута
traceroute google.com

# Просмотр активных соединений и слушающих портов
ss -tulnp

# Управление сетевыми интерфейсами
ip addr show

# Анализ трафика в реальном времени
tcpdump -i eth0 port 80

🚀 Диагностика производительности

Оптимизация производительности — это непрерывный процесс в любом проекте. Я умею выявлять и устранять "узкие места" на уровне ОС, СХД и СУБД, что критически важно для высоконагруженных систем.

Процесс диагностики

1. Сбор данных

→

2. Идентификация

→

3. Анализ

→

4. Решение

→

5. Мониторинг

Ключевые утилиты

⚙️ CPU

top, htop, mpstat

Ищите высокие значения %us, %sy и неравномерную нагрузку на ядра.

🧠 RAM

free, vmstat

Следите за активностью swap (si, so) — это признак нехватки памяти.

� I/O

iostat, df, du

Ключевые метрики: %util (утилизация) и await (время ожидания).

📡 Network

ss, ip, tcpdump

Проверяйте ошибки, отброшенные пакеты и загрузку интерфейсов.

📨 Брокер сообщений Kafka

Kafka — незаменимый инструмент для построения масштабируемых и отказоустойчивых систем обмена сообщениями. В проектах с микросервисной архитектурой и потоковой обработкой данных, понимание Kafka является критическим.

Схема потока сообщений

Producer

(Отправитель)

✉️

➡️

Kafka Cluster (Brokers)

Topic [Partition 1, Partition 2, ...]

➡️

Consumer

(Получатель)

📥

Основные команды CLI

Базовые операции для работы с Kafka через командную строку.

# Создать топик с 3 партициями
kafka-topics.sh --create --topic my-topic \\
  --bootstrap-server localhost:9092 \\
  --partitions 3 --replication-factor 1

# Запустить консольного продюсера
kafka-console-producer.sh --topic my-topic \\
  --bootstrap-server localhost:9092

# Запустить консольного потребителя (с начала)
kafka-console-consumer.sh --topic my-topic \\
  --bootstrap-server localhost:9092 --from-beginning

📦 Контейнеры: Docker & Kubernetes

Контейнеризация и оркестрация стали стандартом де-факто в современной разработке. Опыт с Docker и Kubernetes позволяет разворачивать и управлять приложениями в масштабе, обеспечивая их изоляцию и переносимость.

Docker

Упаковка приложения и его зависимостей в образ. Пример Dockerfile для Python-приложения.

# Базовый образ
FROM python:3.9-slim

# Рабочая директория
WORKDIR /app

# Установка зависимостей
COPY requirements.txt .
RUN pip install -r requirements.txt

# Копирование кода приложения
COPY . .

# Команда для запуска
CMD ["python", "app.py"]

Kubernetes

Декларативное описание желаемого состояния системы. Пример Deployment для запуска 3 реплик приложения.

apiVersion: apps/v1
kind: Deployment
metadata:
  name: my-app-deployment
  spec:
    replicas: 3
    selector:
      matchLabels:
        app: my-app
    template:
      metadata:
        labels:
          app: my-app
      spec:
        containers:
        - name: my-app-container
          image: my-python-app:latest
          ports:
          - containerPort: 5000

📊 Системы мониторинга

Наличие эффективной системы мониторинга — залог стабильности любого проекта. Опыт внедрения и администрирования Zabbix, Prometheus и Grafana, что позволяет быстро выявлять и реагировать на проблемы.

Сравнение инструментов

Сравнение ключевых характеристик популярных систем мониторинга.

Zabbix работает по модели push (агент отправляет данные на сервер). Пример конфигурации Zabbix Agent.

# /etc/zabbix/zabbix_agentd.conf
Server=192.168.1.200
ServerActive=192.168.1.200
Hostname=MyWebServer01

Prometheus работает по модели pull (сервер сам забирает метрики). Пример конфигурации для сбора метрик с Node Exporter.

# prometheus.yml
scrape_configs:
  - job_name: 'node_exporter'
    static_configs:
      - targets: ['192.168.1.10:9100']

📝 Логирование и аудит

Централизованный сбор логов и аудит — неотъемлемая часть любой безопасной и легко отлаживаемой инфраструктуры. Опыт включает внедрение ELK Stack для сбора и анализа логов, а также Audit.d для системного аудита.

Схема ELK Stack

Источники логов

(Nginx, App, System)

➡️

Logstash

(Сбор, Парсинг)

➡️

Elasticsearch

(Хранение, Индекс)

➡️

Kibana

(Поиск, Визуализация)

Audit.d

Пример правила для отслеживания изменений в файле /etc/passwd.

# /etc/audit/rules.d/custom.rules
-w /etc/passwd -p wra -k passwd_changes

Logstash

Пример конфигурации для сбора и парсинга логов Nginx.

input {
  file { path => "/var/log/nginx/access.log" }
}
filter {
  grok { match => { "message" => "%{COMBINEDAPACHELOG}" } }
  geoip { source => "clientip" }
}
output {
  elasticsearch { hosts => ["localhost:9200"] }
}