PDF / Office Analysis в OSINT: как извлекать скрытые данные из документов
Документы форматов PDF, DOCX, XLSX, PPTX — один из самых недооценённых источников информации в OSINT.
Они часто публикуются на сайтах компаний, госорганов, в утечках и пресс-релизах, и при этом содержат скрытые данные, которые выдают авторов, структуру организации и внутренние процессы.
Задача осинтера — анализировать не только текст документа, но и всё, что находится «под капотом».
Какие данные могут «утекать» из PDF и Office-файлов
- имена авторов и редакторов
- название компании или домена
- пути к файлам на компьютере (например: C:\Users\Ivan\Documents\…)
- версии программного обеспечения
- время создания и правок
- скрытые слои, комментарии, удалённый текст
- встроенные изображения с EXIF
- ссылки на внутренние ресурсы
Эти данные часто не видны при обычном просмотре.
Метаданные документа
В свойствах PDF и Office-файлов можно найти:
- Author — имя пользователя компьютера
- Company — организация
- Last Modified By — последний редактор
- Creation Date и Modify Date
- Application — версия Word, Excel, PDF-редактора
Иногда по этим данным можно установить конкретного сотрудника.
Скрытые данные внутри документа
Даже если документ «почищен», внутри могут остаться:
- комментарии и правки (Track Changes)
- скрытые слои в PDF
- удалённые, но не вычищенные фрагменты текста
- встроенные изображения с метаданными
Особенно часто это встречается в официальных отчётах и презентациях.
Анализ путей к файлам (file paths)
В метаданных и структуре документа иногда встречаются пути вида:
C:\Users\Alexey\Desktop\Project\Report_final.docx
Это позволяет узнать:
- имя пользователя компьютера
- названия внутренних проектов
- структуру папок внутри компании
Извлечение встроенных объектов
Из PDF и Office можно извлечь:
- оригинальные изображения (с EXIF)
- вставленные документы
- шрифты и логотипы
Иногда логотип или изображение внутри документа даёт больше информации, чем сам текст.
Инструменты для PDF / Office анализа
- ExifTool — метаданные любых файлов
- FOCA — анализ документов и метаданных
- pdfinfo / pdfimages — извлечение данных из PDF
- strings — поиск скрытого текста в файле
Типовые находки в OSINT
- Определение конкретного сотрудника по Author
- Выявление структуры компании по путям файлов
- Обнаружение старых версий документа внутри PDF
- Извлечение оригинальных изображений и их анализ
- Нахождение внутренних ссылок и доменов
Пошаговый алгоритм анализа
- Скачать оригинальный файл
- Проверить метаданные через ExifTool/FOCA
- Извлечь встроенные изображения
- Проверить документ на скрытые правки и комментарии
- Проанализировать найденные имена, пути и ПО
Чек-лист осинтера
- Кто указан автором документа?
- Какая организация указана?
- Есть ли пути к файлам?
- Есть ли скрытые правки?
- Можно ли извлечь изображения?
Вывод
PDF и Office-документы — это не просто текст. Это контейнер с большим количеством служебной информации.
Грамотный анализ таких файлов позволяет получать данные о людях и организациях, даже если сам документ выглядит «чистым».