PDF / Office Analysis в OSINT: как извлекать скрытые данные из документов

Документы форматов PDF, DOCX, XLSX, PPTX — один из самых недооценённых источников информации в OSINT.
Они часто публикуются на сайтах компаний, госорганов, в утечках и пресс-релизах, и при этом содержат скрытые данные, которые выдают авторов, структуру организации и внутренние процессы.

Задача осинтера — анализировать не только текст документа, но и всё, что находится «под капотом».

Какие данные могут «утекать» из PDF и Office-файлов

имена авторов и редакторов
название компании или домена
пути к файлам на компьютере (например: C:\Users\Ivan\Documents\…)
версии программного обеспечения
время создания и правок
скрытые слои, комментарии, удалённый текст
встроенные изображения с EXIF
ссылки на внутренние ресурсы

Эти данные часто не видны при обычном просмотре.

Метаданные документа

В свойствах PDF и Office-файлов можно найти:

Author — имя пользователя компьютера
Company — организация
Last Modified By — последний редактор
Creation Date и Modify Date
Application — версия Word, Excel, PDF-редактора

Иногда по этим данным можно установить конкретного сотрудника.

Скрытые данные внутри документа

Даже если документ «почищен», внутри могут остаться:

комментарии и правки (Track Changes)
скрытые слои в PDF
удалённые, но не вычищенные фрагменты текста
встроенные изображения с метаданными

Особенно часто это встречается в официальных отчётах и презентациях.

Анализ путей к файлам (file paths)

В метаданных и структуре документа иногда встречаются пути вида:

C:\Users\Alexey\Desktop\Project\Report_final.docx

Это позволяет узнать:

имя пользователя компьютера
названия внутренних проектов
структуру папок внутри компании

Извлечение встроенных объектов

Из PDF и Office можно извлечь:

оригинальные изображения (с EXIF)
вставленные документы
шрифты и логотипы

Иногда логотип или изображение внутри документа даёт больше информации, чем сам текст.

Инструменты для PDF / Office анализа

ExifTool — метаданные любых файлов
FOCA — анализ документов и метаданных
pdfinfo / pdfimages — извлечение данных из PDF
strings — поиск скрытого текста в файле

Типовые находки в OSINT

Определение конкретного сотрудника по Author
Выявление структуры компании по путям файлов
Обнаружение старых версий документа внутри PDF
Извлечение оригинальных изображений и их анализ
Нахождение внутренних ссылок и доменов

Пошаговый алгоритм анализа

Скачать оригинальный файл
Проверить метаданные через ExifTool/FOCA
Извлечь встроенные изображения
Проверить документ на скрытые правки и комментарии
Проанализировать найденные имена, пути и ПО

Чек-лист осинтера

Кто указан автором документа?
Какая организация указана?
Есть ли пути к файлам?
Есть ли скрытые правки?
Можно ли извлечь изображения?

Вывод

PDF и Office-документы — это не просто текст. Это контейнер с большим количеством служебной информации.

Грамотный анализ таких файлов позволяет получать данные о людях и организациях, даже если сам документ выглядит «чистым».

Добавить комментарий Отменить ответ

Связанные истории

Sanctions / PEP

Licenses / Tenders

Court Records (LEGALINT)

Возможно, вы пропустили

Sanctions / PEP

Licenses / Tenders

Court Records (LEGALINT)

Public Registries