Corpus & Data

What 2.1 Million Documents Look Like

TLDR The Jeffrey Epstein document corpus contains 2,100,266 files across 12 DOJ data sets and 6 source directories, totaling approximately 331 GB. It spans...

March 10, 2026 4 min read

Corpus & Data

The 16-Script Pipeline

TLDR A pipeline of 27+ Python scripts transforms 2.1 million raw government documents into a searchable PostgreSQL database with 2.38 million extracted...

March 10, 2026 6 min read

Corpus & Data

The 42% Gap

TLDR The DOJ released approximately 3.5 million pages while acknowledging that more than 6 million pages were identified as potentially responsive — a 42% gap...

March 10, 2026 5 min read

Corpus & Data

Chao1 Species Richness

TLDR The Chao1 estimator — a statistical method originally designed to estimate the total number of species in an ecosystem, applied here to estimate total...

March 10, 2026 5 min read