Internal Tool
Document OCR Tool
自動キャプチャ & Apple Vision OCR で Markdown & PDF を即座に生成。
ドキュメントの自動スクリーンキャプチャとApple Vision OCRによる高精度テキスト抽出。Web UIとヘッドレスCLIの2つのモードで、完全ローカルで動作するデスクトップツールです。
Problem
ドキュメント管理の課題
デジタルドキュメントのテキストを再利用したいとき、手作業のコピー&ペーストは非効率です。
手動コピーの非効率さ
ページごとにテキストを手動でコピー&ペーストすると、大量のドキュメントでは膨大な時間がかかる。
フォーマットの崩れ
コピーしたテキストは元の構造やフォーマットが失われ、整形に追加作業が必要。
検索性の欠如
画像ベースのドキュメントはテキスト検索ができず、必要な情報を見つけるのが困難。
一括処理ができない
複数ページのドキュメントを一括でテキスト化する手段がなく、1ページずつ対応が必要。
How It Works
5タブのWeb UIで完結
ブラウザベースのUIで、キャプチャからエクスポートまで直感的に操作できます。
Auto — 自動キャプチャ
ドキュメントアプリを開いた状態で、自動スクリーンキャプチャ+ページめくりを実行。
Upload — 画像アップロード
手動で撮影したスクリーンショットをドラッグ&ドロップでアップロード。
OCR — テキスト抽出
Apple Vision OCRで全ページを一括処理。高精度な日本語テキスト認識。
Edit — 確認・編集
抽出テキストをブラウザ上で確認・編集。必要に応じて手動で修正。
Export — ダウンロード
Markdown または PDF でエクスポート。すぐにダウンロード可能。
Features
主な機能
ドキュメントOCRに必要な機能をすべて搭載。
自動キャプチャ+ページめくり
ドキュメントアプリのページを自動でスクリーンショット取得&自動ページめくり。手動アップロードにも対応。
Apple Vision OCR
macOS内蔵のVision frameworkによる高精度な日本語テキスト認識。外部サービス不要で完全ローカル。
見開き自動分割
見開きページを自動で左右に分割し、正しい読み順でOCR処理。横向きスキャンにも対応。
Markdown & PDF エクスポート
OCR結果をMarkdownファイルまたはPDFで出力。テキストのみのMDエクスポートにも対応。
ヘッドレスCLI
ターミナルからワンコマンドで実行可能。自動化スクリプトやバッチ処理に最適。
完全ローカル動作
データは一切外部に送信されません。すべての処理がローカルマシン上で完結するため、機密ドキュメントも安心。
Tech Stack
技術構成
FastAPI + uvicorn
高性能なAPIサーバー
Apple Vision
macOS内蔵の高精度OCR
Tailwind CSS
ダークモードのモダンUI
ローカルオンリー
データは外部送信なし
Setup
セットアップ
数分で使い始められます。
Web UIで起動
uvicorn server:app --port 8000 でサーバー起動。ブラウザで http://localhost:8000 にアクセス。
ヘッドレスCLIで起動
python kindle_cli.py --title "タイトル" --pages 50 でターミナルからワンコマンド実行。
初回セットアップ
python3 -m venv venv && pip install -r requirements.txt で依存パッケージをインストール。
Requirements
動作環境
macOS(Apple Silicon / Intel)
Python 3.10+
画面収録の権限(システム設定から許可)
Document OCR Tool
ドキュメントの自動スクリーンキャプチャとApple Vision OCRによる高精度テキスト抽出。Web UIとヘッドレスCLIの2つのモードで、完全ローカルで動作するデスクトップツールです。
GitHub で見る