Internal Tool

Document OCR Tool

自動キャプチャ & Apple Vision OCR で Markdown & PDF を即座に生成。

ドキュメントの自動スクリーンキャプチャとApple Vision OCRによる高精度テキスト抽出。Web UIとヘッドレスCLIの2つのモードで、完全ローカルで動作するデスクトップツールです。

GitHub で見る

Problem

ドキュメント管理の課題

デジタルドキュメントのテキストを再利用したいとき、手作業のコピー&ペーストは非効率です。

手動コピーの非効率さ

ページごとにテキストを手動でコピー&ペーストすると、大量のドキュメントでは膨大な時間がかかる。

フォーマットの崩れ

コピーしたテキストは元の構造やフォーマットが失われ、整形に追加作業が必要。

検索性の欠如

画像ベースのドキュメントはテキスト検索ができず、必要な情報を見つけるのが困難。

一括処理ができない

複数ページのドキュメントを一括でテキスト化する手段がなく、1ページずつ対応が必要。

How It Works

5タブのWeb UIで完結

ブラウザベースのUIで、キャプチャからエクスポートまで直感的に操作できます。

Auto — 自動キャプチャ

ドキュメントアプリを開いた状態で、自動スクリーンキャプチャ＋ページめくりを実行。

Upload — 画像アップロード

手動で撮影したスクリーンショットをドラッグ&ドロップでアップロード。

OCR — テキスト抽出

Apple Vision OCRで全ページを一括処理。高精度な日本語テキスト認識。

Edit — 確認・編集

抽出テキストをブラウザ上で確認・編集。必要に応じて手動で修正。

Export — ダウンロード

Markdown または PDF でエクスポート。すぐにダウンロード可能。

Features

主な機能

ドキュメントOCRに必要な機能をすべて搭載。

自動キャプチャ＋ページめくり

ドキュメントアプリのページを自動でスクリーンショット取得＆自動ページめくり。手動アップロードにも対応。

Apple Vision OCR

macOS内蔵のVision frameworkによる高精度な日本語テキスト認識。外部サービス不要で完全ローカル。

見開き自動分割

見開きページを自動で左右に分割し、正しい読み順でOCR処理。横向きスキャンにも対応。

Markdown & PDF エクスポート

OCR結果をMarkdownファイルまたはPDFで出力。テキストのみのMDエクスポートにも対応。

ヘッドレスCLI

ターミナルからワンコマンドで実行可能。自動化スクリプトやバッチ処理に最適。

完全ローカル動作

データは一切外部に送信されません。すべての処理がローカルマシン上で完結するため、機密ドキュメントも安心。

Tech Stack

技術構成

FastAPI + uvicorn

高性能なAPIサーバー

Apple Vision

macOS内蔵の高精度OCR

Tailwind CSS

ダークモードのモダンUI

ローカルオンリー

データは外部送信なし

Setup

セットアップ

数分で使い始められます。

Web UIで起動

uvicorn server:app --port 8000 でサーバー起動。ブラウザで http://localhost:8000 にアクセス。

ヘッドレスCLIで起動

python kindle_cli.py --title "タイトル" --pages 50 でターミナルからワンコマンド実行。

初回セットアップ

python3 -m venv venv && pip install -r requirements.txt で依存パッケージをインストール。

Requirements

動作環境

macOS（Apple Silicon / Intel）

Python 3.10+

画面収録の権限（システム設定から許可）

Document OCR Tool

GitHub で見る