📖 reader/ jina-ai
jina-ai/reader — это инструмент, который преобразует любой URL в формат, оптимизированный для больших языковых моделей. Просто добавьте префикс к URL, и вы получите чистый, понятный для LLM контент. Это как прокси, упрощающий веб-страницы для обработки ИИ.
Установка и запуск
Run
The image exposes two ports:
8080— h2c (HTTP/2 cleartext). Production-grade, multiplexed; this is what Cloud Run talks to. Plaincurlwon't speak it without--http2-prior-knowledge.8081— HTTP/1.1 fallback. Same handler, same routes; use this from anything that doesn't speak h2c.
For a quick try-out from curl or a browser, map the HTTP/1.1 port:
docker run --rm -p 3000:8081 ghcr.io/jina-ai/reader:oss
# then: curl http://localhost:3000/https://example.com
For load-testing or production-shape traffic, map the h2c port instead (or both):
docker run --rm -p 3000:8080 -p 3001:8081 ghcr.io/jina-ai/reader:oss
With no extra config the container is fully stateless — every request hits the live URL, no cache, no rate limiting. That's the right default for a quick try-out, CI, or throwaway environments.
Run with caching
Point Reader at an S3-compatible bucket to cache fetched pages and reuse them across requests:
docker run --rm -p 3000:8081 \
-e GCP_STORAGE_ENDPOINT=https://s3.example.com \
-e GCP_STORAGE_BUCKET=reader-cache \
-e GCP_STORAGE_ACCESS_KEY=... \
-e GCP_STORAGE_SECRET_KEY=... \
ghcr.io/jina-ai/reader:oss
See CONTRIBUTING.md for the full env-var table.
Из README репозитория · полный README на GitHub