Dostępny do projektów • Open to work

Buduję inteligentne systemy z modelami językowymi

LLM developer specjalizujący się w production-grade aplikacjach AI: systemy RAG, agenci autonomiczni, fine-tuning, prompt engineering i integracje MCP. Pomagam firmom wdrażać AI, które skaluje się i generuje realną wartość.

22+Repozytoria
3+Lat z LLM
Tokenów przetworzonych
Wybrane projekty

Projekty z ekosystemu LLM

Platformy, narzędzia agentowe, serwery MCP i integracje — to, z czym pracuję na co dzień jako LLM developer.

LLM Platformfork · integrated

Dify — LLM App Platform

Open-source platform do budowy aplikacji LLM: workflow, RAG, agenci i narzędzia w jednym miejscu.

Problem: Budowa aplikacji LLM od zera jest powtarzalna i kosztowna — RAG, orchestration agentów, evals i monitoring trzeba składać ręcznie.

Rozwiązanie: Dify dostarcza visual workflow, RAG pipeline, agent runtime i observability out-of-the-box. Integruję i rozszerzam go pod production workloads.

TypeScriptPythonRAGAgentsWorkflowLLM
  • Production-grade orchestration
  • Visual RAG + agent builder
  • Self-hostable na Coolify/Hetzner
RepoSzczegóły
AI Codingfork · integrated

Kilo Code — AI Coding Assistant

Open-source AI coding assistant do planowania, budowy i naprawy kodu z modelami językowymi.

Problem: Komercyjne asystenty kodu są zamknięte i nie pozwalają na custom workflow ani integracje MCP.

Rozwiązanie: Kilo Code łączy planowanie, edycję i weryfikację w jednym toolchainie z obsługą MCP. Śledzę i integruję upstream features do własnych workflowów.

TypeScriptMCPAgentsTooling
  • Plan → build → verify loop
  • MCP-native integrations
  • Open-source, hackable
RepoSzczegóły
Agent Toolingfork · integrated

Serena — Coding Agent Toolkit

MCP server z semantic retrieval i editing capabilities dla agentów kodujących.

Problem: Agenty LLM gubią kontekst w dużych repozytoriach — potrzebują semantycznego indeksowania kodu, nie tylko grep.

Rozwiązanie: Serena dostarcza LSP-based semantic retrieval i precyzyjne edycje kodu przez MCP. Stosuję jako backend dla agentów kodujących.

PythonMCPLSPSemantic retrieval
  • LSP-grade code understanding
  • MCP server dla agentów
  • Precyzyjne edits, nie patch-e
RepoSzczegóły
MCPfork · integrated

MCP — Atlassian (Jira/Confluence)

MCP server łączący model językowy z Jira i Confluence — agenty czytają i aktualizują tickety.

Problem: Agenty AI są odizolowane od systemów, w których żyje wiedza projektowa (Jira, Confluence).

Rozwiązanie: Serwer MCP wystawia Jira/Confluence jako narzędzia dla LLM — agenty mogą czytać tickety, dokumenty i aktualizować status bez ręcznego kopiowania.

PythonMCPJira APIConfluence API
  • Native tool-use dla agentów
  • Read + write Jira/Confluence
  • Self-hosted, secure
RepoSzczegóły
Agent Toolingfork · integrated

Terragon — Agent Orchestrator

Remote background agent orchestrator dla Claude Code — uruchamiaj agentów asynchronicznie.

Problem: Długotrwałe zadania agentów blokują sesję — potrzebny jest orchestrator do uruchamiania i monitorowania wielu agentów w tle.

Rozwiązanie: Terragon zarządza kolejkami zadań, uruchamia agentów w izolowanych środowiskach i agreguje wyniki. Podstawa do multi-agent workflows.

TypeScriptAgentsOrchestrationRemote
  • Background agent execution
  • Multi-agent coordination
  • Isolated runtimes
RepoSzczegóły
Appown

Frogs & Flies — Remake

Modern browser remake klasyka Atari 2600 w TypeScript — side project pokazujący craft poza AI.

Problem: Chciałem pokazać, że potrafię budować też poza ekosystemem LLM — czysty gameplay engineering.

Rozwiązanie: Pełna reimplementacja gry w TypeScript z modern rendering, smooth physics i retro aesthetics.

TypeScriptCanvasGame loopPhysics
  • Własny projekt (nie fork)
  • 60fps browser gameplay
  • Clean architecture
RepoSzczegóły
O mnie

LLM developer, który dostarcza w produkcji

Jestem LLM developerem z 3+ latami doświadczenia w budowaniu aplikacji opartych na modelach językowych. Specjalizuję się w systemach agentowych, RAG, fine-tuningu i integracjach MCP — wszystko w production-grade jakości.

Nie tworzę prototypów, które padają po tygodniu. Wdrażam systemy, które skalują się, są monitorowane i generują realną wartość biznesową. Moje podejście łączy deep technical knowledge z praktycznym zrozumieniem potrzeb biznesowych.

RAGAgentsFine-tuningMCPEvals

LLM & AI

  • OpenAI GPT-4 / o1
  • Anthropic Claude
  • Llama / Mistral
  • LangChain
  • LlamaIndex
  • RAG pipelines
  • Vector DB (Qdrant, Pinecone)
  • Embeddings & hybrid search
  • Fine-tuning (LoRA, QLoRA)
  • Prompt engineering
  • Evals (RAGAS, custom)
  • Agent architectures

Engineering

  • TypeScript
  • Python
  • Next.js
  • FastAPI
  • React
  • Tailwind CSS
  • PostgreSQL
  • Redis
  • Docker

Infra & DevOps

  • Coolify
  • Hetzner
  • Vercel
  • GitHub Actions
  • LangSmith
  • Cost optimization

Tooling & MCP

  • MCP servers
  • Claude Code
  • Devin
  • Cursor
  • GitHub Copilot
  • Agent orchestration
Case study

Od prototypu do produkcji

Jak wygląda realny projekt RAG — od evals po wdrożenie.

Mid-size SaaS (fintech)8 tygodni

Production RAG dla internal knowledge base

Kontekst

Klient zgromadził tysiące dokumentów w Confluence i Notion, ale pracownicy tracili godziny na szukanie odpowiedzi. Cel: internal assistant odpowiadający na pytania na bazie własnej wiedzy, z cytatami i źródłami.

Wyzwanie

Dokumenty były heterogeniczne (markdown, PDF, tabele), chunking naiwny psuł recall, a halucynacje były niedopuszczalne w fintech. Trzeba było hybrid search, rerankingu i evals zanim cokolwiek trafi do produkcji.

Architektura

  1. 01 Ingestion: Confluence/Notion → chunking (semantic, recursive) → embeddings (OpenAI text-embedding-3-large)
  2. 02 Vector store: Qdrant (self-hosted) + BM25 dla hybrid search
  3. 03 Reranker: Cohere rerank top-k
  4. 04 Generation: Claude 3.5 z grounded prompts + citation enforcement
  5. 05 Evals: RAGAS (faithfulness, answer relevancy, context precision)
  6. 06 Frontend: Next.js + streaming responses
  7. 07 Observability: LangSmith traces dla każdego zapytania

Implementacja

Najwięcej czasu zajęły evals i chunking. Naiwny fixed-size chunking dawał 62% recall na benchmarku — przejście na semantic chunking z overlap i metadata filtering podniosło do 91%. Reranking dodał kolejne +4%. Halucynacje zredukowałem wymuszając cytatów w prompt + post-hoc weryfikację źródła.

Wyniki

62% → 95%Recall@5
0.94Faithfulness (RAGAS)
2.1sCzas odpowiedzi P95
$0.004Koszt / query
120+ userów / dzieńAdopcja w zespole

Learnings

Evals to nie dodatek, to fundament — bez benchmarku każda zmiana jest loteria. Reranking daje więcej niż droższy model. Streaming responses drastycznie poprawia perceived latency.

Kontakt

Masz projekt AI, który potrzebuje solidnego wykonania?

Porozmawiajmy. Odpowiadam w 24h. RAG, agenci, fine-tuning, MCP — zbuduję to, co działa w produkcji.

LinkedIn Remote / PolandDostępny do projektów