Code2Logic: AST-Based Code Analysis with PageRank - Status Projektu Luty 2026

Code2Logic v1.0.11 — narzędzie do analizy kodu źródłowego z AST parsing, PageRank, multi-format output (TOON, YAML, function-logic). Obsługa 10+ języków. Status: Production Ready

2026-02-10 • Softreck

Code2Logic: AST-Based Code Analysis

Status: ✅ Production Ready
Wersja: 1.0.11 (PyPI)
Accuracy: 71.1% reproduction
Technologies: Tree-sitter, PageRank, Python

Co to jest Code2Logic?

Code2Logic to narzędzie badawcze do analizy kodu źródłowego, które wykorzystuje:

Tree-sitter do parsowania AST (Abstract Syntax Tree)
Algorytm PageRank do rankingu ważności komponentów
Graph analysis do identyfikacji zależności

Cel: automatyczne zrozumienie struktury i logiki dużych baz kodu.

Motywacja

Przy pracy z legacy codebase lub nieznanym projektem, programiści spędzają 60-70% czasu na zrozumieniu istniejącego kodu. Code2Logic ma na celu:

Identyfikację kluczowych plików i funkcji
Mapowanie zależności między modułami
Sugestię punktów wejścia do analizy
Generowanie dokumentacji struktury

Architektura

┌─────────────────────────────────────────────────────────┐
│                    Code2Logic Pipeline                   │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  ┌──────────┐    ┌──────────┐    ┌──────────────┐       │
│  │  Source  │───▶│ Tree-    │───▶│ Dependency   │       │
│  │  Code    │    │ sitter   │    │ Graph        │       │
│  └──────────┘    └──────────┘    └──────────────┘       │
│                        │                │               │
│                        ▼                ▼               │
│                  ┌──────────┐    ┌──────────────┐       │
│                  │   AST    │    │  PageRank    │       │
│                  │  Nodes   │    │  Scoring     │       │
│                  └──────────┘    └──────────────┘       │
│                        │                │               │
│                        ▼                ▼               │
│                  ┌─────────────────────────────┐        │
│                  │     Analysis Report         │        │
│                  └─────────────────────────────┘        │
└─────────────────────────────────────────────────────────┘

Obsługiwane Języki

Język	Parser	Status
Python	tree-sitter-python	✅ Pełne
JavaScript	tree-sitter-javascript	✅ Pełne
TypeScript	tree-sitter-typescript	✅ Pełne
Go	tree-sitter-go	✅ Pełne
Rust	tree-sitter-rust	✅ Pełne
Java	tree-sitter-java	✅ Pełne
C#	tree-sitter-c-sharp	✅ Pełne
SQL	tree-sitter-sql	✅ Pełne
.mjs/.cjs/.mts/.cts	tree-sitter-javascript	✅ Nowe
Pliki bez rozszerzenia	Shebang detection	✅ Nowe

Wyniki Badań

Benchmark: Reproduction Accuracy

Test polegał na rekonstrukcji dokumentacji z samego kodu:

Projekt	Accuracy	Files	LOC
Flask	73.2%	89	12,400
FastAPI	69.8%	156	28,300
Django (core)	71.4%	234	45,600
Średnia	71.1%	-	-

Kluczowe Wnioski

PageRank skutecznie identyfikuje entry points - pliki z wysokim PR score często są głównymi punktami wejścia (main.py, app.py, index.js)
Zależności cykliczne zaburzają scoring - projekty z circular imports mają niższą accuracy
Komentarze i docstrings poprawiają wyniki - projekty z dobrą dokumentacją inline mają +8-12% accuracy

Użycie

from code2logic import Analyzer

# Analiza projektu
analyzer = Analyzer("./my-project")
results = analyzer.analyze()

# Top 10 najważniejszych plików
for file, score in results.top_files(10):
    print(f"{file}: {score:.3f}")

# Graf zależności
results.export_graph("dependencies.dot")

# Raport markdown
results.generate_report("analysis.md")

Formaty Wyjściowe

Format	Status	Opis
TOON	✅ Stabilny	Token-Oriented Object Notation — kompaktowy
YAML	✅ Stabilny	Verbose mode z pełnymi detalami
Function Logic	✅ Stabilny	Logika funkcji w pseudokodzie
Markdown	✅ Stabilny	Raport czytelny dla człowieka
JSON	✅ Stabilny	Maszynowo przetwarzalny

Status Komponentów

Komponent	Status	Uwagi
Tree-sitter Parsing	✅ Stabilny	10+ języków
PageRank Algorithm	✅ Stabilny	Customizable damping
Dependency Graph	✅ Stabilny	Import/export detection
TOON Generator	✅ Stabilny	Kompaktowy format LLM-friendly
YAML Generator	✅ Stabilny	Verbose mode
Function Logic	✅ Stabilny	Pseudokod logiki
Report Generation	✅ Stabilny	Markdown, JSON
Shebang Detection	✅ Stabilny	Python/Node bez rozszerzenia
Re-export Detection	✅ Stabilny	JS/TS/Python
Visualization	🔄 In Progress	D3.js interactive
LLM Summaries	⏳ Planned	Q2 2026

Wyzwania

Dynamic Imports

Języki z dynamic imports (Python importlib, JS require()) są trudne do analizy statycznej.

Rozwiązanie: Heurystyki oparte o patterns + opcjonalna analiza runtime

Monorepo Support

Duże monorepa z wieloma pakietami wymagają segmentacji.

Rozwiązanie: Automatic package boundary detection

Roadmap

Q1 2026

Q2 2026

LLM-enhanced summaries
API documentation generation
CI/CD integration

Publikacje

"Applying PageRank to Code Dependency Analysis" - draft paper
Blog post: "How We Achieved 71% Reproduction Accuracy"

Linki

GitHub: github.com/wronai/code2logic
PyPI: pypi.org/project/code2logic
Paper: In preparation

Ostatnia aktualizacja: 10 lutego 2026