тезис: pipeline уже НЕ хаос. raw provenance, run contracts, graph schema и agent guardrails
есть. но система еще не замкнута: свежая truth уже частично ушла в `runs/ + state/ledgers`,
тогда как `graph/` и review-loop не догнали.
raw tier23andme + WGS VCF
graph nodes63 valid
run folders8 total
canonical complete5 / 8
слои системы
не один pipeline, а 6 связанных слоев. хорошие части уже машинно-контрактные. слабое место не в извлечении SNP-ов,
а в последнем мосте: от genetics outputs к operational truth и review cycle.
9/10strong
raw + provenance
23andme raw + tellmegene VCF allowlisted
FASTQ сохранен, но еще `needs_integrity_check`
preflight валидирует sample mismatch и чужие VCF
7/10good but uneven
runs / execution
8 run-папок, 5 полных canonical runs
energy_v2 и atlas частично заполнены
stage2 lipid folder пока вне полного contract
6/10partial canon
graph / schema
63 nodes valid, 0 schema errors
4 intents, 20 axes, 39 genes
нет lipid/lpa/pharma nodes, хотя run truth уже есть
8/10strong
agent control
manifest allowlist + excluded genome guard
`CLAIM_TYPES.md` тормозит overclaiming
machine-first v2 contract уже жесткий
5/10bridge weak
state integration
pharmacogenomics ledger обновлен и usable
next_data уже закрывает часть старых genetics questions
общего run → ledger bridge contract пока нет
3/10open gap
review / protocol loop
protocol_diff files есть
`review` nodes и generated protocol layer пустые
weekly revision loop задуман, но не институционализирован
end-to-end flow
это текущий реальный путь, если смотреть на репо без self-hypnosis. зеленое = работает. янтарное = работает, но не везде.
красное = архитектурно обещано, но системно не закрыто.
implemented
1. raw intake
`raw/23andme_Matskevich.txt`
`raw/tellmegene_ULZEDCBC3541.vcf.gz`
manifest allowlist
implemented
2. provenance gate
`preflight_provenance_check.rb`
sample-id check
unexpected VCF rejection
mostly live
3. run artifacts
`00_goal` → `05_protocol_diff`
full in 5 runs
partial in atlas / energy_v2 / stage2
partial canon
4. graph sync
energy + iron + skin covered
lipid pharma not synced
`evidence/protocol/review` empty
manual bridge
5. human/state surface
views exist, но их мало
protocols and ledgers partly updated
state beats stale summaries
not institutionalized
6. review loop
rollback conditions written
review nodes absent
no canonical run→review automation
coverage matrix
где какие domains реально стоят. критичный разлом: lipid-pharmacogenomics уже decision-grade по runs и state,
но formal graph-canon там еще не догнал.
domain
raw / ingest
run layer
graph layer
state / ledger
protocol / review
read
skin / matrix remodeling
legacy genes + WGS pass
builder-backed
axis + 7 genes
indirect only
view exists, review absent
best proof-of-concept for graph/view flow
energy v1 / v2
strong raw coverage
v1 complete, v2 near-complete
main graph backbone
not promoted as dedicated ledger
protocol diff yes, review no
most mature genetics-native domain
iron system
genetics + cross-domain intent
complete genetics run
intent draft
bridged into iron ledger only partially
protocol hypotheses exist
good mechanism layer, phenotype closure still open
full potential atlas
broad rsid extraction
missing protocol diff
not graph-synced
not operationalized
no formal review loop
good map, not yet a closed machine system
lipid / lpa / pharmacogenomics
strong raw + region annotation
v1 and v2 complete
graph gap
state ledger updated
protocol diff yes, review node no
truth outran architecture; this is the main structural debt
legacy per-gene / topics / maps
8 genes, 2 topics, 3 maps
ingress only
partly referenced
manual use
drift risk
valuable evidence base, but no longer canonical by policy
implemented vs weak vs missing
тут самое полезное: не “всё плохо / всё хорошо”, а где уже есть machinery, где semantic drift,
и где просто дырка.
implemented
что уже реально собрано
manifest allowlist и provenance preflight
schema validator на 63 graph nodes
machine-first run contract и claim taxonomy
build scripts для iron, atlas, lipid pgx, skin axis
decision-grade tier из 23andme + tellmegene vcf
pharmacogenomics выводы уже подняты в `state/ledgers`
weak
что работает, но ломает консистентность
graph задекларирован как canon, но покрывает не все активные domains
часть run-ов incomplete, а один stage2 folder вообще не canonical
generated views почти отсутствуют: сейчас их по сути один
legacy evidence живо и полезно, но drift-check почти ручной
state integration идет ad hoc, а не через formal bridge
single dashboard that always reflects latest genetics truth
agent layer
для агентов система уже намного лучше, чем обычный “копай markdown”. но агентам все еще не хватает одного жесткого моста:
когда genetics run ДОЛЖЕН менять graph и когда он ДОЛЖЕН менять `state`.
agents already know how
что агент умеет делать сейчас
стартовать от manifest-а и не трогать чужие геномы