entropic/backend__capability_8h_source.html

// SPDX-License-Identifier: Apache-2.0

#pragma once


#include <cstddef>

#include <string>


namespace entropic {


enum class BackendCapability : int {

    KV_CACHE = 0,

    HIDDEN_STATE = 1,

    STREAMING = 2,

    RAW_COMPLETION = 3,

    GRAMMAR = 4,

    LORA_ADAPTERS = 5,

    MULTI_SEQUENCE = 6,

    TOKENIZER = 7,

    LOG_PROBS = 8,

    VISION = 9,

    SPECULATIVE_DECODING = 10,

    PROMPT_CACHING = 11,

    AUDIO = 12,

    _COUNT

};


struct BackendInfo {

    std::string name;

    std::string version;

    std::string compute_device;

    std::string model_format;


    std::string architecture;


    int max_context_length = 0;


    size_t vram_bytes = 0;

    size_t ram_bytes = 0;

    size_t parameter_count = 0;

    std::string quantization;

};


} // namespace entropic

entropic
Activate model on GPU (WARM → ACTIVE).
Definition bundled_models.h:20

entropic::BackendCapability
BackendCapability
Capabilities that an inference backend may or may not support.
Definition backend_capability.h:33

entropic::BackendCapability::SPECULATIVE_DECODING
@ SPECULATIVE_DECODING
Speculative decoding compatibility.

entropic::BackendCapability::MULTI_SEQUENCE
@ MULTI_SEQUENCE
Multiple concurrent sequences on one model instance.

entropic::BackendCapability::PROMPT_CACHING
@ PROMPT_CACHING
Prompt cache prefix save/load (v1.8.3)

entropic::BackendCapability::HIDDEN_STATE
@ HIDDEN_STATE
Recurrent hidden state management (save/load/reset)

entropic::BackendCapability::GRAMMAR
@ GRAMMAR
GBNF grammar-constrained generation.

entropic::BackendCapability::TOKENIZER
@ TOKENIZER
Token counting / tokenizer access.

entropic::BackendCapability::VISION
@ VISION
Vision / multimodal input (v1.9.11)

entropic::BackendCapability::RAW_COMPLETION
@ RAW_COMPLETION
Raw text completion without chat template.

entropic::BackendCapability::LORA_ADAPTERS
@ LORA_ADAPTERS
LoRA adapter hot-swapping (v1.9.2)

entropic::BackendCapability::LOG_PROBS
@ LOG_PROBS
Log-probability retrieval (v1.9.10)

entropic::BackendCapability::STREAMING
@ STREAMING
Streaming token-by-token generation.

entropic::BackendCapability::KV_CACHE
@ KV_CACHE
KV cache state management (save/load/clear)

entropic::BackendCapability::AUDIO
@ AUDIO
Audio input via mtmd audio projector (gh#53, v2.3.0)

entropic::BackendCapability::_COUNT
@ _COUNT
Sentinel — must be last. Used for iteration/array sizing.

entropic::BackendInfo
Backend metadata for introspection.
Definition backend_capability.h:58

entropic::BackendInfo::ram_bytes
size_t ram_bytes
RAM consumed by loaded model (bytes). 0 if COLD.
Definition backend_capability.h:77

entropic::BackendInfo::max_context_length
int max_context_length
Maximum context length.
Definition backend_capability.h:74

entropic::BackendInfo::parameter_count
size_t parameter_count
Number of parameters (from model metadata).
Definition backend_capability.h:78

entropic::BackendInfo::architecture
std::string architecture
Architecture family of the loaded model.
Definition backend_capability.h:68

entropic::BackendInfo::compute_device
std::string compute_device
"cuda", "vulkan", "cpu", "npu"
Definition backend_capability.h:61

entropic::BackendInfo::name
std::string name
Backend identifier (e.g. "llama.cpp", "axcl")
Definition backend_capability.h:59

entropic::BackendInfo::quantization
std::string quantization
Quantization type (e.g. "IQ3_XXS", "Q8_0", "fp16").
Definition backend_capability.h:79

entropic::BackendInfo::version
std::string version
Backend version string.
Definition backend_capability.h:60

entropic::BackendInfo::vram_bytes
size_t vram_bytes
VRAM consumed by loaded model (bytes). 0 if COLD.
Definition backend_capability.h:76

entropic::BackendInfo::model_format
std::string model_format
"gguf", "axmodel", "onnx", etc.
Definition backend_capability.h:62