Interface LlamaCppInputs

Note that the modelPath is the only required parameter. For testing you can set this in the environment variable LLAMA_PATH.

interface LlamaCppInputs {
    batchSize?: number;
    cache?: boolean | BaseCache<Generation[]>;
    callbackManager?: CallbackManager;
    callbacks?: Callbacks;
    concurrency?: number;
    contextSize?: number;
    embedding?: boolean;
    f16Kv?: boolean;
    gbnf?: string;
    gpuLayers?: number;
    jsonSchema?: object;
    logitsAll?: boolean;
    maxConcurrency?: number;
    maxRetries?: number;
    maxTokens?: number;
    metadata?: Record<string, unknown>;
    modelPath: string;
    onFailedAttempt?: FailedAttemptHandler;
    prependBos?: boolean;
    seed?: null | number;
    tags?: string[];
    temperature?: number;
    threads?: number;
    topK?: number;
    topP?: number;
    trimWhitespaceSuffix?: boolean;
    useMlock?: boolean;
    useMmap?: boolean;
    verbose?: boolean;
    vocabOnly?: boolean;
}

Hierarchy

LlamaBaseCppInputs
BaseLLMParams
- LlamaCppInputs

Properties

`Optional`batchSize

batchSize?: number

Prompt processing batch size.

`Optional`cache

cache?: boolean | BaseCache<Generation[]>

`Optional`callbackManager

callbackManager?: CallbackManager

Deprecated

Use callbacks instead

`Optional`callbacks

callbacks?: Callbacks

`Optional`concurrency

concurrency?: number

Deprecated

Use maxConcurrency instead

`Optional`contextSize

contextSize?: number

Text context size.

`Optional`embedding

embedding?: boolean

Embedding mode only.

`Optional`f16Kv

f16Kv?: boolean

Use fp16 for KV cache.

`Optional`gbnf

gbnf?: string

GBNF string to be used to format output. Also known as grammar.

`Optional`gpuLayers

gpuLayers?: number

Number of layers to store in VRAM.

`Optional`jsonSchema

jsonSchema?: object

JSON schema to be used to format output. Also known as grammar.

`Optional`logitsAll

logitsAll?: boolean

The llama_eval() call computes all logits, not just the last one.

`Optional`maxConcurrency

maxConcurrency?: number

The maximum number of concurrent calls that can be made. Defaults to Infinity, which means no limit.

`Optional`maxRetries

maxRetries?: number

The maximum number of retries that can be made for a single call, with an exponential backoff between each attempt. Defaults to 6.

`Optional`maxTokens

maxTokens?: number

`Optional`metadata

metadata?: Record<string, unknown>

modelPath

modelPath: string

Path to the model on the filesystem.

`Optional`onFailedAttempt

onFailedAttempt?: FailedAttemptHandler

Custom handler to handle failed attempts. Takes the originally thrown error object as input, and should itself throw an error if the input error is not retryable.

`Optional`prependBos

prependBos?: boolean

Add the begining of sentence token.

`Optional`seed

seed?: null | number

If null, a random seed will be used.

`Optional`tags

tags?: string[]

`Optional`temperature

temperature?: number

The randomness of the responses, e.g. 0.1 deterministic, 1.5 creative, 0.8 balanced, 0 disables.

`Optional`threads

threads?: number

Number of threads to use to evaluate tokens.

`Optional`topK

topK?: number

Consider the n most likely tokens, where n is 1 to vocabulary size, 0 disables (uses full vocabulary). Note: only applies when temperature > 0.

`Optional`topP

topP?: number

Selects the smallest token set whose probability exceeds P, where P is between 0 - 1, 1 disables. Note: only applies when temperature > 0.

`Optional`trimWhitespaceSuffix

trimWhitespaceSuffix?: boolean

Trim whitespace from the end of the generated text Disabled by default.

`Optional`useMlock

useMlock?: boolean

Force system to keep model in RAM.

`Optional`useMmap

useMmap?: boolean

Use mmap if possible.

`Optional`verbose

verbose?: boolean

`Optional`vocabOnly

vocabOnly?: boolean

Only load the vocabulary, no weights.

Interface LlamaCppInputs

Hierarchy

Index

Properties

Properties

`Optional`batchSize

`Optional`cache

`Optional`callbackManager

Deprecated

`Optional`callbacks

`Optional`concurrency

Deprecated

`Optional`contextSize

`Optional`embedding

`Optional`f16Kv

`Optional`gbnf

`Optional`gpuLayers

`Optional`jsonSchema

`Optional`logitsAll

`Optional`maxConcurrency

`Optional`maxRetries

`Optional`maxTokens

`Optional`metadata

modelPath

`Optional`onFailedAttempt

`Optional`prependBos

`Optional`seed

`Optional`tags

`Optional`temperature

`Optional`threads

`Optional`topK

`Optional`topP

`Optional`trimWhitespaceSuffix

`Optional`useMlock

`Optional`useMmap

`Optional`verbose

`Optional`vocabOnly

Settings

On This Page

Interface LlamaCppInputs

Hierarchy

Index

Properties

Properties

OptionalbatchSize

Optionalcache

OptionalcallbackManager

Deprecated

Optionalcallbacks

Optionalconcurrency

Deprecated

OptionalcontextSize

Optionalembedding

Optionalf16Kv

Optionalgbnf

OptionalgpuLayers

OptionaljsonSchema

OptionallogitsAll

OptionalmaxConcurrency

OptionalmaxRetries

OptionalmaxTokens

Optionalmetadata

modelPath

OptionalonFailedAttempt

OptionalprependBos

Optionalseed

Optionaltags

Optionaltemperature

Optionalthreads

OptionaltopK

OptionaltopP

OptionaltrimWhitespaceSuffix

OptionaluseMlock

OptionaluseMmap

Optionalverbose

OptionalvocabOnly

Settings

On This Page

`Optional`batchSize

`Optional`cache

`Optional`callbackManager

`Optional`callbacks

`Optional`concurrency

`Optional`contextSize

`Optional`embedding

`Optional`f16Kv

`Optional`gbnf

`Optional`gpuLayers

`Optional`jsonSchema

`Optional`logitsAll

`Optional`maxConcurrency

`Optional`maxRetries

`Optional`maxTokens

`Optional`metadata

`Optional`onFailedAttempt

`Optional`prependBos

`Optional`seed

`Optional`tags

`Optional`temperature

`Optional`threads

`Optional`topK

`Optional`topP

`Optional`trimWhitespaceSuffix

`Optional`useMlock

`Optional`useMmap

`Optional`verbose

`Optional`vocabOnly