模型参数

在使用大语言模型（如 GPT-4、DeepSeek 等）时，模型参数用于调节模型的生成行为和输出效果。通过合理设置这些参数，可以控制模型的回答长度、内容多样性、创造性以及相关性等。不同的参数适用于不同的应用场景，例如问答、写作、代码生成等。理解和灵活运用这些参数，有助于提升模型的实用性和输出质量。

平台特性

活字格平台支持对 Max_Tokens、Temperature、Top_P 参数的配置。平台支持为每个 LLM 服务单独设置参数，开发者可根据不同业务需求（如对话、创作、工具调用等）灵活切换和调整。

Max_Tokens - 最大输出令牌数

Max_Tokens 是控制模型单次响应长度的参数，定义为生成文本的令牌（Token）数上限。在自然语言处理中，一个令牌可能是一个单词、子词或符号（例如“DeepSeek”可能被拆分为“Deep”和“Seek”）。该参数直接影响 API 调用的响应时间和费用（因多数服务按令牌计费）。若设置过低，可能导致回答截断；过高则浪费资源。合理值需平衡任务需求与成本，例如简短回复可设为 100-300，长文生成可能需要 1000 以上。注意，Max_Tokens 需与输入令牌数之和不超过模型上下文窗口限制。

Temperature - 采样温度参数

Temperature 是调节模型输出随机性的关键参数，范围通常为 0 到 2。其原理是调整 Softmax 函数对下一个词概率分布的平滑程度：

低温（如 0.1）：强化高概率词的选择，输出确定性高，适合事实性问答或代码生成。
高温（如 0.8 以上）：扁平化概率分布，增加多样性，适合创意写作或头脑风暴。

极端情况下，温度=0 转为贪婪搜索（始终选最高概率词），但可能导致重复文本。实际应用中需结合 Top_P 参数调整，避免无关内容或过度保守的回答。

Top_P (Nucleus Sampling) - 核取样参数

Top_P（又称 Nucleus Sampling）是一种动态选择候选词范围的解码策略，参数值为概率阈值（如 0.9）。其工作流程是：

对每一步预测，按概率降序排列所有可能的词。
累加概率直至总和超过 Top_P，仅保留该子集。
从子集中按重新归一化的概率采样。
与 Temperature 不同，Top_P 直接控制候选词集的“质量门槛”。低 Top_P（如 0.5）限制模型仅考虑高置信选项，减少无关输出；高 Top_P（如 1.0）等同于无限制。通常与 Temperature 配合使用，例如高温+低 Top_P 平衡创意与相关性。