一、数据源:多维输入与噪声过滤
1. 原始数据构成
mermaid
Copy Code
graph LR
A[搜索行为数据] --> B(关键词搜索量)
C[用户画像数据] --> D(年龄/性别/地域)
E[设备环境数据] --> F(终端类型/网络环境)
G[关联行为数据] --> H(点击率/停留时长)
关键权重:搜索量占比约65%,用户画像权重20%,行为深度权重15%
2. 噪声清洗机制
噪声类型 过滤算法 处理方式
机器刷量 行为模式识别 剔除非人类操作曲线
集中搜索 地域离散度分析 超过阈值则降权50%
热点污染 时间衰减修正 突发峰值按指数平滑处理
恶意点击 点击-转化关联模型 无效点击不计入指数
二、指数计算:三层加权炼金术
1. 基础权重分配
python
Copy Code
# 伪代码:基础指数计算逻辑
def calc_base_index(keyword):
raw_searches = get_daily_searches(keyword) # 获取原始搜索量
user_value = calculate_user_value(user_profile) # 用户价值权重 (1-5级)
regional_coeff = get_regional_coeff(province) # 地域系数 (北上广深=1.2, 农村=0.8)
device_weight = 1.2 if mobile else 1.0 # 移动端加权
base_index = (raw_searches * user_value * regional_coeff * device_weight)
return normalize(base_index) # 归一化处理
2. 趋势动量修正
趋势类型 动量系数 算法原理
持续上升 1.1-1.5 基于时间序列ARIMA模型预测
断崖下跌 0.6-0.8 检测异常波动自动降权
周期性波动 0.9-1.1 傅里叶变换消除季节影响
3. 行业基准归一化
将绝对值转换为相对值: