策略的年化又创新高，近两年达290%，在qmt及掘金平台均有复现代码，交叉验证没有未来函数（python策略代码下载）

原创内容第859篇，专注智能量化投资、个人成长与财富自由。

vnpy新版的alpha模块挺好的。

咱们之前也是参考qlib的因子表达式，设计了自己的因子库。

不过我们是基于pandas来做的，vnpy这一版是根据polors，rust的库，性能更好。而且的alpha158复现了。同时拆出了最经典的线性，梯度提升树以及深度模型。值得分析一下。

核心代码我实现了一下，并用直接读我本地的csv:

import polars as plfrom datetime import datetimefrom pathlib import Pathfrom alpha.dataset.utility import DataProxyfrom assets import loggerfrom loguru import loggerdef calculate_by_expression(df: pl.DataFrame, expression: str) -> pl.DataFrame:    from alpha.dataset.ts_function import (  # noqa        ts_delay,        ts_min, ts_max,        ts_argmax, ts_argmin,        ts_rank, ts_sum,        ts_mean, ts_std,        ts_slope, ts_quantile,        ts_rsquare, ts_resi,        ts_corr,        ts_less, ts_greater,        ts_log, ts_abs    )    # Extract feature objects to local space    d: dict = locals()    for column in df.columns:        # Filter index columns        if column in {"date", "symbol"}:            continue        # Cache feature df        column_df = df[["date", "symbol", column]]        d[column] = DataProxy(column_df)    # Use eval to execute calculation    other: DataProxy = eval(expression, {}, d)    # Return result DataFrame    return other.dfdef load_df_from_csvs(folder_path: Path, symbols: list[str], start: datetime | str,                      end: datetime | str):    dfs: list = []    for s in symbols:        # Check if file exists        file_path: Path = folder_path.joinpath(f"{s}.csv")        if not file_path.exists():            logger.error(f"File {file_path} does not exist")            continue        # Open file        df: pl.DataFrame = pl.read_csv(file_path,dtypes={'date': pl.Utf8})        print(df)        # Filter by date range        df = df.filter((pl.col("date") >= start) & (pl.col("date") <= end))        # Specify data types        df = df.with_columns(            pl.col("open").cast(pl.Float32),            pl.col("high").cast(pl.Float32),            pl.col("low").cast(pl.Float32),            pl.col("close").cast(pl.Float32),            pl.col("volume").cast(pl.Float32),        )        # Check for empty data        if


    
 df.is_empty():            continue        dfs.append(df)    # Concatenate results    result_df: pl.DataFrame = pl.concat(dfs)    return result_dffrom config import DATA_DIR_QUOTESdf = load_df_from_csvs(DATA_DIR_QUOTES, symbols=['510300.SH','159915.SZ'],start='20100101',end='20250417')print(df)result = calculate_by_expression(df, 'close/ts_delay(close,5)-1')#df = result.to_pandas()#df.sort_values(by='date', ascending=True, inplace=True)print(result)

计算还是比较优雅的，

def ts_delay(feature: DataProxy, window: int) -> DataProxy:    """Get the value from a fixed time in the past"""    df: pl.DataFrame = feature.df.select(        pl.col("date"),        pl.col("symbol"),        pl.col("data").shift(window).over("symbol")    )    return DataProxy(df)