Быстрый старт по DataStore

Начните работу с DataStore за считанные минуты. В этом руководстве рассматриваются установка, миграция с pandas и основные сценарии использования.

Установка

Установите chDB с помощью pip:

pip install "chdb>=4.0"

Для необязательных зависимостей:

# For pandas DataFrame support
pip install "chdb[pandas]>=4.0"

# For PyArrow support
pip install "chdb[arrow]>=4.0"

# All optional dependencies
pip install "chdb[all]>=4.0"

Проверка установки

import chdb
print(chdb.__version__)  # Should print 4.x.x or higher

from chdb import datastore as pd
print("DataStore ready!")

Однострочная миграция с Pandas

Самый простой способ начать работу с DataStore — просто изменить строку импорта:

# Before (pandas)
import pandas as pd

# After (DataStore)
from chdb import datastore as pd

Вот и всё! Теперь ваш существующий код на pandas будет использовать DataStore и выигрывать от оптимизации SQL.

Пример переноса данных

# Original pandas code
import pandas as pd

df = pd.read_csv("employees.csv")
result = (df[df['salary'] > 50000]
          .groupby('department')['salary']
          .agg(['mean', 'count'])
          .sort_values('mean', ascending=False))
print(result)

# DataStore version - just change the import!
from chdb import datastore as pd

df = pd.read_csv("employees.csv")
result = (df[df['salary'] > 50000]
          .groupby('department')['salary']
          .agg(['mean', 'count'])
          .sort_values('mean', ascending=False))
print(result)  # Same result, faster execution!

Основы использования

Создание хранилища данных DataStore

from chdb import datastore as pd

# From a dictionary
ds = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['NYC', 'LA', 'NYC']
})

# From a pandas DataFrame
import pandas
pdf = pandas.DataFrame({'a': [1, 2, 3], 'b': [4, 5, 6]})
ds = pd.DataFrame(pdf)

# From a CSV file
ds = pd.read_csv("data.csv")

# From a Parquet file (recommended for large datasets)
ds = pd.read_parquet("data.parquet")

Фильтрация данных

from chdb import datastore as pd

ds = pd.read_csv("employees.csv")

# Single condition
senior = ds[ds['age'] > 30]

# Multiple conditions (AND)
senior_nyc = ds[(ds['age'] > 30) & (ds['city'] == 'NYC')]

# Multiple conditions (OR)
young_or_senior = ds[(ds['age'] < 25) | (ds['age'] > 50)]

# Using filter method (SQL-style)
result = ds.filter(ds['salary'] > 50000)

Выбор столбцов

# Pandas style
subset = ds[['name', 'age']]

# SQL style
subset = ds.select('name', 'age')

Сортировка

# Pandas style
sorted_ds = ds.sort_values('salary', ascending=False)

# SQL style
sorted_ds = ds.sort('salary', ascending=False)

Группировка и агрегирование

from chdb import datastore as pd

ds = pd.read_csv("sales.csv")

# Group by single column
by_region = ds.groupby('region')['amount'].sum()

# Group by multiple columns
by_region_product = ds.groupby(['region', 'product']).agg({
    'amount': ['sum', 'mean'],
    'quantity': 'sum'
})

# Multiple aggregations
summary = ds.groupby('category').agg({
    'price': ['min', 'max', 'mean'],
    'quantity': 'sum'
})

Объединение хранилищ данных

from chdb import datastore as pd

employees = pd.read_csv("employees.csv")
departments = pd.read_csv("departments.csv")

# Inner join
result = employees.join(departments, on='dept_id', how='inner')

# Left join
result = employees.join(departments, on='dept_id', how='left')

# Using merge (pandas style)
result = pd.merge(employees, departments, on='dept_id')

Получение результатов

DataStore использует отложенное вычисление (lazy evaluation) — операции не выполняются, пока не потребуются результаты.

Запуск выполнения запроса

# Automatic triggers
print(ds)           # Displaying results
len(ds)             # Getting row count
ds.columns          # Accessing properties
list(ds)            # Converting to list

# Explicit conversion
df = ds.to_df()     # Convert to pandas DataFrame
df = ds.to_pandas() # Same as to_df()

Просмотр сгенерированного SQL-кода

# See what SQL DataStore will execute
query = ds.filter(ds['age'] > 25).groupby('city').agg({'salary': 'mean'})
print(query.to_sql())

Результат:

SELECT city, AVG(salary) AS mean
FROM file('data.csv', 'CSVWithNames')
WHERE age > 25
GROUP BY city

Работа с разными источниками данных

Локальные файлы

from chdb import datastore as pd

# CSV
ds = pd.read_csv("data.csv")

# Parquet (best performance)
ds = pd.read_parquet("data.parquet")

# JSON
ds = pd.read_json("data.json")

Облачное хранилище

from chdb.datastore import DataStore

# S3 (anonymous)
ds = DataStore.uri("s3://bucket/data.parquet?nosign=true")

# S3 (with credentials)
ds = DataStore.from_s3(
    "s3://bucket/data.parquet",
    access_key_id="KEY",
    secret_access_key="SECRET"
)

# HTTP/HTTPS
ds = DataStore.uri("https://example.com/data.csv")

Базы данных

from chdb.datastore import DataStore

# MySQL
ds = DataStore.from_mysql(
    host="localhost",
    database="mydb",
    table="users",
    user="root",
    password="pass"
)

# PostgreSQL
ds = DataStore.from_postgresql(
    host="localhost",
    database="mydb",
    table="users",
    user="postgres",
    password="pass"
)

# Using URI
ds = DataStore.uri("mysql://user:pass@localhost:3306/mydb/users")

Операции со строками и типом DateTime

Строковые операции

# All pandas .str methods work
ds['name_upper'] = ds['name'].str.upper()
ds['name_len'] = ds['name'].str.len()
ds['has_a'] = ds['name'].str.contains('a')

Операции с датой и временем

# All pandas .dt methods work
ds['year'] = ds['date'].dt.year
ds['month'] = ds['date'].dt.month
ds['day_of_week'] = ds['date'].dt.dayofweek

Расширения ClickHouse

# URL parsing (not available in pandas!)
ds['domain'] = ds['url'].url.domain()

# JSON extraction
ds['user_name'] = ds['json_data'].json.get_string('name')

# IP address operations
ds['is_ipv4'] = ds['ip_addr'].ip.is_ipv4_string()

Дальнейшие шаги

Узнайте обо всех Factory Methods для создания DataStore
Изучите Query Building для операций в стиле SQL
Ознакомьтесь с Accessors для строк, дат и времени и многого другого
Прочитайте Performance Guide с советами по оптимизации

Быстрый старт по DataStore

Установка

Проверка установки

Однострочная миграция с Pandas

Пример переноса данных

Основы использования

Создание хранилища данных DataStore

Фильтрация данных

Выбор столбцов

Сортировка

Группировка и агрегирование

Объединение хранилищ данных

Получение результатов

Запуск выполнения запроса

Просмотр сгенерированного SQL-кода

Работа с разными источниками данных

Локальные файлы

Облачное хранилище

Базы данных

Операции со строками и типом DateTime

Строковые операции

Операции с датой и временем

Расширения ClickHouse

Рекомендации

1. Используйте формат Parquet для больших файлов

2. Фильтруйте как можно раньше

3. Выбирайте только нужные столбцы

4. Используйте SQL для сложных операций

Дальнейшие шаги

Установка​

Проверка установки​

Однострочная миграция с Pandas​

Пример переноса данных​

Основы использования​

Создание хранилища данных DataStore​

Фильтрация данных​

Выбор столбцов​

Сортировка​

Группировка и агрегирование​

Объединение хранилищ данных​

Получение результатов​

Запуск выполнения запроса​

Просмотр сгенерированного SQL-кода​

Работа с разными источниками данных​

Локальные файлы​

Облачное хранилище​

Базы данных​

Операции со строками и типом DateTime​

Строковые операции​

Операции с датой и временем​

Расширения ClickHouse​

Рекомендации​

1. Используйте формат Parquet для больших файлов​

2. Фильтруйте как можно раньше​

3. Выбирайте только нужные столбцы​

4. Используйте SQL для сложных операций​

Дальнейшие шаги​

Установка

Проверка установки

Однострочная миграция с Pandas

Пример переноса данных

Основы использования

Создание хранилища данных DataStore

Фильтрация данных

Выбор столбцов

Сортировка

Группировка и агрегирование

Объединение хранилищ данных

Получение результатов

Запуск выполнения запроса

Просмотр сгенерированного SQL-кода

Работа с разными источниками данных

Локальные файлы

Облачное хранилище

Базы данных

Операции со строками и типом DateTime

Строковые операции

Операции с датой и временем

Расширения ClickHouse

Рекомендации

1. Используйте формат Parquet для больших файлов

2. Фильтруйте как можно раньше

3. Выбирайте только нужные столбцы

4. Используйте SQL для сложных операций

Дальнейшие шаги