genous110

PyTorch入门学习（七）：数据加载与处理

写在前面
未经允许，不得转载，谢谢~~
在深度学习的问题中处理数据都会占据比较大的时间，只有把数据处理好了才有可能对模型进行训练、测试等后续工作。
PyTorch提供了很多用于让数据加载变得更加方便的工具，接下来我们就来学习一下怎么样处理那些PyTorch没有提供直接接口的数据。
在学习这个之前，首先要保证电脑上已经安装了下面这两样东西：

scikit-image：用于图像输入输出和转换
pandas：用于更好的处理csv数据

这篇文章内容还是比较多的，但认真看完应该就可以掌握各种数据集的处理了。

头文件导入
from future import print_function, division
import os
import torch
import pandas as pd
from skimage import io, transform
import numpy as np
import matplotlib.pyplot as plt
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms, utils

Ignore warnings

import warnings
warnings.filterwarnings(“ignore”)

plt.ion() # interactive mode

数据集介绍及下载
2.1 数据集介绍
接下来我们要处理的数据集是关于脸部姿势的，每张图片都会被注释成这样，每张脸上都会有68各不同的标记点：

2.2 数据集下载与展示

戳这里下载需要教程中用到的脸部数据集，跟数据集一起的还有一个注释文件face_landmarks.csv。
直接打开如下图所示：

csv文件

即每张图片都对应一个文件名和对应的N个脸部特征标记点。

在注释文件中的是N个坐标点，每个坐标点由两个横纵坐标组成。所以先用pandas工具把注释文件处理一下。

landmarks_frame = pd.read_csv(‘faces/face_landmarks.csv’)

n = 65
img_name = landmarks_frame.iloc[n, 0]
landmarks = landmarks_frame.iloc[n, 1:].as_matrix()
landmarks = landmarks.astype(‘float’).reshape(-1, 2)

print(‘Image name: {}’.format(img_name))
print(‘Landmarks shape: {}’.format(landmarks.shape))
print(‘First 4 Landmarks: {}’.format(landmarks[:4]))

得到的结果为：
)
3.将图像和对应的特征点标记出来展示。
def show_landmarks(image, landmarks):
“”“Show image with landmarks”""
plt.imshow(image)
plt.scatter(landmarks[:, 0], landmarks[:, 1], s=10, marker=’.’, c=‘r’)
plt.pause(0.001) # pause a bit so that plots are updated

plt.figure()
show_landmarks(io.imread(os.path.join(‘faces/’, img_name)),
landmarks)
plt.show()

得到的结果为：

3. Dataset类介绍
3.1 原理介绍
torch.utils.data.Dataset是一个PyTorch用来表示数据集的抽象类。我们用这个类来处理自己的数据集的时候必须继承Dataset,然后重写下面的函数：

len: 使得len(dataset)返回数据集的大小；

getitem：使得支持dataset[i]能够返回第i个数据样本这样的下标操作。

3.2 创建脸部图像数据集

在类的__init__函数中完成csv文件的读取工作；
在类的__getitem__函数中完成图片的读取工作。这样是为了减小内存开销，只要在需要用到的时候才将图片读入。
除此，数据集还会接收一个可以选择的参数transform，用来对图像做一些改变，具体的会在下面进行介绍。
最终返回的样本数据是一个字典形式的，如下所示：{‘image’:image,‘landmarks’:landmarks}

那么现在我们就可以写出类的定义：
class FaceLandmarksDataset(Dataset):
“”“Face Landmarks dataset.”""

def __init__(self, csv_file, root_dir, transform=None):
    """
    Args:
        csv_file (string): Path to the csv file with annotations.
        root_dir (string): Directory with all the images.
        transform (callable, optional): Optional transform to be applied
            on a sample.
    """
    self.landmarks_frame = pd.read_csv(csv_file)
    self.root_dir = root_dir
    self.transform = transform

def __len__(self):
    return len(self.landmarks_frame)

def __getitem__(self, idx):
    img_name = os.path.join(self.root_dir,
                            self.landmarks_frame.iloc[idx, 0])
    image = io.imread(img_name)
    landmarks = self.landmarks_frame.iloc[idx, 1:].as_matrix()
    landmarks = landmarks.astype('float').reshape(-1, 2)
    sample = {'image': image, 'landmarks': landmarks}

    if self.transform:
        sample = self.transform(sample)

    return sample

3.3 实例化类
接下来我们对上面定义好的类做实例化，然后在数据样本上进行迭代。我们会打印前4个样本图像及其对应的坐标点。
face_dataset = FaceLandmarksDataset(csv_file=‘faces/face_landmarks.csv’,
root_dir=‘faces/’)

fig = plt.figure()

for i in range(len(face_dataset)):
sample = face_dataset[i]

print(i, sample['image'].shape, sample['landmarks'].shape)

ax = plt.subplot(1, 4, i + 1)
plt.tight_layout()
ax.set_title('Sample #{}'.format(i))
ax.axis('off')
show_landmarks(**sample)

if i == 3:
    plt.show()
    break

结果如下所示：

4. Transforms
从上面显示的图片我们可以看到每张图片的大小都不一样，但往往我们在处理神经网络的输入图像的时候都希望它们有一个相对固定的大小。因此，我们需要一些对图像进行预处理的工作。
4.1 实现常用变换功能
我们试着写一下这三个常用的变换功能：

Rescale：重新调整图像大小；

RandomCrop：随机从图像中截取一部分；

ToTensor：将numpy类型表示的图像转换成torch表示的图像。

我们用类而不是函数来实现以上这三个功能，主要是考虑到如果用函数的话，每次都需要传入参数，但是用类就可以省掉很多麻烦。我们只需要实现每个类的__call__函数和__init__函数。
下面是对这三个功能的实现：
class Rescale(object):
“”"Rescale the image in a sample to a given size.

Args:
    output_size (tuple or int): Desired output size. If tuple, output is
        matched to output_size. If int, smaller of image edges is matched
        to output_size keeping aspect ratio the same.
"""

def __init__(self, output_size):
    assert isinstance(output_size, (int, tuple))
    self.output_size = output_size

def __call__(self, sample):
    image, landmarks = sample['image'], sample['landmarks']

    h, w = image.shape[:2]
    if isinstance(self.output_size, int):
        if h > w:
            new_h, new_w = self.output_size * h / w, self.output_size
        else:
            new_h, new_w = self.output_size, self.output_size * w / h
    else:
        new_h, new_w = self.output_size

    new_h, new_w = int(new_h), int(new_w)

    img = transform.resize(image, (new_h, new_w))

    # h and w are swapped for landmarks because for images,
    # x and y axes are axis 1 and 0 respectively
    landmarks = landmarks * [new_w / w, new_h / h]

    return {'image': img, 'landmarks': landmarks}

class RandomCrop(object):
“”"Crop randomly the image in a sample.

Args:
    output_size (tuple or int): Desired output size. If int, square crop
        is made.
"""

def __init__(self, output_size):
    assert isinstance(output_size, (int, tuple))
    if isinstance(output_size, int):
        self.output_size = (output_size, output_size)
    else:
        assert len(output_size) == 2
        self.output_size = output_size

def __call__(self, sample):
    image, landmarks = sample['image'], sample['landmarks']

    h, w = image.shape[:2]
    new_h, new_w = self.output_size

    top = np.random.randint(0, h - new_h)
    left = np.random.randint(0, w - new_w)

    image = image[top: top + new_h,
                  left: left + new_w]

    landmarks = landmarks - [left, top]

    return {'image': image, 'landmarks': landmarks}

class ToTensor(object):
“”“Convert ndarrays in sample to Tensors.”""

def __call__(self, sample):
    image, landmarks = sample['image'], sample['landmarks']

    # swap color axis because
    # numpy image: H x W x C
    # torch image: C X H X W
    image = image.transpose((2, 0, 1))
    return {'image': torch.from_numpy(image),
            'landmarks': torch.from_numpy(landmarks)}

4.2 组合以上变换功能
假设我们现在需要将图像的较短边调整到256，然后从中随机截取224的正方形图像。我们就可以调用torchvision.transforms.Compose将以上的Rescale和RandomCrop两个变换组合起来。
以下的代码段展示了分开进行变换以及用Compose组合进行变换的结果图
scale = Rescale(256)
crop = RandomCrop(128)
composed = transforms.Compose([Rescale(256),
RandomCrop(224)])

Apply each of the above transforms on sample.

fig = plt.figure()
sample = face_dataset[65]
for i, tsfrm in enumerate([scale, crop, composed]):
transformed_sample = tsfrm(sample)

ax = plt.subplot(1, 3, i + 1)
plt.tight_layout()
ax.set_title(type(tsfrm).__name__)
show_landmarks(**transformed_sample)

plt.show()

５. 合并dataset与transform、遍历数据集
简单回顾一下：

第３小节我们介绍了dataset类;
第４小节我们我们介绍了怎么样实现各个转换函数，然后将其组合起来。

如果你还记得的话，我们在之前定义dataset的时候是有一个transform参数的，但我们在第４节中是先取了样本数据，然后再进行变换操作，并没有将其作为参数传到dataset中。所以我们现在要做的工作就是将所有的内容集成到一起。每次抽取一个样本，都会有以下步骤：

从文件中读取图片；
将转换应用于读入的图片；
由于做了随机选取的操作，所以起到了数据增强的效果。

其实我们只要把Transform的部分作为形参传入dataset就可以了，其他的都不变。
然后用for循环来依次获得数据集样本。
transformed_dataset = FaceLandmarksDataset(csv_file=‘faces/face_landmarks.csv’,
root_dir=‘faces/’,
transform=transforms.Compose([
Rescale(256),
RandomCrop(224),
ToTensor()
]))

for i in range(len(transformed_dataset)):
sample = transformed_dataset[i]

print(i, sample['image'].size(), sample['landmarks'].size())

if i == 3:
    break

取到的四个数据样本如下所示：

6. DataLoader类
以上我们已经实现了dataset与transform的合并，也实现了用for循环来获取每一个样本数据，好像事情就已经结束了。
但等等，真的结束了吗？eｍｍｍｍ，我们好像还落了什么事情，是的没错：

按照batch_size获得批量数据；
打乱数据顺序；
用多线程multiprocessing来加载数据；

torch.utils.data.DataLoader这个类为我们解决了以上所有的问题，是不是很腻害～
只要按照要求设置DataLoader的参数即可:

第一个参数传入transformed_dataset，即已经用了transform的Dataset实例。
第二个参数传入batch_size，表示每个batch包含多少个数据。
第三个参数传入shuffle，布尔型变量，表示是否打乱。
第四个参数传入num_workers表示使用几个线程来加载数据。

如下所示即实现了DataLoader函数的使用，及批样本数据的展示。
dataloader = DataLoader(transformed_dataset, batch_size=4,
shuffle=True, num_workers=4)

Helper function to show a batch

def show_landmarks_batch(sample_batched):
“”“Show image with landmarks for a batch of samples.”""
images_batch, landmarks_batch =
sample_batched[‘image’], sample_batched[‘landmarks’]
batch_size = len(images_batch)
im_size = images_batch.size(2)

grid = utils.make_grid(images_batch)
plt.imshow(grid.numpy().transpose((1, 2, 0)))

for i in range(batch_size):
    plt.scatter(landmarks_batch[i, :, 0].numpy() + i * im_size,
                landmarks_batch[i, :, 1].numpy(),
                s=10, marker='.', c='r')

    plt.title('Batch from dataloader')

for i_batch, sample_batched in enumerate(dataloader):
print(i_batch, sample_batched[‘image’].size(),
sample_batched[‘landmarks’].size())

# observe 4th batch and stop.
if i_batch == 3:
    plt.figure()
    show_landmarks_batch(sample_batched)
    plt.axis('off')
    plt.ioff()
    plt.show()
    break

这样呢其实就完成了对数据集完整的处理了。
7. torchvision
torchvision包提供了一些常用的数据集和转换函数。使用torchvision甚至不需要自己写处理函数。
在torchvision中最通用的数据集是ImageFolder，它假设数据结构为如下：
root/ants/xxx.png
root/ants/xxy.jpeg
root/ants/xxz.png
.
.
.
root/bees/123.jpg
root/bees/nsdf3.png
root/bees/asd932_.png

这里的root指代根目录，ants bees指的是不同的类标签，后面的是具体的图片名称。
当然它还提供了对PIL.Image的常用操作，包括RandomHorizontalFlip Scale等等。
以下为用torchvision实现的超简化版本的数据处理方法：
import torch
from torchvision import transforms, datasets

data_transform = transforms.Compose([
transforms.RandomSizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
])
hymenoptera_dataset = datasets.ImageFolder(root=‘hymenoptera_data/train’,
transform=data_transform)
dataset_loader = torch.utils.data.DataLoader(hymenoptera_dataset,
batch_size=4, shuffle=True,
num_workers=4)

整理总结
我们来整理一下整个实现思路哦～
主要分以下三种情况：
1 对于torchvision提供的数据集

这是最简单的一种情况。
对于这一类数据集，就是PyTorch已经帮我们做好了所有的事情，连数据源都不需要自己下载。
Imagenet，CIFAR10，MNIST等等PyTorch都提供了数据加载的功能，所以可以先看看你要用的数据集是不是这种情况。
具体的使用方法详见之前的博客Pytorch入门学习（四）－training a classifier

2 对于特定结构的数据集

这种情况就是不在上述PyTorch提供数据库之列，但是满足下面的形式：
root/ants/xxx.png
root/ants/xxy.jpeg
root/ants/xxz.png
.
.
.
root/bees/123.jpg
root/bees/nsdf3.png
root/bees/asd932_.png

那么就可以通过torchvision中的通用数据集ImageFolder来完成加载。
具体使用方法见上文。

3 对于最普通的数据集

最后一种情况是既不是自带数据集，又不满足ImageFolder,这种时候就自己进行处理。
首先，定义数据集的类（myDataset），这个类要继承dataset这个抽象类，并实现__len__以及__getitem__这两个函数，通常情况还包括初始函数__init__.
然后，实现用于特定图像预处理的功能，并封装成类。当然常用的一些变换可以在torchvision中找到。用torchvision.transforms.Compose将它们进行组合成(transform)

transform作为上面myDataset类的参数传入，并得到实例化myDataset得到（transformed_dataset）对象。
最后，将transformed_dataset作为torch.utils.data.DataLoader类的形参，并根据需求设置自己是否需要打乱顺序，批大小…
具体见上文。

参考资料
Data Loading and Processing Tutorial

前端数据库：IndexedDB从基础到高级使用指南
文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
pytorch学习笔记-自定义卷积墨染枫深度学习 pytorch 学习笔记
未完结的草稿———！大概是准备整合一下常见的层，整合完感觉就可以进行搭建了（还没进行到这一步所以不太确定版）（ps我将在完结这一篇的时候删除上面的小字and二编一下整篇文章的结构，如果看到了这部分文字也是很有缘分了/doge这一部分感觉也没啥好说的==也就是reshape部分值得注意一下？剩下的感觉就是了解一下用法就可以importtorchimporttorch.nnasnnimporttorc
【Zephyr开发实践系列】07_SPI-Flash数据操作的非对齐与边界处理分析 jz-炸芯片的zero Zephyr实践开发算法驱动开发物联网 stm32 硬件工程
文章目录前言一、操作边界对比二、NANDFlash物理结构回顾2.1华邦W25N04K典型结构2.2关键约束三、边界问题3.1跨页写入实例（假设页大小为4KB）3.2跨页写入实例（假设页大小为4KB）四、读写操作的三段式非对齐处理4.1三段式分段4.2数据读取4.3数据写入五、擦除操作的边界特性与数据对齐5.1擦除边界特性5.1数据对齐总结前言在嵌入式存储设备开发当中，Flash的页编程与块擦除带
Typecho Handsome 添加实时QPS图表 - 兼容主题pjax BXCQ_xuan php
文章目录一、最终效果二、实现原理三、文件准备1.数据读取脚本2.数据更新脚本3.ECharts延迟加载器4.后台数据更新器(JS)四、侧边栏集成五、整合与配置(关键步骤)六、故障排查对于使用TypechoHandsome主题的博主来说，在侧边栏添加一个能实时反馈网站负载的QPS(每秒查询率)图表，是一项非常酷的功能。然而，Handsome主题强大的PJAX无刷新加载特性，也给这类需要持续运行的动态
Python与数据分析库Pandas进阶
Python与数据分析库Pandas进阶一、开篇：Pandas的魅力1.1数据分析：不仅仅是数字游戏1.2为什么选择Pandas二、基础篇：掌握Pandas的核心2.1数据结构：Series与DataFrame2.2数据读取与存储2.3数据清洗：让数据更加干净三、进阶篇：Pandas的高级功能3.1数据重塑：让数据更加符合需求3.2数据合并：拼接与连接3.3数据分组与聚合：挖掘数据深层含义四、实战
使用QMI8658六轴原始数据融合输出欧拉角笔记
关于四元素和三维旋转的知识，推荐看一下https://github.com/Krasjet/quaternion。qmi8658六轴姿态传感器的原始数据读取函数如下。需要注意的是，陀螺仪数据的格式。voidQmi8658_read_acc_xyz(floatacc_xyz[3]){unsignedcharbuf_reg[6];shortraw_acc_xyz[3];Qmi8658_read_reg
ABAP Excel文件数据读取(xstring文件流) 谢图图功能速食 abap
方式一：使用标准类CL_FDT_XL_SPREADSHEET，读取xlsx格式文件流数据，该类在note2468709–标准类CL_FDT_XL_SPREADSHEET的使用中说明不支持在BRFplus工作台之外的场景使用，但是实际使用中出问题的情况很少，属于方便，可用，但是不保证没问题的方式。示例如下DATA:document_nameTYPEstring,xdocumentTYPExstrin
LabVIEW串口通信实战教程：上位机与下位机数据交互安检
本文还有配套的精品资源，点击获取简介：LabVIEW作为一种图形化编程工具，非常适合开发用于测试、测量和控制的应用程序。本文介绍了一个LabVIEW串口通信实例——“串口助手.vi”，通过它可以作为上位机接收下位机通过串口发送的数据。文章详细解释了LabVIEW中串口通信的关键技术点，包括串口配置、打开和关闭串口、数据读取与写入、错误处理、数据解析、用户界面设计、事件结构以及实时监控。掌握这些技术
Redis有哪些常用应用场景?
大家好，我是锋哥。今天分享关于【Redis有哪些常用应用场景?】面试题。希望对大家有帮助；Redis有哪些常用应用场景?超硬核AI学习资料，现在永久免费了！Redis是一种高性能的内存数据库，常用于以下应用场景：缓存Redis常作为缓存解决方案，提高数据读取效率，减轻数据库负担。常用于存储热点数据、频繁访问的资源。会话存储Redis可以高效存储用户会话信息（Session），支持大规模高并发的读写
深度模型训练，加速数据读取遇到显卡跑不满的问题不是吧这都有重名遇到的问题 llama 人工智能 LLM python
实测在pytorch的dataloader中使用prefetch_factor参数的时候，如果数据在机械硬盘上显卡始终是跑不满的，瓶颈在数据预加载速度上，当数据放在固态硬盘的时候就可以跑满。问题排查过程：一直在跑模型，但是数据量比较大，之前有段时间还是比较头疼显卡跑不满的。后来直接用钞能力，加了内存条，将数据缓存后一次性读到内存中终于可以跑满了，然后后面就一直没管这个了，唯一的缺点就是每次开始训练
23.5.15---在python中读取excel表格数据并可视化多一点灵性 python matplotlib 开发语言机器学习
目录1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）2.在将excel表格文件中的数据读取出来，并将其中的两列数据作为行列坐标用图画出来2.1设置坐标轴显示的刻度及范围3.在PythonConsole清除运行的控制台数据使用：1.在python中通过以下代码可以防止运行结果出现中文乱码的情况（如画图时）##设置字符集，防止中文乱码importmatplotlibasm
【Pytorch学习笔记（三）】张量的运算（2）
一、引言在《张量的运算(1)》中我们已经学习了几种张量中常用的非算数运算如张量的索引与切片，张量的拼接等。本节我们继续学习张量的算术运算。二、张量的算术运算（一）对应元素的加减乘除在PyTorch中，张量的对应元素的算术运算包括加法、减法、乘法、除法等常见的数学运算。这些运算可以对张量进行逐元素操作（element-wise），也可以进行张量之间的广播运算（broadcasting）。1.逐元素操
spring boot + caffeine使用月光一族吖 spring boot spring java
一、Caffeine缓存背景Caffeine是一个高性能、可扩展的Java缓存库，由Google的BenManes开发。Caffeine基于ConcurrentHashMap设计，采用了近似LRU（LeastRecentlyUsed，最近最少使用）算法，以实现高速缓存淘汰策略。Caffeine广泛应用于各类Java项目中，作为一种提高数据读取性能的优秀解决方案。二、Caffeine缓存优点与缺点优
Excel文件解析：操作系统与应用程序的分工你一身傲骨怎能输游戏工具链 excel
文章摘要本文介绍了操作系统和应用程序在Excel文件处理中的分工。操作系统仅负责文件存储管理和类型识别，不解析内容；而应用程序则负责解析Excel文件的具体格式。对于.xlsx文件，应用程序会先解压zip包，再解析其中的XML文件（如workbook.xml）重建表格数据。文章以C#的ExcelDataReader库为例，展示了从文件打开到数据读取的具体流程。总结指出：操作系统管文件存取，应用程序
「日拱一码」014 Python常用库——Pandas
目录数据结构pandas.Series：一维数组，类似于数组，但索引可以是任意类型，而不仅仅是整数pandas.DataFrame：二维表格型数据结构，类似于Excel表格，每列可以是不同的数据类型数据读取与写入读取数据pd.read_csv()：读取CSV文件pd.read_excel()：读取Excel文件pd.read_sql()：从数据库读取数据写入数据DataFrame.to_csv()
Redis 持久化之 AOF 策略
1.什么是AOFAOF是appendonlyfile，AOF文件中记录了每次的操作指令，在启动Redis时，会将AOF文件中的数据读取出来以恢复数据。2.开启AOFRedis默认关闭AOF，可以通过将Redis配置文件中的appendonly设置为yes，这样就开启了AOF，此时RDB就会关闭，只能使用AOF和RDB中的一个。3.AOF的工作流程用户执行指令后，会将该指令写入到AOF缓冲区（aof
Python 数据分析实践经验与学习心得 lzzy_sj_0999 python 数据分析开发语言
在当今数据驱动的时代，Python以其丰富的库和便捷的语法，成为数据分析领域的首选语言。本文将结合实际案例，分享Python数据分析的学习心得与实践经验，涵盖数据读取、清洗、分析及可视化等关键环节，希望能为大家的学习和工作提供帮助。一、数据分析必备库介绍在Python数据分析中，有几个核心库是必须掌握的，它们就像我们手中的“神兵利器”，能够高效完成各种数据分析任务。Pandas：用于数据处理和分析
探索 SSD FW 顶层架构：开发难题与应对策略 Richard_Lynn SSD SSD FW顶层架构要素
探索SSDFW顶层架构：开发难题与应对策略在SSD开发的复杂版图中，FW（固件）顶层架构是核心支撑，决定着SSD的性能、稳定性与兼容性。但开发过程中，各类难题如荆棘丛生，今天就结合架构元素与实际挑战，聊聊SSDFW开发那些事儿。一、FW顶层架构关键元素解析（一）FSP：闪存信号处理的“精准操盘手”FSP承担读恢复、最优读电压表管理重任。SSD运行中，NAND闪存因磨损、温度变化，数据读取易出错。F
【Pytorch学习笔记】模型模块09——VGG详解越轨 Pytorch学习笔记 pytorch 学习笔记深度学习人工智能 python
一、VGG核心设计原理小卷积核堆叠用多层3×3卷积替代大卷积核（如5×5/7×7）数学原理：2层3×3卷积感受野等效于5×5：RFout=(RFin−1)×stride+KRF_{out}=(RF_{in}-1)\timesstride+KRFout=(RFin−1)×stride+K参数量对比：3层3×3卷积（3×(32C2)=27C23×(3^2C^2)=27C^23×(32C2)=27C2）
【StarRocks系列】架构、核心概念漫步者TZ StarRocks StarRocks 数据库 mysql
目录一、架构：分布式MPP+列式存储+向量化引擎二、存储：高性能列式存储引擎三、表设计：三类模型适配不同场景四、数据写入：多种方式支持实时与批量五、数据读取：极致优化的查询引擎总结：StarRocks的核心优势以下是StarRocks核心概念的详细解析，涵盖架构、存储、表设计、数据写入与读取：一、架构：分布式MPP+列式存储+向量化引擎FE(Frontend)节点职责：元数据管理、SQL解析、查询
《AI之路：从零到精通的人工智能学习指南》大模型入门学习人工智能产品经理 AI大模型 llama 大模型
01—人工智能开发入门掌握Python基础语法，对后续学习打下坚实基础。Python编程基本语法数据结构函数面向对象多任务模块与包闭包装饰器迭代器Numpy矩阵运算NadrrayScalarsBoradcasting矩阵运算矩阵转置矩阵求逆Scipy数值运算库Scipy基本使用Scipy常量Scipy稀疏矩阵Scipy图结构Scipy空间Scipy插值Pandas数据科学库自带数据结构数据读取写入
【AI大模型】数据处理用心分享技术 AI大模型人工智能 oracle 数据库
一、源文档读取为构建我们的本地知识库，我们需要对以多种类型存储的本地文档进行处理，读取本地文档并通过前文描述的Embedding方法将本地文档的内容转化为词向量来构建向量数据库。在本节中，我们以一些实际示例入手，来讲解如何对本地文档进行处理。二、数据读取1.PDF文档我们可以使用LangChain的PyMuPDFLoader来读取知识库的PDF文件。PyMuPDFLoader是PDF解析器中速度最
Pytorch学习 day06（torchvision中的datasets、dataloader）丿罗小黑 Pytorch pytorch 学习人工智能
torchvision的datasets使用torchvision提供的数据集API，比较方便，如果在pycharm中下载很慢，可以URL链接到迅雷中进行下载（有些URL链接在源码里）用来告诉程序，数据集存储的位置，共有多少样本等代码如下：importtorchvision#导入torchvision库#使用torchvision的datasets模块，模块中包含CIFAR10、CIFAR100、
Pytorch学习torch.clamp ()用法浅析 Midsummer-逐梦 #torch pytorch 学习人工智能
首先给出官方对此函数的定义网页：torch.clamp—PyTorch2.1documentation一、官方定义torch.clamp(input,min=None,max=None,*,out=None)→Tensor其中：input:输入张量，即需要进行元素限制的张量。min:张量中的元素的最小值。如果元素小于这个值，将被替换为这个最小值。max:张量中的元素的最大值。如果元素大于这个值，将
25、用pandas库进行数据的读取和写入【用Python进行AI数据分析进阶教程】理工男大辉郎 pandas python 人工智能数据分析
用Python进行AI数据分析进阶教程25：用pandas库进行数据的读取和写入关键词：pandas库、数据读取、数据写入、CSV文件、Excel文件摘要：本文详细介绍了使用Python的pandas库进行数据读取和写入的方法。在数据读取方面，涵盖了从CSV文件、Excel文件及SQL数据库中读取数据的方式，包括指定文件路径、工作表名称、数据库连接信息等关键点。在数据写入方面，讲解了如何将数据写入
panda库数据处理常用操作一尾清风915 python 爬虫搜索引擎
直接问的deepseek，放在这里存一下一、数据读取与保存1.pd.read_csv()/pd.read_excel()：读取数据importpandasaspddf=pd.read_csv("data.csv")#读取CSV文件df_excel=pd.read_excel("data.xlsx")#读取Excel文件2.df.to_csv()/df.to_excel()：保存数据df.to_cs
简化OPC UA客户端开发：统一架构与数据访问 Lemaden
本文还有配套的精品资源，点击获取简介：OPCUA（统一架构）是一种工业通信标准，整合了早期OPC规范，提供安全可靠的数据交换。它允许客户端软件连接到服务器，执行数据读取/写入、报警接收、事件处理等操作。本课程将介绍OPCUA客户端的核心功能，包括连接管理、节点管理、数据订阅、事件处理和安全性。同时，将探讨一个名为“h-opc-master”的开源项目，它可能提供了一个简化API的OPCUA客户端库
【AI Study】第四天，Pandas（2）- 数据操作基础 co-n00b AI Study 人工智能 pandas ai
文章概要本文详细介绍Pandas的数据操作基础知识，包括：数据读取与写入数据选择与过滤数据清洗数据排序实际应用示例数据读取与写入CSV文件操作#读取CSV文件df=pd.read_csv('data.csv')#写入CSV文件df.to_csv('output.csv',index=False)#读取特定列df=pd.read_csv('data.csv',usecols=['列1','列2'])
香港酒店数据分析完美的奶酪数据分析 python matplotlib numpy pandas
数据读取importpandasaspdimportnumpyasnp#读取保存的预得理好的数据df=pd.read_excel('./酒店数据1.xlsx')#print(df.head())#查看“评分”的格式print(df['评分'].dtypes)#并分别进行升序和降序排序.对酒店按照价格进行排名，计算“油尖旺”地区的均价print("对评分进行升序排序")print(df.sort_v
EasyExcel 4.X 读写数据北执南念 excel spring boot 后端 java
文章目录EasyExcel与SpringBoot集成读数据读取数据的流程定义实体类简单读取自定义监听器读取指定sheet和所有sheet多行头读取数据格式转换列表数据实体类自定义转换器自定义监听器数据读取写数据简单数据写出存储到磁盘返回前端下载写出指定列宽，和数值精度丢失问题设置列宽精度丢失问题同一sheet写多次写出多个sheet自定义样式合并单元格通过注解方式合并自定义合并百万级别数据读写多线
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

PyTorch入门学习（七）：数据加载与处理

Ignore warnings

Apply each of the above transforms on sample.

Helper function to show a batch

你可能感兴趣的:(Pytorch学习,数据读取)