When trying to grant an amazon account access to S3 using access
control lists what method of identification should you use to
identify that account with?
The email address of the account or the canonical user ID
Which of the following is not supported by AWS Import/Export?
You work for a market analysis firm who are designing a new
environment. They will ingest large amounts of market data via
Kinesis and then analyse this data using Elastic Map Reduce. The data
is then imported in to a high performance NoSQL Cassandra database
which will run on EC2 and then be accessed by traders from around the
world. The database volume itself will sit on 2 EBS volumes that will
be grouped into a RAID 0 volume. They are expecting very high demand
during peak times, with an IOPS performance level of approximately
15,000. Which EBS volume should you recommend?
Which of the following is not a valid configuration type for AWS
Storage gateway.
Which of the following is NOT a valid SNS subscribers?
EC2 Exams wrong
Placement group can be in mutiple AZs?
Can delete a snapshot which is root volume of an AMI?
In a default VPC, all AWS EC2 instances are assigned 2 IP addresses
at launch are: Private IP address and public IP Address.
If a instance is provisioned in a public security group, it’s not
automatic pulic to internet
Additional exam tips
Used to consume big data
Stream large amounts of social media
Process large amounts of data:
Redshift for business intelligence
EBS vs instance store
EBS are persistent
EBS can be detached and reattached to other EC2 instances
Instance store are not persistent, lost data when stop EC2 instance
Cannot be detached and reattached, they exist only for the life of
that instance
Price is lower: Bằng cách tổng tất cả các chi phí vào 1 tài khoản ->
được giảm giá
VPC Peering
Nối các vpc với nhau
Có thể nối các vpc ở các AWS account khác nhau nhưng cùng 1 region
Không có tính bắc cau
Không thể peer nếu các VPC trùng internal block ip
Direct connect
Kết nối your intranet và Amazon VPC
Security Token SErvice (STS)
Grant users limited and temporary acces to AWS resources. Users can
come from three sources
Elastic container service
ECS: Allows you to manage docker containers on a cluster of ec2
Images are stored in a Registry, such as DockerHub or AWS ECR (Amazon
EC2 Container Registry)
A Task definition is required to run Docker containers in Amazon ECS
are text files in JSON format that describe one or more containers
that form your application
Nhu la 1 cloud formation template but for docker, configure things
such as the amount of CPU, RAM etc
Allows you tu run and maintain a specified number of instances of a
task definition simultaneously in an ECS cluster
ECS cluster is a logical grouping of container instances that you can
place tasks on
Cluster can contain multiple different container instance types
Are region-specific
Container instances can only be part of one cluster at a time
Can create IAM policies for your clusters to allow or restitrct
users’access to specific clusters
Review quizlet
IAM - Identiy and Access Management
Setup áp dụng cho toàn bộ region
root account = accout khi đăng nhập bằng email.
Có mọi quyền thực thi mọi thứ trên aws
Administration Access
Power user có mọi quyền truy cập vào các resource của aws nhưng ko
thể thay đổi user và group trong IAM.
Power user permission
Default secret key only showed once when finishing creating a new
Can create new access-secret key.
Có thể thêm permission cho user bằng cách add user vào 1 group hoặc
thêm trực tiếp permission mà ko cần thông qua group.
1 user can be member of maximum 10 groups
IAM roles are a secure way to grant permissions to entities that you trust. Examples of entities include the following:
IAM user in another account
Application code running on an EC2 instance that needs to perform actions on AWS resources
An AWS service that needs to act on resources in your account to provide its features
Users from a corporate directory who use identity federation with SAMLflymd
Ví dụ tạo role cho EC2 có thể call các service khác như Lambda, S3
Roles -> Create role -> EC2 -> Select use case -> Choose permission
Khi gán role cho ec2 instance thì instance đấy có thể kết nối đến aws
mà không cần phải configure credential.
Được tạo trong IMA và là global cho mọi regions.
Gán cho EC2 instance một role thì có thể tự động truy cập lệnh aws ở
trong instance đó mà không phải lưu key, secret
Có thể thay đổi role của một instance kể cả sau khi đã launched sử
dụng console hoặc command
Role là global
Is a document that provides a formal statement of one or more
Object storage vs block storage (EC2)
Key - value storage
Key ( object name)
Value (sequence of bytes)
Version ID (Important for versioning)
Metadata (created date, updated date …)
File is 0 - 5TB and storaged in bucket (aka folder)
Unlimited storage
When write object (PUT new objects) then you can read it immediately but when update or delete (PUT or DELETE) object it takes time to update.
For data that is accessed less frequently but requires rapid access when needed.
Reduced Redundancy Storage: dùng để lưu trữ các data có thể generate ra được ? ( Ví dụ thumbnail của ảnh …)
Dùng để lưu archieved datas, mấy vài tiếng đến vài ngày để lấy được data.
Number of requests
Storage management pricing ( phí quản lý các loại data theo tag …)
Data transfer pricing
S3 transfer acceleration
Sử dụng các server cloudfront phân tán để tăng tốc tộ upload file của
người dùng.
Version controlling
Store all versions of objects
Can’t be disabled, only suspended
Can use MFA mutil-factor authentication when deleting.
Version control must be enabled in both buckets
Only new or changed files is copied.
Permission not copied
Security and encryption
Bucket policy
Policy cho toàn bộ object trong bucket
Access Control List ACL
Policy cho từng object riêng biệt trong bucket hoặc cho cả bucket
In transit
Mã hoá trong khi truyền dữ liệu sử dụng ssl/tls
At rest
Server side
Client side You encrypt your files and upload to S3.
Cloudfront - CDN
Cache dữ liệu tại 50 edge location trên thế giới giúp giảm độ trễ.
Storage gateway
Valid configuration type:
Gateway-cached volumes
gateway-stored volumes
Gateway-virtual tape library
On Demand: trả tiền theo từng giờ ( windows instance) hoặc từng giây
( linux instance)
Tự scale vào 1 khoảng thời gian nhất định
Reserverd: Đặt trước với capacity reservation, bằng cách ký hợp đồng
1 hoặc 3 năm.
Giảm giá cho từng giờ sử dụng.
Spot: Cho phép chọn giá mà bạn muốn cho instance capacity -> giúp tiết kiệm
Ví dụ một bệnh viện có nhiều dữ liệu nhưng muốn giảm cost và cho thống kê chạy trong khoảng 0am-4am => Đấu giá
Nếu tự terminate EC2 thì sẽ phải trả luôn cả giờ làm tròn (2h30 thì coi như đến 3h)
Nhưng nếu EC2 bị terminate do giá cao hơn giá bid thì sẽ chỉ phải trả 2h
Spot nghĩa là tập trung 1 điểm nào đó nếu như ứng dụng của bạn có flexible start and end times.
Dedicated hosted: host được tạo ra để dùng riêng cho bạn.
Sử dụng các liencse có sẵn
Sử dụng các server có sắn
Different types of virtualization available on EC2
Para-Virtual (PV) and Hardware Virtual Machine (HVM)
Instance types
Dense Storage
FileServer, DataWareHouse, Hadoop
Memory Optimized
Memory Extensive Apps
General purpose
Application Server
Computed Optimized
Cpu extensive app
Graphics Intensive
Video encoding, 3d Application streaming
High speed storage
NoSQL DB, Datawarehouse
Field programable gate array
Hardware acceleration for your code
Low cose, general purpose
Webserver, small DBs
Graphic, general purpose GPUs
Machine learning, bitcoin mining
Memory optimized
Apache SPARK…
GP2: General Purpose SSD
IOPS: 3 -> 10000, burst up to 3000
Provisioned IOPS SSD
Sử dụng cho các ứng dụng sử dụng nhiều IO như large relational database or NoSQL database
IOPS: > 10000
Throughtput Optimized HDD (ST1)
Big data, data warehouse, log volumn …
Can’t use as boot volumn
Cold HDD
Sử dụng cho các workload thỉnh thoảng mới được sử dụng
File server
Can’t use as boot volumn
Volumn giá rẻ nhất mà có thể boot được
Sử dụng cho workload thỉnh thoảng được sử dụng
Một khi đã tạo thì không thay đổi được volumn
Không thể encrypt boot volumn của các AMI default nhưng có thể
encrypt cho các AMI mà mình tạo ra .
You can’t mount 1 EBS volume to multiple EC2 instances, instead use
Default thì EBS sẽ bị deleted khi Ec2 instance của nó bị terminated
nhưng có thể lựa chọn để giữ lại được.
Turn off flag deleteOnTemination
Thực hành, snapshot
Muốn thay đổi AZ của volumn thì phải tạo snapshot -> tạo volumn mới
từ snapshot và thay đổi AZ của volumn này.
Snapshot is stored in S3.
Phải stop instance thì mới tạo được snapshot
Chụp snapshot từ lần thứ 2 sẽ nhanh hơn lần đầu do chỉ các phần thay
đổi mới được copy.
Tự động encrypt volume
Có thể share các unencrypted snapshot cho các tài khoản AWS khác hoặc
đăng public.
Muốn tạo snapshot cho các ổ đãi RAID thì trước hết phải ngừng tất cả
các thao tác IO rồi sau đó flush cache và terminate instace rồi mới
tạo snapshot.
Root volumne : EBS vs instance store
Instance store - Ephemeral Storage : không thể bị stop. Một khi nó bị
stop do underlying system (aws system) thì nó sẽ bị mất hết dữ liệu.
EBS có thể stop mà không mất dữ liệu.
Cả 2 đều có thể reboot mà ko mất dữ liệu.
Thông thường cả 2 sẽ mất dữ liệu khi bị terminated nhưng EBS cho phép
lựa chọn giữ lại dữ liệu trong root volume.
EBS volume được tạo ra từ EBS snapshot
Instance volume được tạo ra từ template stored trong S3
Security groups
Có thể add security groups vào 1 ec2 instance.
Stateful: Khi bạn add 1 inbound rule thì nó sẽ tự động add outbound
rule tương ứng
Có thể cài đặt các allow rule nhưng không thể tạo ra các deny rule
Sử dụng network access list trong VPC
Mỗi Security group chỉ tồn tại trong 1 region? // Cần confirm
Network and security
Key pairs
Hiển thị các key pair ssh
ELB - Elastic Load Balancer
Phải để security group cho các node open thì load balancer mới
checkhealth đượckj.
Application Load Balancer
LB ở tầng thứ 7, Application Layer.
Mới xuất hiện
Hiệu quả tốt hơn Classic Load Balancer
Có thể thêm target group để chỉ định protocol và port mà muốn tạo
load balancing
Classic load balancer
Hoặc động ở tầng thứ 4, TCP Layer
Load balancer protocol: Là giao thức để chuyển balancing cho các node
EC2 instance meta-data
SSH vào instance và curl đến đia chỉ để lấy meta của instance .
Bootstrap scrip
Khi launch 1 instace
Configure detail -> Advanced detail -> User data -> paste bootstrap
scrip into here.
Create auto-scaling group
Tạo autoscaling group template: là template của các instance được tạo
thêm để scaling
Nhấn vào sẽ đi đến chỗ cấu hình 1 ec2 instance giống với khi launch 1 instance
Group size: số instance được tạo ra ban đầu
Subnet: các AZ được sử dụng để tạo các instace khi auto-scaling
Load balancer: Thêm các instace được tạo ra để scaling vào 1 nhóm
load balancer
Auto-scaling policy
Khi nào thì thêm instance
Elastic File System EFS
Is a file storage service for EC2.
Tự tăng giảm kích thước khi thêm hoặc xoá files.
Data được lưu cross trong các AZ của 1 region.
Block base storage ( S3: object base storage)
Giúp việc lưu giữ file ( thuường là server file) được tập trung lại 1 nơi
EFS : nhiều instances cso thể mount vào 1 EFS. EBS: chỉ 1 instance có
thể mount vào 1 EBS
ENI - Elastic Network Interface
is a logical networking component in a VPC that represents a virtual network card.
Là nơi bạn upload code và AWS sẽ lo tất cả về phần server. Chỉ cần
tạo event trigger.
Phù hợp cho các service event-driven
Xử lí các response từ API gateway hoặc các api call từ AWS SDKs.
LAMBDA có thể trigger các lambda khác hoặc các service khác của AWS
Mỗi 1 xử lý cho 1 event là 1 instance của LAMDA. Các instances của
lambda có thể ở các AZ hoàn toàn khác nhau.
Tự scale -> không cần quan tâm về Elastic Load Balancer …
Thực hành
From scratch:
Runtime: C#, Python, Java, Go, Nodejs
Một function không thể có thời gian xử lý quá 5p. Nếu quá phải break
ra thành nhiều function và cho chúng gọi lẫn nhau.
Sử dụng AWS-XRay để debug Lambda
API gateway
Enable CORS on method/resource ??
Mục đích là gì?
API key and usage plans??
Phải config endpoint cho phía client trùng với endpoint của API
Change lambda role to role containing “cdaLambdaRole”
Execution role?
Ensure Lambda can post to DynamoDB
Configure SQS for anyone to post to queue
Route 53
By default, Amazon DNS khong response lai cac request tu ben ngoai
Exam notes
ELB do not have pre-defined IPv4 address, you resolve to them using a
DNS Name
Top level domains: The last word in a domain name.
Ex: .com, .edu, .gov…
The second level domain name: The the second word in domain name
Ex: .co (.co.uk), .gov (.gov.uk)
The top level domain names are controlled by IANA (Internet Assigned
Numbers Authority) in a root zone database which consitent all
available top domain names.
A registra is an authority that can assign domain names under one or
more top-level domain names.
Each domain is registered in a central database called WhoIS
SOA Records
NS Records
A Record: Used by computer to translate the name of the domain to the
IP address.
TTL: Time to Live
The length that a DNS Record is cached in Resolving Server or users
own local PC
When you go to a website, your PC is going to check whether or not it
has that address in cache. If not it is going to the DNS resolving
CNAMES: A Conanical Name
Map a domain to another domain name.
CNAME can’t be used for naked domain names (domain that doesn’t have
‘www’), it must be an A record or an alias.
Alias records:
Work like a CNAME record in that you can map one DNS name to another
‘target’ DNS name.
Routing policies
Database 101
Exam tips
Get free storage AP: getStorageSpace
RDS - Online transaction processing - OLTP
6 copies of my date are stored by default.
Maximum backup retention period: 35days.
Automated backups are enabled by default for a new DB instance.
RDS does not currently support increasing storage on a SQL Servce DB
in RDS, changes to the backup window take effect immediately
DynamoDB - NoSQL
Can not select a specific AZ in which to plce your DynamoDB table
Redshift - OLAP - Online analysis processing
Copy production DB and run analysis queries in copied DB so it doesn’t harm the production DB.
The combined Value, Name must not exceed 400KB
Multi-AZ Read replicas
Two types of backups: Automated backup, Database Snapshots
Automated backup
Enabled by default
Stored in S3, you get free storage space equal to the size of the DB
Deleted when RDS is deleted
Snapshot - Stored even after original RDS instances is deleted.
Restored version of RDS will be a new RDS instance with new DNS endpoint.
Disaster Recovery only.
Have a extracy copy of your production DB in another AZ.
AWS handles the replication for you so when your DB is written to this write
will automatically be synchronized to the stand by database.
Improve performance.
Allow you to have a read-only copy of production DB.
Use read replicas primarily for very read-heavy database workloads.
Maximum 5 replicas
Cloudwatch should watch getReplicaLag
Columnar storage
Advanced compression
MPP: Massively parallel processing: automatically distributes datas and
query across all nodes.
Compute node hours
Data transfer
Currently only avaiable in 1 AZ
Can restore to new AZ
Block size for its columnar storage: 1024KB / 1MB
Webservice makes it easy to deploy, operate, slace in in-memory cache in the
Support two open-source in-memory caching engines:
Memory object caching system.
Opensource in-memory key-value store that supports datastructure such as
sorted sets and lists.
Each regions -> max 5 VPCs
Automatically created:
Route table
Network ALC (Access control list)
Inbound rule va outbound rules rieng biet
Security group
All outbound traffic is allowed by default
Network address translation (NAT)
NAT instance
Disable source/destination check
Must be in public subnet
Route out of the private subnet to NAT instance
Traffic depends on NAT instance size.
Associate with security group
Have to disable Source/Destination Checks
NAT gateway
Auto scale to 10Gps
Not associate with security group
Automatic assigned public IP
More secure than NAT instance
Network ACL
Can associate ACl with multiple subnets
If don’t, subnet automatically associated with default ACL
A subnet can associate with one ACL, one ACL can associated with multiple
Contains number of rules in order and evaluated starting from lowest value.
Pull based system
Messages size is 256KB
Messages kept in queue 1 minute to 14 days
Default is 4 days
Visibily time out is the amount of time after the reader picks up the message.
Max is 12 hours
If the message is processed by provided job then the message will be deleted.
If not, the message is visible again and another process will process it
This results the same message being delivery twice
SQS is pull based, not push based.
Messages are 256kB size
Messages can be kept in queue from 1 minut to 14 days. Default is 4 days.
Visibility Time out is the amount of time that the message is invisible in SQS queue after a reader picks up the message. If the reader processed before the the visibility time out expires, the message wil be deleted. If not, the message will be came visibility again and another process will process it. This could result the same message is processed twice.
SQS ensures that a message will be processed at least once.
Long polling:
Not return a response if the message queue being polled is empty
Return a response when a message arrives in the message queue. Or the long poll times out.
Can’t be FIFO.
Task oriented queue
Ensure task is assigned only once and is never duplicated.
Workflow starters: Start a workflow.
Deciders: Control flow of activity task in workflow execution.
If something has finished in workflow or failed, Deciders decides what to do next.
Acitivity workers: Carry out the activity tasks.
Elastic transcode
Jobs, pipelines, presets, notifications
Convert file type
Is a platform in AWS allow you to send streaming data. Make it easy to
load and analyze data.
Kinesis stream
(PC, SP, Ec2)
-> (Kinesis Stream): Store data in shards for 24 by default and can
be set to max 7 days
-> (Ec2): Consumers: Take the data and turn it to somthing useful.
Kinesis Firehose
(PC, SP, Ec2)
-> (Kinesis Firehose):
Don’t worry about manually adding shard.
Use lambda to analyze data in realtime.
After analyzing you can send it to S3.
-> S3 / Redshift, ElasticSearch
Kinesis Analytics
Allow you to run sequel queries then store into S3, Redshift,
ElasticSearch cluster.
General design principles
Stop guessing your capacity needs.
Cloud scales automatically
Testing systems at production scale
Automate make architectual experimentation easier
Allow for evolutionary architectures
Data-driven architectures
Apply security at all levels
Subnet, Access control list (ACL), …
Enable traceability
Automatet responses to security events
Automate security best practices
Data protection
Realiability in the cloud consists of 3 aresas:
How are you managing AWS service limits for your account?
How are you planning your network topology on AWS
Change management
How to adapt to changes in demand
How to monitor AWS resource
How to execute change management
Failure management
How to backup data
How to plan recovery
Perfomance effective
Use server-less architectures
Cost optimization
Matched supply and demand
Cost-effective resources
EC2 (reserved instanced - can moved to another region), AWS Trsuted
Expenditure awareness
Cloudwatch alamrs, SNS
Optimizing over time
AWS Blog, AWS Trusted Advisor
NRT: Gần Realtime, 1 document có thể được indexed và searchable trong vòng 1s
Cluster: 1 tập hợp các node
Node: 1 phần của cluster
Lưu trữ data
Tham gia vào quá trình index, search của cluster
Join vào cluster bằng naming convention?
1 cluster có thể có bn node tùy ý
1 collection của các document có thuộc tính tương tự nhau
Có thể chứa vô hạn documents
Đơn vị chưa thông tin có thể indexed được
Lưu dưỡi dạng json
Shards, Replicas:
Chia index ra các shards bởi vì nếu để vào 1 node thì kích thước index quá lớn hoặc mất quá nhiều tg đế lấy data cho 1 request
1 shard là 1 đơn vị độc lập, full chức năng, và có thể được hosted ở any node
Giúp tăng khả năng horizontally split or scale, parallelize operations across shards
Replicas shards i.e Replicas là bản copy của shard để có thể fail over và parallelize
Transfer : Same region -> no cost, otherwise charged
Versioning: all version is summed up
Access control: IAM policy, bucket policy, ACL, Query String Authencation
Standard IA :
deleted from S3 Standard-IA within 30 days will be charged for a full 30 days.
has a minimum object storage charge of 128KB. Objects smaller than 128KB in size will incur storage charges as if the object were 128KB.
Glacier APIs to access objects that I’ve archived to Amazon Glacier? - Only accessible through the Amazon S3 APIs or the Amazon S3 Management Console.
Query in place
S3 select
Amazon Athena
Redshift spectrum
s3 noti
no cost
s3 transfer acceleration
Object tag
No cost
Cross-region replication
Do labs
DONE File gateway: using industry-standard file protocols
DONE Volumn gateway: Can mount
Cache volume:
Retain a copy of frequently accessed data subsets locally
Stored volume
store all your data locally and backup point-in-time to S3
For example, if you need replacement capacity for disaster recovery, you can recover the backups to Amazon EC2.
DONE Tape gateway:
cost-effectively and durably archive backup data in Amazon Glacier
[X] VPC endpoints, Ec2 internet accessibility
A VPC endpoint enables you to create a private connection between your VPC and another AWS service.
Interface endpoint : is an elastic network interface with a private IP address that serves as an entry point for traffic destined to a supported service
Gateway endpoint: A gateway endpoint is a gateway that is a target for a specified route in your route table, used for traffic destined to a supported AWS service
When traffic stays in VPC or goes over the public internet
VPC Flow Logs
Publishing Flow Logs to CloudWatch Logs / S3
Security groups vs network ACLs: IP blacklist
Ex: How to keep private S3 connections when using VPNs
Convertible Standard reserved vs Reversed Instances
Task definition: This a blueprint that describes how a docker container should launch
Task : This is a running container with the settings defined in the Task Definition.
Service — Defines long running tasks of the same Task Definition
Container Instance — This is just an EC2 instance
Cluster — A logic group of EC2 instances
Beanstalk is much more of a Platform-As-A-Service (PaaS). You push your raw code to it and it handles setting up the services, deploying code, and controlling the environment.
Split up processing jobs, non-critical batch component
Beanstalk vs CodeFormation vs CodeDeploy vs ElasticCache
You can enable access to your remote network from your VPC by attaching a virtual private gateway to the VPC
A virtual private gateway is the VPN concentrator on the Amazon side of the VPN connection
When you update a Lambda function, there will be a brief window of time, typically less than a minute, when requests could be served by either the old or the new version of your function.
Limit for number of concurrent executions per account per region
Applied at an account level
Multiple VPCs
Only by peering VPC
API gateway
Amazon API Gateway does not support unencrypted (HTTP) endpoints
